УДК 004.01:025.4.03
Л.А.Ходоровский Документ как структурная единица данных
В статье рассматриваются взаимосвязь между понятиями «информация», «данные», «документ» в применении как к традиционным, так и к электронным информационным ресурсам. Документ рассматривается как составная часть данных, их элемент. Определяются подходы к составлению описаний документов в документальных БД с целью организации эффективного поиска.
Ключевые слова: информация, данные, документ, электронный документ, документальный поиск
Leonard A. Khodorovskiy Document as a structural unit of data
The article deals with the relationship between the concepts of «information», «data», «document» as it applies to traditional as well as to electronic information resources. Document is viewed as a constituent part of data. In order to organize the effective search the approach to the compilation of document's descriptions in the documentary database is defined.
Keywords: information, data, document, electronic document, document search
Данная статья возникла как попытка дать в курсе информатики согласованные определения основных понятий информатики - информация, данные, документ.
Названные понятия относятся к числу первичных, основных понятий. Они используются при обсуждении весьма разнообразных аспектов информационной деятельности, и потому объективно существует большое количество разнообразных определений этих понятий. Эти определения отражают различные точки зрения на информационную деятельность. И, к сожалению, не всегда эти определения сформулированы достаточно точно и непротиворечиво.
Основные противоречия отмечаются в парах понятий информация - данные и информация - документ.
В обыденной речи термины «информация» и «данные» зачастую используются как синонимы: выражения «информация о выпуске продукции» и «данные о выпуске продукции» воспринимаются одинаково. И даже в терминологических изданиях информация определяется через данные, а данные - через информацию. Например, в Современном экономическом словаре1:
Информация - 1) любое сообщение о чем-либо; 2) сведения, данные, значения экономических показателей, являющиеся объектами хранения, обработки и передачи и используемые в процессе анализа и выработки экономических решений в управлении.
Данные - 1) факты и характеризующие их числовые, количественные показатели: имена, даты событий, сведения об экономических
процессах, местах действия; 2) сведения, обработанные специальным образом для принятия решений, информация (выделено мной. - Л. Х.).
В других случаях эти понятия разделяют. Но в одних работах данные определяются через информацию: «данные - информация, обработанная и представленная в формализованном виде для дальнейшей обработки»2, а в других -информация определяется через данные: «информация (выделено мной. - Л. Х.) - это смысл, который человек приписывает данным на основании известных ему правил представления в них фактов, идей, сообщений»3.
Весьма разнообразны варианты использования термина «информация» при определении понятия «документ». В «Общей теории документа и книги»4 приводится 25 определений документа. Большинство из них являются вариантами утверждения «Документ есть материальный объект, содержащий информацию» (которое мы будем обсуждать далее), но при этом одни определения строятся в форме «Документ - это информация, зафиксированная на материальном объекте...», другие в форме «Документ - это материальный объект с зафиксированной на нем информацией.».
Неудачные определения приводят к неразберихе в понятиях. Например, Ю. Н. Столяров показывает противоречивость терминов в ГОСТ 7.0-99: «Информационные ресурсы де-финируются как „совокупность данных, организованных для эффективного получения достоверной информации". В том же ГОСТе данные определяются как „информация, обработанная
и представленная в формализованном виде для дальнейшей обработки". Подставим это определение в понятие „информационные ресурсы": информационные ресурсы - совокупность информации (обработанной и представленной в формализованном виде для дальнейшей обработки), организованной для эффективного получения достоверной информации. Невнятность, тавтологичность данного определения в результате такой подстановки становится очевидной»5.
Попробуем рассмотреть более согласованные определения. При этом рассмотрение будем вести с точки зрения так сказать «технологического» подхода, т. е. такого, в котором на первый план выдвигается не оценка смысла информационных сообщений, а такие аспекты, как структура информации и данных, методы хранения и обработки данных, способы реализации информационного поиска и т.п.6 Эта точка зрения характерна для науки «информатика», в то время как содержание информации является предметом рассмотрения других наук и областей применения.
Нам представляется, что сформулированная в данной статье терминология может быть полезной при рассмотрении основных информационных понятий и в других областях.
1. Информация и данные
Информация есть отражение реального мира. Существуют различные точки зрения на содержание этого отражения, способы отражения, выявления смысла отражаемого и, соответственно, разные определения основных понятий, связанных с информацией и информационными процессами. Весьма подробно эти вопросы рассматриваются, например, в книге А. В. Соколова «Философия информации»7.
По определению В. М. Глушкова «информация в самом общем ее понимании представляет собой меру неопределенности распределения материи и энергии в пространстве и во времени, меру изменений, которыми сопровождаются все протекающие в мире процессы»8. Эти процессы протекают как в материальном мире, так и в духовном мире, мышлении людей.
А. Д. Урсул называет неоднородность распределения материи в пространстве и времени, неравномерность протекания процессов на всех уровнях движения и эволюции в мироздании разнообразием и связывает понятие информации с отражением разнообразия9. С каждым объектом (системой) связано свое разнообразие, свои характеристики неоднородности распределения материи и неравномерности протекания процессов.
Физический процесс взаимодействия систем (объектов) А и В заключается в том, что в зависимости от значений характеристик разнообразия системы А (обозначим его Rд) происходит изменение некоторых вещественно-энергетических характеристик разнообразия системы В ^в). Эти изменения реализуются либо в виде изменения параметров динамических процессов, либо в виде изменения свойств физических объектов (характеристик их внутренней структуры).
Изменения в характеристиках разнообразия RB неким образом зависят от характеристик разнообразия Rд Тем самым изменения разнообразия RB отражают состояние разнообразия RА. А. Д. Урсул отмечает, что отражение «выражается в том, что из всего содержания взаимодействия выделяется лишь то, что в одной системе появляется в результате воздействия другой системы и соответствует (тождественно, изо- или гомоморфно) этой последней»10.
Те значения характеристик разнообразия Rд, которые повлияли на изменение разнообразия RB, суть сведения об объекте А. Эти сведения и есть информация, передаваемая источником.
Взаимодействие между объектами А и В -это процесс передачи сведений: сведения о состоянии разнообразия RА перенеслись в какие-то характеристики состояния разнообразия RB, возникшего в результате взаимодействия.
Процесс передачи сведений от объекта А к В, как правило, представляется как последовательность нескольких (элементарных) отражений, связанных с последовательностью физических взаимодействий - физических процессов. Каждое физическое взаимодействие, как уже упоминалось, приводит к изменению либо параметров динамических процессов, либо свойств физических объектов. Разнообразие, характеризуемое значениями параметров динамических процессов, само динамично, постоянно меняется, преобразуется в разнообразие, связанное с последующими процессами взаимодействия. Результаты же изменения характеристик физических объектов статичны, они могут сохраняться во времени до тех пор, пока не будут изменены в процессе какого-нибудь другого процесса взаимодействия.
Два физических объекта могут взаимодействовать друг с другом только посредством связывающего их динамического процесса. В этом случае взаимодействие объектов А и В состоит как минимум из двух взаимодействий: объекта А с динамическим процессом ф и процесса ф с объектом В. Параметры динамического процесса ф отражают сведения об объекте А, а сведения о процессе ф (а, значит, и об объекте А) фиксируются в значениях характеристик физического объекта В.
Если объект В - физический объект, то состояние его вещественно-энергетических характеристик, возникшее в результате взаимодействия (разнообразие RB), представляет собой данные, в которых отражены сведения об объекте А.
Вышесказанное можно резюмировать, вводя следующие определения:
Процесс передачи информации от А к В - физическое взаимодействие, в результате которого характеристики разнообразия объекта А отражаются в изменении разнообразия объекта В.
Передаваемая информация - сведения об источнике, т. е. совокупность тех значений характеристик разнообразия объекта А, которые повлияли на изменение характеристик разнообразия объекта В.
Сигнал - динамический физический процесс, реализующий взаимодействие объектов А и В, влияющий на изменение разнообразия объекта В в соответствии с состоянием разнообразия объекта А.
Фиксация (регистрация) сигнала - изменение свойств физических объектов (характеристик их внутренней структуры) под действием сигнала.
Материальный носитель данных - физический объект, характеристики которого меняются под действием сигнала.
Данные - результат фиксации (регистрации) сигнала на материальном носителе, т. е. совокупность тех характеристик разнообразия объекта В, в которых отражаются сведения о разнообразии объекта А.
Сам по себе физический процесс «не имеет цели» нести информацию. Об информации имеет смысл говорить только в том случае, когда этот процесс начинают рассматривать как сигнал.
Процесс взаимодействия систем «не знает», что он связан с отражением (оценкой разнообразия) и с информацией. Он просто происходит. Результаты изменения характеристик материального носителя «не знают», что они данные и отражают информацию. Они просто возникают в процессе взаимодействия.
Но если рассматривать взаимодействие в рамках «информационного подхода», определения сигнала и данных могут быть сформулированы так.
Сигнал - динамический физический процесс, реализующий процесс передачи информации.
Данные - результат фиксации, представления информации на материальном носителе.
Например, данные - это и текст книги или
письма (в рукописном, печатном или электронном виде), и картина художника, и молекула ДНК, и следы падения Тунгусского или Челябинского метеорита.
Вышеприведенная дефиниция данных четко разделяет понятия информация и данные. Это позволяет устранить неразбериху, например, в ситуации, на которую указал Ю. Н. Столяров: «Из определения информационных ресурсов как „совокупности данных, организованных для эффективного получения достоверной информации" после подстановки определения „данные - это результат фиксации, представления информации на каком-либо материальном носителе" получается вполне корректная фраза: „информационные ресурсы - совокупность результатов фиксации, представления информации на каком-либо материальном носителе, организованных для эффективного получения достоверной информации"»11.
Информацию, циркулирующую в человеческом обществе, в настоящее время часто называют «семантической». В «Философии информации» А. В. Соколов приводит определение: «Семантическая информация - смысловое сообщение, выраженное знаками (одним знаком или их организованной последовательностью). Под смыслом сообщения понимаются знания, умения, эмоции, волевые побуждения, фантазии, являющиеся продуктами индивидуальной психической деятельности, которые могут быть поняты другими людьми. Понимание - необходимое условие движения семантической информации. Организованная последовательность знаков представляет собой текст»12. (Заметим, что точнее было бы называть текстом организованную совокупность (не обязательно последовательность) знаков).
Таким образом, информация выражается текстом. Под понятие текста подпадают и результаты регистрации показаний прибора, и картина художника, и запись симфонического концерта и пр. При этом текстом может быть и сигнал (концерт симфонического оркестра) и данные (запись этого концерта).
2. Данные и информационная коммуникация
Информация - понятие, связанное с представлением о коммуникации, передаче чего-то от источника к получателю. Это очевидным образом выступает в определении, данном в БСЭ:
Информация, первоначально - сведения, передаваемые людьми устным, письменным или другим способом (с помощью условных
сигналов, технических средств и т. д.); с середины XX в. - общенаучное понятие, включающее обмен сведениями между людьми, человеком и автоматом, автоматом и автоматом, обмен сигналами в животном и растительном мире, передачу признаков от клетки к клетке, от организма к организму.
В приведенном определении информация -это то, что источник передает получателю.
Не менее известным является определение, данное в ГОСТ 7.0-99:
Информация - сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации.
В этом определении информация - это то, что воспринимает получатель.
Это не случайно. Дело в том, что процесс информационной коммуникации содержит, как минимум, два этапа, два взаимодействия:
этап 1 - Сигнал от источника информации доходит до носителя данных, преобразуется и фиксируется на нем в виде данных;
этап 2 - Данные передаются получателю, который вычленяет, воспринимает содержащуюся в данных информацию.
Первый этап коммуникационного процесса: источник - данные. В качестве источника информации могут выступать как процессы реального мира, так и процессы выражения результатов духовной и мыслительной деятельности человека.
Пусть источник информации - процессы реального мира. Эти процессы сами по себе не ориентированы на наличие или отсутствие наблюдателя этих процессов. Они становятся источниками информации (сигналами), если рассматриваются с точки зрения участия в процессе коммуникации, а результаты фиксации сигнала на материальном носителе тех особенностей сигнала, которые служат для отражения разнообразия, рассматриваются как данные.
Пусть теперь источник информации - результаты духовной и мыслительной деятельности человека. Такие источники информации предполагают наличие получателя информации: так, результаты мышления выдаются в виде текстов (устных или письменных), предназначенных для восприятия слушателем (читателем); лицедейство актера рассчитано на восприятие его зрителем и т.п. (В частности, информация может быть направлена и самому себе).
Передача информации происходит либо в режиме непосредственного общения (син-
хронно), когда результаты духовной или мыслительной деятельности передаются автором получателю в устной форме, либо в режиме отложенного общения (диахронно), когда сначала создается некий текст, а затем, через неопределенный отрезок времени этот текст воспринимается получателем.
Очевидно, что в режиме отложенного общения исходящий от источника текст вначале должен быть зарегистрирован на носителе в виде данных, а через некоторое время извлечен из этих данных получателем (а, может быть, и никогда никем не извлечен). В режиме непосредственного общения, казалось бы, не требуется использование промежуточной сущности - данных. Однако, на самом деле, сигналы, получаемые человеком, после первичного преобразования на короткое время откладываются (фиксируются) в кратковременной (оперативной) памяти, а затем уже поступают в дальнейшую обработку, результаты которой загружаются в долговременную память.
Таким образом, и в случае, когда источником информации являются результаты духовной или мыслительной деятельности, первым этапом коммуникации является выдача передаваемых сведений источником и фиксация их в виде данных на материальном носителе.
Второй этап коммуникационного процесса: данные - приемник. На этом этапе сведения, смыслы, зафиксированные в данных, извлекаются из данных, если нужно, преобразуются и поступают в распоряжение воспринимающей системы. Роль такой системы может играть конкретный человеческий мозг, конкретный мозг животного, наследственная система конкретного организма или совокупность специальных программ в компьютере. Третий вид воспринимающей системы при желании можно считать подвидом первого -ведь исполнение программ в компьютере можно считать особым способом проявления деятельности человеческого мозга, инструментально поддерживаемой компьютером.
На пути от данных к приемнику можно выделить два шага. На первом шаге происходит «считывание» данных, преобразование их в текст, понятный воспринимающей системе. На втором шаге этот текст играет роль входной информации, которая далее обрабатывается совместно с другой информацией (знаниями), известной воспринимающей системе (т. е., в терминологии работы Ю. А. Шрейдера13, совместно с тезаурусом воспринимающей системы). Итогом такой обработки является получение актуальной информации - результата коммуникации между источником и получателем. Существеннейшее влияние на результат оказывает при
этом то, какие знания доступны воспринимающей системе и как она умеет ими пользоваться.
Можно назвать первый этап этапом кодирования (информация «кодируется» и «записывается» в виде данных), а второй этап - этапом декодирования (данные поступают в распоряжение воспринимающей системы, которая «декодирует» данные, выделяет из них информацию). В целом процесс передачи и получения информации представляется такой схемой:
Источник - кодирование ^
Данные - декодирование ^ Приемник
Например, кодирование информации о том, как выглядит поверхность Луны, заключается в том, что эта поверхность отражает солнечные лучи, отраженный свет достигает Земли, попадает (например) на фотопленку и производит на ней определенные физические изменения. Изображение, закрепленное на пленке - это и есть данные. Декодирование данных может заключаться в следующем: изображение с пленки преобразуется (выводится на экран или печатается в виде фотографии), результат преобразования воспринимается зрением человека, преобразуется к внутреннему представлению, обрабатывается мозгом человека с привлечением известных человеку знаний, и воспринимается, как актуальная информация, поступившая приемнику (человеку) от источника (поверхности Луны).
А. С. Пушкин закодировал свое очарование осенней порой в нескольких словах: «В багрец и золото одетые леса». Этот текст и есть данные. А декодирует эти данные каждый читатель по-своему. И есть основания полагать, что информация, полученная в результате декодирования этого текста жителем средней полосы, намного точнее отображает картину, очаровавшую поэта, чем результат декодирования жителем Крайнего севера или джунглей (даже хорошо знающим русский язык).
Вышеприведенная схема соответствует схеме коммуникации «источник - передатчик -канал - получатель - потребитель». В этой коммуникации участвует два вида информации: сначала исходная информация источника фиксируется в данных, затем воспринимаемая информация извлекается из данных получателем. Данные в этой схеме играют роль канала.
Несколько более подробный анализ процесса передачи информации показывает, что данные могут выступать в нескольких ролях. Весь процесс передачи информации можно разбить на три части, три процесса. Этапу кодирования соответствует процесс передачи информа-
ции от источника (реальная действительность) к данным, выступающим как приемник информации, этапу декодирования соответствует процесс передачи информации от данных (выступающих как источник) к оконечному получателю информации, а между этими этапами возникает промежуточный этап хранения данных, т. е. процесс передачи информации во времени:
Источник - кодирование ^
Данные - хранение ^
Данные -декодирование ^ Приемник
Информация, т. е. сведения о распределении материи и энергии, об изменениях в процессах - суть знания человека об окружающем мире, в том числе о человеческой деятельности.
Как отмечает Б. А. Семеновкер, «разница между знанием и информацией заключается в том, что они характеризуют человеческое познание с разных сторон: знание - с гносеологической, информация - в основном с коммуникативной. Информация - это знание, которое существует не только для данного человека, но и для других людей»14.
Таким образом, вся информации, употребляемая человечеством в его деятельности, воплощающая интеллектуальный и духовный потенциалы человечества, хранится в форме данных.
Поэтому вместо известного образа «океаны информации», уместнее был бы образ «континенты данных». А вместо терминов «информационный процесс», «хранилище информации» точнее было бы употреблять «процесс обработки данных», «хранилище данных».
Но эти термины не прижились в русском языке, может быть еще и потому, что слово «данные» грамматически неудобное, от него нельзя, например, образовать прилагательное и пр. Поэтому, несмотря на все вышесказанное, нет смысла требовать строгого разграничения понятий «информация» и «данные» в обыденной и даже, подчас, профессиональной речи. В конце концов, потребителя интересует информация, а не способ ее упаковки. Однако в узко профессиональных целях (которым и посвящена настоящая статья) необходимо четко соблюдать это разграничение.
Данные - это результат фиксации любой информации, однако, зачастую предпринимаются попытки каким-либо образом ограничить сферу действия этого понятия.
Например: «Данные суть факты, идеи, сведения, представленные в знаковой (символьной) форме, позволяющей производить их передачу, обработку и интерпретацию, а информация - это смысл, который человек приписывает данным
на основании известных ему правил представления в них фактов, идей, сообщений. Структурированная информация, т. е. связанная причинно-следственными и иными отношениями и образующая систему, составляет знания»15.
Возникают вопросы: «А что это за факты, идеи, сведения? Откуда они взялись? Разве в них не отражена какая-то информация? А знания (структурированная информация) должны как-то представляться и храниться? Разве не в виде данных?». Поэтому было бы корректнее сказать:
Исходная (первичная) информация (факты, идеи, сведения) фиксируется в виде данных. Воспринимаемая информация - это смысл, который человек приписывает данным на основании известных ему правил представления в них фактов, идей, сообщений. Полученная в результате обработки вторичная структурированная информация (связанная причинно-следственными и иными отношениями и образующая систему), составляет знания, фиксируемые в виде данных.
Т. е. и более «простые» сведения, и более «сложные» (знания) - это все информация, а данные - это результат фиксации как «простой», так и «сложной» информации. Поэтому можно говорить о разных типах данных, играющих разную роль в процессах обработки информации. Так, например данные, используемые в языке логического программирования Пролог16, подразделяются на два типа: факты («простые» утверждения) и правила («сложные» утверждения, знания).
3. Информатика и данные
В последнее время ведется много разговоров о расширении понятий о науке «информатика». Однако если говорить об информатике в рамках, соответствующих той науке, которую называют Computer Science, то предметом ее изучения являются именно данные: методы их создания, хранения, обработки и передачи.
А сама информация,зафиксированная в данных, ее содержательный смысл интересны пользователям информационных систем, являющихся специалистами различных наук и областей деятельности: медика интересует медицинская информация, геолога - геологическая, предпринимателя - коммерческая и т. п. (в том числе специалиста по информатике интересует информация по вопросам работы с данными).
Этим специалистам интересны также и пограничные между информатикой и конкретной областью деятельности методы преобразования информации в данные и извлечения информации из данных.
Информатика рассматривает общие закономерности и процедуры обработки данных, а в конкретных областях деятельности рассматриваются проблемы их конкретного применения. В этом смысле информатика похожа на математику.
Например, математиками была разработана теория дифференциальных уравнений в частных производных, она используется для решения многих проблем, в частности, физик Дж. Максвелл использовал эти уравнения для описания теории электромагнитного поля.
Аналогично: достижениями информатики являются теория реляционных баз данных (РБД) и разработка конкретных систем управления этими базами данных, а вариантам использования РБД во всевозможных областях деятельности несть числа.
4. Документ и данные
Рассмотрим теперь вопросы, связанные со структурой рассматриваемых «информационных сущностей». В процессе фиксации информации происходит занесение некоторой «порции информации» на какой-то материальный носитель в виде текста, представляющего собой «порцию данных». Будем далее «порцию информации» обозначать термином «сообщение».
При непосредственном общении «порция данных» сразу же поступает в «обработку», т. е. реализуется передача данных в режиме «адресант - адресат». При отложенном общении «порция хранимых данных» поступает к получателю в режиме поиска: «запрос - ответ». По инициативе получателя задается запрос, в соответствии с которым воспринимающая система выдает ответ. Для обеспечения этого процесса необходимо, чтобы воспринимающая система могла найти ту «порцию данных», где зафиксировано нужное сообщение.
Поэтому важнейшими вопросами построения процесса обработки информации (данных) являются вопросы о том, какова структура данных и как сопоставляются «порция информации» (сообщение) и соответствующая ей «порция данных» (текст).
Структура данных определяется, прежде всего, структурой материального носителя, на котором находятся данные. Материальный носитель представляется как совокупность некоторых «кусков», т. е. материальных объектов с определенными физическими свойствами. В качестве материального объекта может выступать лист бумаги, сброшюрованная пачка листов бумаги, магнитный или оптический диск, кусок холста и др.
Все пространство хранения данных - это
совокупность материальных объектов, на которых зафиксированы те или другие данные. Таким образом, основным структурным элементом данных является совокупность данных, расположенных на одном материальном объекте. Такую совокупность обычно связывают с понятием «документ».
Не всякий материальный объект с зафиксированными на нем данными является документом. Например, только что найденный в Великом Новгороде кусочек берестяного письма не является документом, и станет им тогда, когда будет зафиксировано, где и когда он был найден, а сам кусочек получит учетный номер.
Для того чтобы выбрать объект, идентифицировать его, нужно знать его характеристики, отличающие его от других объектов. Если выбор осуществляет непосредственно человек, он может ориентироваться как на «информационные» характеристики объекта (название, автор, год издания, текстовое описание и пр.), так и на характеристики, воспринимаемые чувственно (цвет, форма, размер, вид носителя и пр.). Например: «Дедушкина толстая синяя записная книжка». Если же поиск осуществляется с помощью вспомогательных средств (каталоги, компьютер), то объект можно идентифицировать только «информационно», с помощью таких характеристик как шифр, инвентарный номер, и т. п.
С учетом вышесказанного введем следующее определение понятия «документ».
Определение О1. Документ - это идентифицируемый материальный объект, содержащий данные.
Читатель нашей статьи знает, что данные -результат фиксации, отображения информации на материальном носителе. Однако так как бытует несколько пониманий термина «данные», имеет смысл отразить нужное понимание этого термина прямо в определении документа:
Определение О2. Документ - это идентифицируемый материальный объект, содержащий данные, отображающие некоторую информацию.
Строго говоря, определение О2 избыточно, но в ряде случаев может быть более приемлемым, чем О1.
В соответствии с определением О2 можно описать документ формулой, в которой отмечена связь между тремя составляющими документа: объект, данные, информация:
Документ = Объект + Данные + Информация.
По-другому, учитывая то, что данные представляются текстом, а содержащаяся в них информация есть сообщение:
Документ = Объект + Текст + Сообщение.
Учитывая распространенную в обиходе практику смешения понятий «информация» и «данные», можно считать, что в большинстве случаев вместо определений О1 и О2 можно использовать определение:
Определение О3. Документ - это идентифицируемый материальный объект, содержащий информацию.
Таким образом, документ представляет собой особый тип объектов: Документ - это объект, отличающийся от обычного объекта тем, что он содержит информацию.
Определение О3 отражает две разные ипостаси документа, в соответствии с которыми он может быть интересен потребителю: «что это за информационный объект» и «про что он». А именно: иногда интересно иметь сведения о документе как объекте, о его правовом статусе и других характеристиках, в том числе, может быть, и об информации, отражаемой в этом документе. В других случаях потребителя интересует собственно информация о чем-то, в том числе, может быть, сведения о документе (объекте), содержащем эту информацию.
Там же, где требуется определенная точность, специалисту может быть интересен и третий аспект - вопрос о том, как устроены данные рассматриваемого документа: какова их структура, объем, на каком языке написан документ и пр.
В частности, так как документ - элемент данных, он выполняет функции, присущие данным. Т. е. документ может рассматриваться как канал передачи информации, он может играть роль приемника информации, источника информации, может выполнять функции хранения информации.
Свойства материальных объектов, являющихся документами, принято называть реквизитами документа. Это - название объекта (если оно есть), вид материального носителя, его объем, местонахождение и др. Некоторые из реквизитов играют роль идентифицирующих реквизитов, позволяющих отличить один документ от других.
Подчеркнем: с помощью реквизитов можно идентифицировать документ как объект; можно идентифицировать фрагмент данных (если это позволяет структура данных). Но нельзя идентифицировать информацию - смысл сообщения. Однако, в стандарте ГОСТ Р 51141-98 «Делопроизводство и архивное дело. Термины и определения» говорится: «Документированная информация (документ) - зафиксированная на материальном носителе информация с рекви-
зитами, позволяющими ее идентифицировать». Здесь непонятно, что значит «реквизиты, позволяющие идентифицировать информацию». В соответствии с приведенными выше дефинициями следовало бы говорить: «Документированная информация (документ) - информация, зафиксированная в виде данных на материальном объекте, с реквизитами, позволяющими идентифицировать этот объект». Интересно, что приведенное в этом ГОСТе определение приводится и в Федеральном законе 1995 г. «Об информации, информатизации и защите информации»17. Однако в Федеральном законе 2006 г. «Об информации, информационных технологиях и защите информации»18 дефиниция дается более (хотя, на наш взгляд, и недостаточно) аккуратно: «Документированная информация - зафиксированная на материальном носителе путем документирования информации с реквизитами, позволяющими определить такую информацию или в установленных законодательством Российской Федерации случаях ее материальный носитель».
В обиходе под документом, чаще всего, понимаются правовые (постановления, указы, паспорта, договоры и т. д.) и управленческие (приказы, директивы, ведомости, справки) документы. Однако документом являются и книга, и фильм, и картина художника, и экспонат музея.
Экспонат из коллекции минералов (камень) может сам по себе быть носителем данных, в роли которых выступают его форма, цвет, структура и другие признаки, несущие информацию, понятную специалисту по минералогии. Но сам по себе он не может быть документом. Для того чтобы рассматривать его как документ, нужно приложить (или приклеить) к нему этикетку, на которой он определен как объект - указан номер этого экспоната, его название и некоторые характеристики (или только номер в коллекции, если существует еще один текст, в котором дано описание всей коллекции).
Главная суть документа - запечатленная в его данных информация. Но для того, чтобы извлечь эту информацию, могут потребоваться дополнительные сведения: значения идентифицирующих реквизитов документа, описание физических характеристик материального объекта, структуры данных, их особенности (язык, объем, шрифт и пр.). Эти сведения принято называть метаданными (иногда часть этих сведений, описывающую структуру собственно информации, называют метаинформацией). Метаданные могут располагаться как на том же материальном объекте, где и текст информационного сообщения, так и, частично, в другом месте. Например, метаданные о книге печатаются в вы-
ходных данных самой книги, а метаданные об экспонатах музея могут быть сосредоточены в каталогах и описях.
Приведенное выше определение документа (О1) носит формальный характер, определяет документ как структурный элемент данных с самой общей точки зрения. Однако в социальной деятельности документ важен, прежде всего, с точки зрения его участия в документационных процессах. Так, по дефинициям Е. А. Плешкевича, «под документом в рамках общей теории документа мы понимаем информационное сообщение, зафиксированное на материальном носителе и включенное в информационно-документационную систему с помощью метаинформации, содержащейся в реквизитах». А информационно-документационная система -это «искусственно созданная сложная система социальной информации, в рамках которой происходит информационное и документационное обеспечение социальной деятельности»19.
Разные информационно-документационные системы могут предъявлять разные требования к понятию «документ» и к способам его идентификации: к юридическим документам, производственным документам, книгам и пр. В соответствии с этим требуется уточнить характер взаимосвязи понятий «материальный объект» и «данные», упомянутых в определении О1.
Во-первых, документ как структурная единица может включаться в более крупные структурные образования - более сложные документы, а также в коллекции (собрания, совокупности) документов. Такую коллекцию, имеющую идентифицирующие ее реквизиты, конечно, тоже следует рассматривать как документ. Например, документ «личное дело сотрудника» включает документы «анкета», «приказ» и прочее. Однако такой документ может представлять из себя не один материальный объект, а совокупность материальных объектов, идентифицируемую как единый объект.
Во-вторых, совокупность данных, зафиксированных на одном материальном объекте, может иметь сложную структуру, состоять из таких частей, каждая из которых содержит отдельное завершенное сообщение и может расцениваться как отдельный документ в рамках соответствующей информационно-документационной системы. Например: юридические акты в сборнике юридических документов, статьи в периодическом издании и пр. Т. е. в общем тексте (данных) на одном материальном объекте можно выделить тексты нескольких документов. Чтобы можно было отдельно использовать эти тексты, они должны быть оформлены как отдельные фрагменты данных, идентифициру-
емые внутри общего текста: заголовком, адресом в оглавлении и пр. Каждый такой фрагмент соотносится не со всем материальным объектом, а с некоторой его областью. Идентификация такого фрагмента включает идентификацию материального объекта плюс идентификацию фрагмента в общем тексте. Какие фрагменты считать документами и как их идентифицировать (например, считать ли главы и параграфы в книге документами или нет) - это зависит от соглашений соответствующей информационнодокументационной системы.
С появлением компьютера возникло понятие «электронный документ», т. е. документ, в котором информация (сообщение) представлена в электронно-цифровой форме.
По отношению к электронному документу применение понятия «материальный объект» становится достаточно условным. В роли документа может выступать компакт-диск («материальный объект» без сомнения), или файл (т. е. поименованный участок внешней памяти компьютера, что можно с натяжкой назвать «материальным объектом»), или часть файла (что трудно назвать «материальным объектом»). Однако в любом случае под электронным документом понимается некоторая идентифицируемая совокупность данных, обособленная либо привязкой к идентифицируемому материальному объекту, либо каким-либо другим способом.
Назовем идентифицируемым объектом либо отдельный идентифицируемый материальный объект, либо совокупность материальных объектов, идентифицируемую как один объект, либо область на идентифицируемом материальном объекте, содержащую идентифицируемый фрагмент данных.
Тогда определение документа можно модифицировать таким образом:
Определение О4. Документ - идентифицируемый объект, содержащий данные.
Определение О4 обобщает три предыдущих, но остается максимально лаконичным: в нем не накладывается никаких ограничений на данные, зафиксированные в документе, и на содержание информации, отражаемой в них: полезная или бесполезная, достоверная или ложная, завершенная или нет - лишь бы был распознаваемый объект и знаки на нем.
В практической деятельности предполагается, что документ должен содержать осмысленную информацию, должен использоваться в рамках определенной информационно-документационной системы. Поэтому в определениях документа наличествуют дополнительные (по сравнению с определением О4) признаки понятия. Например, в определении, данном А. В. Со-
коловым дополнительные признаки выделены нами: «Документ - это стабильный вещественный объект, предназначенный для использования в социальной смысловой коммуникации в качестве завершенного сообщения»20.
Иногда на понятие документа накладываются дополнительные условия. Например, А. В. Венгеров утверждает: «Именно такой признак документа, как его юридическое значение, отличает документ от других носителей информации, фиксирующих объективную действительность и мыслительную деятельность человека». И потому «документом является носитель такой информации, содержанию и способам фиксации которой действующее законодательство придает определенное правовое значение»21.
С нашей точки зрения в основу понятия «документ» следует положить определение О4, однако в каждой области деятельности должны определяться дополнительные требования к видам объектов, организации данных, информационному содержанию документов, отражающие специфику документов данной области деятельности.
В разных определениях на первый план выступает то объект, то информация. Например, в стандарте ГОСТ 16487-70 «Делопроизводство и архивное дело. Термины и определения» документ определяется как «материальный объект с информацией, закрепленной созданным человеком способом для ее передачи во времени и пространстве». А в редакции того же стандарта от 1998 г. (ГОСТ Р 51141-98) приводится (уже рассмотренное нами выше) определение: «Документированная информация (документ) - зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать».
В нашем определении документ - это материальный объект. Во многих дефинициях употребляется термин «материальный носитель». Например:«Документ - это материальный носитель с зафиксированной информацией, предназначенный для ее сохранения и передачи во времени и в пространстве, пригодный для использования в документационных процессах»22. Однако этот термин используют не только в смысле «материальный объект», но и для обозначения вида материальной среды (бумага, магнитная лента, полупроводник и пр.), и для обозначения физического процесса, лежащего в основе сигнала (электромагнитное излучение, звуковые волны и пр.). Поэтому термин «материальный объект» предпочтительнее (в частности, его употребление подчеркивает, что каждый документ - это нечто, четко отделяемое от других документов). Кроме того, как будет по-
казано далее, в качестве поисковых признаков документа могут выступать именно свойства соответствующего объекта.
В дефиниции, которую дает Г. Н. Швецова-Водка, документ определяется как единство: «Документ - это единство информации (сообщения) и вещественного (субстанциального) носителя, используемое в социальном коммуникационно-информационном процессе как канал передачи информации»23.
К приведенному определению можно предъявить несколько претензий:
- непонятно, каким образом «единство» может быть использовано в качестве канала;
- зачем в определении понятия говорить об эфемерном единстве вместо того, чтобы отметить две конкретные составляющие этого понятия: вещественный носитель и информация, зафиксированная на этом носителе;
- было бы невредно назвать и третью составляющую - данные;
- в определении указывается, что документ используется в социальном коммуникационноинформационном процессе как канал передачи информации. Как было показано выше, на самом деле каналом передачи информации являются данные. Поэтому документ как структурный элемент данных, конечно же, выполняет функцию канала, однако это свойство является для документа не определяющим, а производным.
Как бы ни было лаконично определение О4, из него следует, что документ характеризуется тремя сущностями: объект, данные, информация. Исследование именно этих составляющих является важной методической основой для анализа свойств документов. Например, при рассмотрении общей теории документа в вышеназванной работе Г. Н. Швецова-Водка отводит отдельные главы для обсуждения информационной, знаковой и материальной составляющей документа.
Если же рассматривать, например, юридические документы, то все три составляющих должны быть рассмотрены с точки зрения правового значения, которое им придает действующее законодательство.
Совокупность документов (электронных или неэлектронных), используемых потребителями (всем обществом или некоторой группой), называется информационными ресурсами. Как было определено в Федеральном законе «Информационные ресурсы - отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах)»24.
В этом определении мы опять встречаем-
ся с ситуацией нечеткого разделения понятий «информация», с одной стороны, и «данные», «документ», с другой стороны. Исходя из текста определения, более естественно было бы назвать определяемое «документные ресурсы». Ю. Н. Столяров также приходит к выводу, что термины «информационные ресурсы» и «документные ресурсы» фактически синонимичны25, т. е. они определяют одно и то же - совокупность документов. Следовательно, между множеством документов («документные ресурсы») и множеством информационных объектов («информационные ресурсы») существует взаимно однозначное соответствие.
Не оспаривая пока что данных утверждений, приведем два соображения относительно различия между терминами «документные ресурсы» и «информационные ресурсы».
Во-первых, термин «документные ресурсы» естественно применять тогда, когда информационное пространство рассматривается как совокупность объектов, содержащих информацию, т. е. с точки зрения специалиста, обеспечивающего деятельность по предоставлению информации («какие же документы содержатся в наших ресурсах?»). Термин же «информационные ресурсы» естественно применять тогда, когда информационное пространство рассматривается с точки зрения потребителя информации («какая же информация содержится в наших ресурсах?»). Исходя из этого, можно определить документные ресурсы как «совокупность документов», а информационные ресурсы - как «совокупность сообщений».
Во-вторых, если уж вышеупомянутые термины синонимичны, то с точки зрения сложившейся языковой практики Закон прав: предпочтительнее называть ресурсы «информационными», а не «документными».
Однако, по нашему мнению, понятия «документные ресурсы» и «информационные ресурсы» различаются и содержательно.
Данные, которые содержит документ, могут иметь весьма сложную структуру. Некоторые элементы этой структуры (как обсуждалось выше) могут в соответствии с требованиями соответствующей информационно-документационной системы сами считаться документами. Но зачастую в данных документа могут быть выделены структурные элементы (совокупности данных) такие, что они не считаются документами, но информация, соответствующая этим данным, является законченным сообщением и может представлять интерес для потребителя. Т. е. сообщение, отображаемое в тексте документа, само может иметь сложную структуру.
Например, реляционная база данных - это
файл (объект), содержащий данные, следовательно, база данных - документ. Данные одного такого документа содержат сведения о множестве разнообразных объектов26. Так, база данных об оборудовании предприятия содержит сведения о составе оборудования, регламентах ремонтов, планах ремонтов и технического обслуживания, отметки о фактическом выполнении этих планов и пр. Информация об одном объекте представляется данными, соответствующими одной строке одной из таблиц этой базы данных. Эта информация вполне может рассматриваться как завершенное сообщение. Данные, содержащие это сообщение, образуют запись - структурный элемент базы данных, но не являются документом27.
С изложенной точки зрения понятие «информационные ресурсы» отличается от «документных ресурсов», так как «совокупность сообщений» не совпадает с «совокупностью документов». В связи с этим можно было бы предложить следующие определения:
Документные ресурсы - отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах).
Информационные ресурсы - сообщения, размещенные на документах - элементах документных ресурсов.
Указанные различия между двумя типами ресурсов определяют разные подходы в организации информационного поиска.
4. Информационный поиск
Документные ресурсы хранятся как в виде отдельных разрозненных документов, так и в специально организованных хранилищах документов - информационных системах, как неавтоматизированных (например, традиционных библиотеках и архивах), так и автоматизированных, содержащих данные в электронной форме.
Основой автоматизированной информационной системы является база данных (БД), содержащая информацию о той или иной предметной области. Эта информация представляется как описание некоторого множества объектов и отношений (связей) между ними. К таким множествам относятся «собственно базы данных, сайты Интернета, регистры, каталоги, реестры, кадастры, библиотечные и архивные фонды, электронные издания, электронные музеи, электронные карты и др.»28. Структурно база данных рассматривается как совокупность записей, каждая из ко-
торых является описанием некоторого объекта предметной области.
Описываемые объекты могут быть двух видов - документы и не документы, т. е. прочие (материальные, мыслимые и др.) объекты. Принципиальная разница между этими видами в том, что описание обычного объекта (не документа) представляется как совокупность значений существенных свойств этого объекта. А описание документа - это описание его как идентифицируемого объекта (т. е. совокупность значений его свойств, в том числе идентифицирующих), плюс - некоторое описание текста документа (в частном случае «некоторое описание» может быть и полным текстом документа).
Базы данных в зависимости от вида описываемых объектов принято подразделять на документальные и фактографические. По ГОСТ 7.70-9629 рекомендуются следующие определения типов БД:
Документальная - БД, в которой запись отражает документ и содержит его библиографическое описание и, возможно, иную информацию о нем.
Фактографическая - БД, записи в которой содержат данные о состоянии внешнего мира, не опосредованные ссылками на отражающие их документы.
Фактографические БД подразделяются на объектографические (записи которых содержат данные об отдельном объекте внешнего мира) и на базы показателей (записи которых содержат данные о той или иной характеристике (показателе) объектов внешнего мира). Однако характеристика объекта сама может рассматриваться как объект, поэтому и базы показателей можно считать объектографическими. Т. е. любые фактографические БД являются объектографическими.
Поэтому можно говорить о двух типах БД: документальные и объектографические. Объектографические БД содержат описания обычных объектов, документальные - описания объектов-документов.
В современных объектографических БД описание объекта представляется как совокупность значений его свойств. Эти описания хорошо формализованы, им соответствует четко определенные структура данных, форматы данных (поэтому объектографические БД называют еще сильно структурированными). Высокий уровень формализации позволяет применять для поиска языки запроса (например, SQL) с мощными поисковыми возможностями и высокой точностью.
А для того, чтобы описать документ, необходимо, во-первых, описать его как некий объект, во-вторых, описать содержание текста (контент) этого документа.
Таким образом, в документальных БД в описании документа, исходя из его двойственной природы, можно выделить два компонента:
- объектографический, т. е. описание собственно материального объекта и зафиксированных на нем данных;
- контентографический (или «содержательный»), т. е. описание содержания информации, ее смысла.
В разных видах документальных БД «весомость» этих компонентов различна.
Так, библиографическая БД фактически содержит только объектографический компонент, т. е. описание свойств документа как объекта (правда, некоторые из этих свойств - заглавие, рубрикация - несут содержательную нагрузку). В полнотекстовой же БД основной компонент -контентографический.
Объектографический компонент описания документа - это метаданные. Состав и структура метаданных значительно менее формализованы, чем описания объектов объектографических БД. Метаданные весьма разнообразны: «Набор метаданных о том или ином информационном объекте составляет его метаописание. Объекты метаописаний могут быть весьма различны по уровню: от отдельных записей, документов, статей, разделов и глав монографий и научных трудов до огромных сложноструктурированных информационных массивов информации, интернет-порталов, крупных архивов и библиотек. Структура и состав метаописаний, очевидно, в значительной степени должны зависеть от уровня, типа и физической природы описываемых информационных объектов»30.
В соответствии с этим разработаны разные языки метаданных, используемые для описания характеристик документов разных классов - Дублинское ядро, MARC и др. Поэтому при разработке любой информационной системы необходимо по возможности четко определить классы циркулирующих в ней объектов, определить состав и структуру метаописаний этих объектов и выбрать подходящий язык метаданных.
Для описания содержания документов в документальных БД обычно используются индексы, обеспечивающие возможность ответа на запросы, содержащие высказывания вида «Документ содержит такое-то слово или словосочетание» и их комбинации.
Для сравнения приведем примеры запросов к объектографической и документальной БД. В объектографической БД запрос описывается заданием вида: «Найди объекты, такие-то свойства которых соответствуют поисковому условию, и покажи значения таких-то свойств этих объектов».
Например: «Найди лиц, которые вступили на престол России в XIX в., но не в 1825 г. и покажи их имена и даты рождения».
Условие поиска в этом запросе представляет собой построенное из простых высказываний, приведенных в скобках, составное высказывание вида:
(Страна = «Россия») И (Должность = «царь»)
И (Год вступления в должность > 1800) И (Год вступления в должность < 1901) И НЕ (Год вступления в должность = 1825).
Результат поиска будет точным и содержащим сведения о четырех царях (если, конечно, эти сведения имеются в БД).
В документальной БД запрос описывается заданием вида: «Найди документы с такими-то формальными характеристиками, содержащие такие-то слова и словосочетания».
Например: «Найди документы XX в., изданные издательством „Наука", в которых говорится о русских царях, вступивших на престол в XIX в., но не в 1825 г.». В этом запросе придется просить выдать документы, содержащие слова «Россия», «царь», «вступление на престол», но не содержащие «1825».
Условие поиска в этом запросе выглядит, например, так:
(Издательство = «Наука») И (Год издания > 1900)
И (Год издания < 2001) И (Документ содержит слово «Россия») И (Документ содержит слово «царь») И (Документ содержит словосочетание «вступление на престол») И НЕ (Документ содержит слово «1825»).
Это условие поиска весьма приблизительно описывает потребности поиска. Например, как задать условие, что вступление на престол произошло в XIX в. - непонятно. А условие отвергать документы, содержащие слово «1825», на самом деле отсеивает все документы с этим словом, в том числе и те, где наряду с вступлением на престол в 1825 г. говорится и о других вступлениях на престол.
Результат поиска по такому запросу будет содержать много документов, в которых, может быть, содержатся нужные нам сведения, но пользователь еще сам должен извлечь эти сведения из документов (т. е. прочесть их).
На улучшение качества описания содержания документа направлены идеи Semantic Web (Семантического Веба). В соответствии с этими идеями для разных предметных областей (ПО) должны разрабатываться специальные описания (онтологии), определяющие
состав характеристик, отражающих основные понятия ПО, и разнообразные связи между ними. Для представления онтологий разрабатываются специальные языки, например, OWL. Понятия, входящие в онтологию, могут быть использованы для описания семантики (смысла) документа. Как для представления формальных характеристик документа, так и для характеристики его семантики используется язык RDF.
Использование этих средств, а также более совершенных языков метаданных позволяет создавать значительно более точный поисковый образ документа. Повышение уровня формализации средств описания документа (за счет использования таких языков, как RDF) должно привести к созданию более мощных и точных средств поиска и языков запросов, по мощности аналогичных SQL.
Примечания
1 Райзберг Б. А. и др. Современный экономический словарь. 5-е изд., перераб. и доп. М.: Инфра-М, 2007.
2 ГОСТ 7. 0-99. Информационно-библиотечная деятельность. Термины и определения. М., 2000.
3 Информатика как наука об информации / Р. С. Гиля-ревский и др. М., 2006. С. 9-10.
4 Швецова-Водка Г. Н. Общая теория документа и книги: учеб. пособие. М.: Рыбари; Киев: Знання, 2009.
5 Столяров Ю. Н. Документный ресурс: учеб. пособие для студентов высш. учеб. заведений. М.: Либерея-Бибин-форм, 2009.
6 См.: Ходоровский Л. А. Проектирование информационных систем: нач. этапы: учеб. пособие. М.: Нобель Пресс, 2013.
7 Соколов А. В. Философия информации: проф.-мировоззр. учеб. пособие. СПб.: Изд-во СПбГУКИ, 2010.
8 Глушков В. М. Мышление и кибернетика // Вопр. философии. 1963. № 1. С. 36.
9 Урсул А. Д. Исследование информационных и глобальных процессов: междисциплинарные подходы и связи // Проблемы о-ва и политики. 2012. № 3. С. 154-201.
10 Там же.
11 Столяров Ю. Н. Указ. соч.
12 Соколов А. В. Указ. соч.
13 Шрейдер Ю. А. Об одной модели семантической теории информации // Проблемы кибернетики. М.: Наука, 1965. Вып. 13. С. 18-28.
14 Семеновкер Б. А. Эволюция информационной деятельности: бесписьм. о-во. М.: Пашков дом, 2007. С. 10-11.
15 Информатика как наука об информации. С. 9-10.
16 Стерлинг Л., Шапиро Э. Искусство программирования на языке Пролог: пер. с англ. М.: Мир, 1990.
17 Об информации, информатизации и защите информации: федер. закон № 24-ФЗ от 20 февр. 1995 г. // Собр. законодательства Рос. Федерации. 1995. № 8.
18 Об информации, информационных технологиях и защите информации: федер. закон № 149-ФЗ от 27 июля 2006 г. // Рос. газ.: федер. вып. 2006, 29 июля, № 4131.
19 Плешкевич Е. А. Основы обшей теории документа. Саратов: Науч. кн, 2005. С. 95, 98.
20 Соколов А. В. Социальные коммуникации: учеб.-метод. пособие. М.: Профиздат, 2001. Ч. 1. С. 107.
21 Венгеров А. В. Право и информация в условиях автоматизации управления. М.: Юрид. лит., 1978. С. 113.
22 Справочник информационного работника. СПб.: Профессия, 2005. (Сер. «Библиотека»).
23 Швецова-Водка Г. Н. Указ. соч.
24 Об информации, информатизации и защите информации: федер. закон.
25 Ю. Н. Столяров. Указ. соч.
26 В некоторых СУБД (системах управления базами данных) под базой данных понимается совокупность из нескольких файлов, при этом данные одного файла содержат сведения о множестве объектов одного типа. Можно считать документом эту совокупность файлов или каждый файл из этой совокупности.
27 Заметим, что хотя сообщение и не документ, но оно может быть выведено в виде отчета на экран или бумагу - и этот отчет уже является документом. Мало того, база данных может содержать данные, которые по сути своей являются документами, например, инструкции по эксплуатации оборудования. В зависимости от способа реализации эти инструкции могут находиться в отдельных файлах, присоединенных к базе данных, и тогда они выступают как отдельные документы. Но возможен такой способ реализации, когда тексты этих инструкций погружены внутрь базы данных. В этом случае они могут превратиться в документ только после вывода их на экран или на бумагу в виде отчета.
28 Антопольский А. Б. Информационные ресурсы России. М.: Либерея, 2004. С. 12.
29 ГОСТ 7. 70-96. Система стандартов по информации, библиотечному и издательскому делу. Описание баз данных и машиночитаемых информационных массивов. Состав и обозначение характеристик. М.: Стандартинформ, 2008.
30 Исследование и разработка системы метаданных для электронных информационных ресурсов и сервисов в фундаментальной науке: отчет о рез. работ по гранту РФФИ № 04-07-90087 / А. Б. Антопольский, В. И. Ауссем, С. А. Блау, А. И. Жежель. М., 2004 // Информрегистр: науч.-техн. центр. М., 2007-2014. URL: http: // db. inforeg. ru (дата обращения: 30. 11. 2012).