Научная статья на тему 'Программно-технологический комплекс автоматического анализа имен в БД АИСОН'

Программно-технологический комплекс автоматического анализа имен в БД АИСОН Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
66
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Орлова Т. Л., Смирнова М. Н., Шершова А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Программно-технологический комплекс автоматического анализа имен в БД АИСОН»

Т.Л.ОРЛОВА, М.Н.СМИРНОВА, А.В.ШЕРШОВА ПРОГРАММНО-ТЕХНОЛОГИЧЕСКИЙ КОМПЛЕКС АВТОМАТИЧЕСКОГО АНАЛИЗА

ИМЕН В БД АИСОН

Работа над проблемой автоматического анализа библиографической записи (БЗ) является развитием Автоматизированной системы по общественным наукам (АИСОН) и следующим этапом автоматизации информационно-библиотечных процессов в ИНИОН РАН. Накопление библиографических массивов, подключение библиотек к всемирным информационным сетям, возникновение электронных библиотек обусловило необходимость привести в соответствие потребности научного сообщества с возможностями техники и людей — экспертов и операторов, а также дать в руки ученым (научным работникам) эффективный инструмент исследования и анализа информационных массивов.

Программно-технологический комплекс автоматического анализа БЗ с целью распознавания, извлечения и необходимого преобразования имен лиц, ответственных за издание, является начальным этапом решения этой актуальной проблемы.

Имена лиц, ответственных за издание, являются важнейшей информационной категорией, отражаемой в БЗ. Имена лиц в БЗ АИСОН могут быть разделены на несколько функционально различающихся групп.

1. Авторы основного объекта записи — в заголовке описания, в сведениях об ответственности (область основного заглавия и сведений об ответственности), в области примечаний (типа “На обл. автор...”), в справке о заголовках добавочных описаний, в сведениях для именного указателя.

2. Авторы дополнительных объектов записи — в рамках сводного (многотомное издание) и объединенного описания (рецензии, рефераты): в области заглавия, в сведениях об ответственности, а также в примечаниях (типа “Пер. изд.:”, “Из содерж.”), в аннотации, в сведениях для именного указателя.

3. Другие лица с интеллектуальной ответственностью (редакторы, составители и пр.)

— в сведениях об ответственности (в области заглавия, в сведениях об издании, в примечаниях, в справке о заголовках добавочных описаний, в аннотации, в сведениях для именного указателя).

4. Персоналии — имена лиц, о которых говорится в документе (в тексте заглавия, справке о добавочных описаниях, в рубриках предметного каталога, в аннотации, в дескрипторном поисковом образе документа).

5. Другие имена (в наименованиях коллективов, в сведениях об ответственности и справках о заголовках добавочных описаний), в заглавиях, в аннотации. Из всей этой пестрой картины имен лиц в БЗ в первую очередь, как нам представляется, необходимо выделить наиболее важную информацию — о лицах, ответственных за издание (ЛОИ). Эти сведения имеют принципиальное значение для идентификации (поиска) документа, для составления именного указателя, формирования авторитетных/нормативных авторских файлов, а также для составления библиографических справок об авторах, решения наукометрических задач. Предметом дальнейшего рассмотрения в данной статье будет именно эта категория имен в БЗ (см. выше пп.1-3).

В поисковую БЮ АИСОН (и соответственно в именной указатель в библиографических изданиях) включается следующая информация о ЛОИ:

— все имена авторов в заголовках описания;

— 90% имен из элемента данных “Сведения об ответственности” (экспертная выборка);

— часть имен авторов из примечаний типа “Из содерж.”;

— имена авторов документа, являющиеся частью заглавия;

— имена из аннотации (авторы, составители, переводчики отдельных работ) — сведения, не отраженные в тексте БО;

— имена авторов, не представленные в БЗ в сведениях об ответственности (случаи, когда в тексте БО сокращены имена лиц: “и др.”).

При этом все имена, кроме тех, которые отражены в заголовке БО и функционально аналогичных полях (авторы томов, рецензий), повторно вводятся в специальные поля именного указателя (за исключением последнего, достаточно редкого случая, когда библиографы обращаются непосредственно к документу и пополняют запись именами, не отраженными в тексте БО). Дублирование обусловлено необходимостью вычленения имен из текстовых фрагментов БО и представлением их в поисковой (начальной) форме (для флективных языков).

По действующей технологии не попадают в поисковую БД (и соответственно в именной указатель к библиографическим изданиям):

— имена ЛОИ из примечаний общего типа (авторы оригинальных изданий при обработке перевода, другие формы имен авторов);

— имена из сведений об ответственности, когда они представ-лены в альтернативной графике (параллельные языки), а также часть имен лиц в соответствии с критериями экспертной выборки для именного указателя (не всегда приводятся переводчики и др.).

Таким образом, большая часть имен из текста БО дублируется в полях именного указателя, а часть имен не попадает в указатель (поисковую БД). Кроме того, остаются потерянными для БД и полные имена ЛОИ, информация о которых (частично) есть в справке о добавочных описаниях.

Правомерно возникает вопрос о применимости автоматического анализа для вычленения имен ЛОИ из БЗ АИСОН с целью устранения дублирования и пополнения массива имен, которые могут отражаться в именных указателях и поисковых базах данных. Задача может быть расширена: отразить в БД не только фамилии и инициалы, но и полные имена (имя и отчество), определить роль лица в создании документа. Вопрос о необходимости отражения в БД в формализованном виде роли ЛОИ требует специального обсуждения. В настоящее время в библиографических указателях АИСОН роли лиц, ответственных за создание документа, отражаются на основе экспертного анализа библиографов непоследовательно и достаточно обедненно (редакторы, составители). Между тем наличие такой информации в БЗ позволило бы решить ряд новых задач.

Во-первых, отразить полную картину участия лиц в создании документа (как минимум, около 20 ролей представлено в БЗ АИСОН и очень часто лицо характеризуется несколькими ролями — редактор, составитель, переводчик и т.п.).

Во-вторых, поиск лица по заданной роли (например, найти документы, в которых данное лицо выступает в качестве редактора) в режиме текстового поиска осложняется тем, что в текстовых фрагментах БО (наиболее яркий пример — “Сведения об ответственности”) мы имеем дело с развитой системой синонимии в части отражения ролей ЛОИ (так, роль редактора может быть выражена, например, следующими формами: “ред.”, “подг.”, “публ.”, “сверка” и др.), поэтому формализованное представление (код) роли лица, конечно, обеспечил бы более эффективные способы решения подобных задач.

Кроме собственно поисковых задач, учет роли лица в подготовке издания может оказаться полезным при подготовке библиографических справок (например, список научных трудов), если требуется ранжирование документов по степени участия в подготовке издания, а также в ответах на информационные запросы (автор, главный редактор, редактор, составитель, переводчик и пр.).

Задача автоматического анализа имен ЛОИ в БЗ АИСОН в настоящее время программно реализована. В результате ее решения был создан программнотехнологический комплекс, ориенти-рованный на достижение нескольких целей, среди которых важнейшими являются:

— формирование имен ЛОИ в поисковой форе (при этом устраняются процедуры ручного заполнения и ввода полей именного указателя — (для дальнейшего использования при поиске и формировании именного указателя);

— формирование авторитетного/нормативного авторского файла, включающего полные имена лиц (при наличии информации), а также параллельные формы имен (по результатам автоматического анализа БЗ и ручного редактирования типов связи форм имен).

Основными технологическими этапами работы комплекса являются:

1. Собственно автоматический анализ БЗ — вычленение имен лиц, нормализация формы фамилии (приведение формы фамилии к начальной, поисковой форме для

флективных языков в случае необходимости), определение роли лица в создании документа, присвоение кода отношения по Российскому коммуникативному формату (пример: исходный текст: Под. ред. Петрова Н.П. — после анализа: Петров Н.П. — 340, где 340 — код редактора).

2. Коррекция результатов автоматического анализа с использованием специальных программ, организующих работу эксперта.

3. Пополнение справочных материалов, составляющих информационное обеспечение алгоритма.

4. Сопоставление результатов автоматического вычленения имен и полей именного указателя, заполненных вручную при составлении БЗ на основе работы специальной программы.

5. Формирование файла имен, в котором к каждому имени добавлены следующие сведения: полное имя, рубрика, вид документа, язык текста, сведения о полях формата, из которых извлечено имя, какие сопроводительные слова были в сведениях от ответственности, код роли (отношения), номер записи в БД, а также краткий вариант файла имен (фамилия, инициалы, полное имя, номер записи в файле имен).

6. Определение параллельных форм имен и установление факта связи форм имени. Автоматический анализ ориентирован на сопоставление параллельных форм имен в кириллице и латинице. Эта операция используется при формировании записи в нормативном авторском файле.

Процедуры 1-5 автоматизированы и экспериментально опробованы, программа установления параллельных форм дорабатывается.

Алгоритм автоматического анализа имен ЛОИ основывается на лингвистическом анализе структуры и содержания элементов данных БЗ, содержащих сведения об ответственности. Алгоритм использует комплекс справочных материалов:

— словарь сопроводительных слов, на основе которого определяется роль лица в подготовке издания (словарь полиязыковой и отражает экспериментально отобранные сопроводительные слова 28 основных языков обработки в АИСОН);

— список полей БЗ — объектов анализа;

— таблица соответствия флексий (в настоящее время только для русского языка);

— структуры форм фамилий;

— список частиц, используемых в фамилиях (более подробно об алгоритме см. 1).

В рамках анализа работы программно-технологического комплекса интересно остановиться на результатах сопоставительного анализа автоматического вычленения имен из БЗ и ручного заполнения полей именного указателя на основе экспертной выборки.

Сопоставительный анализ показал, что содержание полей именного указателя и сведений об именах, полученных автоматическим путем, не совпадает примерно на 20% (напомним, что это не касается имен из заголовков описания, которые в силу их 100% совпадения при сопоставительном анализе не учитывались).

В полях именного указателя, в отличие от автоматически распознанных имен, присутствуют следующие группы имен:

— из текста аннотации (алгоритм автоматического анализа имен ЛОИ на данном этапе не рассматривает текст аннотации в силу лингвистического разнообразия текста);

— из текста документа, не отраженные в БО;

— имена, которые алгоритм автоматического анализа не опознал из-за ошибок алгоритма или ошибок в исходном тексте БЗ (алгоритм в настоящее время не может опознать имена, в структуре которых отсутствуют инициалы, например, восточные имена или имена лиц особых категорий, например, лиц духовного звания).

Среди автоматически распознанных имен, отсутствующих в полях именного указателя, можно выделить следующие группы:

— параллельные формы имен ЛОИ (альтернативная графика или другой язык) из сведений об ответственности, а также варианты имен в примечаниях;

— имена ЛОИ со вторичной интеллектуальной ответственностью, отраженные в элементе данных “Сведения об ответственности” в БЗ, но не попавшие в именной указатель в силу выбора эксперта (авторы сопроводительных текстов, переводчики, иллюстраторы и др., в отдельных случаях отмечались пропуски авторов);

— ошибки в именах, допущенных при вводе содержания полей именного указателя.

С учетом взаимодополнения (при вычленении имен из БЗ) ручной экспертной выборки и автоматического анализа естественно предположить, что использование объединенных сведений позволило бы расширить спектр имен для поисковой БД и именного указателя. При подключении комплекса автоматического распознавания имен на вводе БЗ появилась бы возможность исключить дублирование имен в полях именного указателя с последующим редактированием и пополнением списка имен экспертами. При этом можно было бы не экономить на количестве имен в “Сведениях об ответственности”, особенно авторов, а в случае необходимости сокращать их число только “на выходе” БО. Целесообразно было бы расширить и список ролей лиц (в автоматическом варианте такой перечень гораздо шире ныне используемого) и указывать несколько ролей для одного лица (встречается до 4-х ролей).

Другое направление работы программно-технологического комплекса — формирование авторитетного/нормативного авторского файла. В настоящее время экспериментально опробована технология формирования нормативного файла имен, позволяющая извлекать из записи все имена ЛОИ, автоматически сопоставлять результаты программного анализа с ручной экспертной выборкой (поля именного указателя), присоединять к инициалам полные имена из полей добавочных описаний. Предполагается использовать процедуру автоматического редактирования нормативного авторского файла на первом этапе, в результате которой в чистый список попадут имена из полей заголовков, а также совпавшие по результатам автоматического и ручного анализа. “Остаток” будет вручную просматриваться экспертом. Кроме имен, из БЗ для нормативного авторского файла будут извлекаться данные о языке текста и графике имени, а также параллельные (кириллица и латиница) формы имени. Последнее особенно важно для идентификации лица в авторском файле и в БД. В случае успешной программной реализации алгоритма идентификации параллельных форм имени задача ручного редактирования эксперта будет заключаться в установлении типа связи форм имени для последующего формирования ссылок типа “см.” и “см. также”. Все другие типы ссылок, которые должны бы быть отражены в нормативном авторском файле на основе установления вариативных форм имени, на данном этапе предполагается устанавливать вручную. Следующим этапом является автоматическое конвертирование информации нормативного авторского файла в структуру Российского коммуникативного формата (см. 2).

Аналогичные механизмы формирования нормативных файлов будут использоваться при формировании файлов коллективов. Для коллективов специфической задачей автоматического формирования сведений является распознавание постоянных и временных коллективов, а также полных и сокращенных форм наименований коллективов.

Программно-технологический комплекс автоматического анализа имен в БЗ прошел экспериментальную проверку на массиве около 300 000 БЗ различной тематики из БД АИСОН. Отметим, что автоматически из БЗ извлекаются и правильно нормализуются около 80% имен. Следует отметить, что хотя программно-технологический комплекс автоматического анализа имен отлажен для массива БД АИСОН, он может быть адаптирован к другим БД и другим форматам БЗ, а также использован в задачах реконверсии каталогов.

Список литературы

1. Юрлова Т.Л., Смирнова М.Н., Шершова А.В. Создание нормативного авторского файла и автоматический анализ сведений об ответственности в библиографической записи // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы конференции. “Крым-98”. - Судак (Украина), 1988. - Т.2. - С. 617-619.

2. Коды отношения // Российский коммуникативный формат представления библиографических записей: (Российская версия и№МАЯС): (Книги и сериальные издания) / Министерство культуры РФ, Российская библиотечная ассоциация. - СПб.: Изд-во РНБ, 1998. - Приложение С.

i Надоели баннеры? Вы всегда можете отключить рекламу.