Научная статья на тему 'Алгоритм извлечения из текстовых документов географических названий, отражающих содержание'

Алгоритм извлечения из текстовых документов географических названий, отражающих содержание Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
696
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕОКОДИРОВАНИЕ / АВТОМАТИЗИРОВАННОЕ ИЗВЛЕЧЕНИЕ ГЕОГРАФИЧЕСКИХ МЕТАДАННЫХ ДОКУМЕНТА / GEOCODING / AUTOMATED EXTRACTION OF GEOGRAPHIC METADATA FROM DOCUMENT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Барахнин Владимир Борисович, Жижимов Олег Львович, Куперштох Алексей Александрович, Скачков Данил Михайлович, Федотов Анатолий Михайлович

В статье рассматривается алгоритм автоматизированного извлечения из текста документа географических названий, отражающих его содержание. Обсуждаются вопросы непосредственного извлечения из текста документа названий, входящих в соответствующий тезаурус, а также пополнения лексического словаря словоформами географических названий, выявления омонимов и определения названий, отражающих содержание документа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Барахнин Владимир Борисович, Жижимов Олег Львович, Куперштох Алексей Александрович, Скачков Данил Михайлович, Федотов Анатолий Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE ALGORYTHM OF EXTRACTING PLACE NAMES REPRESENTING CONTENT FROM TEXT DOCUMENTS

The algorithm for automated extraction of geographical names representing content from text documents discussed in article. Questions related with extraction names included in thesaurus from document, adding word forms of geographical names to the lexical dictionary, homonyms detection, and retrieving names describing the content of document covered in the article.

Текст научной работы на тему «Алгоритм извлечения из текстовых документов географических названий, отражающих содержание»

УДК 004+528.9

В. Б. Барахнин, О. Л. Жижимов, А. А. Куперштох Д. М. Скачков, А. М. Федотов

Институт вычислительных технологий СО РАН пр. Акад. Лаврентьева, 6, Новосибирск, 630090, Россия

Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

E-Mail: bar@ict.nsc.ru; zhizhim@sbras.ru; alexey.kupershtokh@gmail.com

danil.skachkov@gmail.com; fedotov@sbras.ru

АЛГОРИТМ ИЗВЛЕЧЕНИЯ ИЗ ТЕКСТОВЫХ ДОКУМЕНТОВ ГЕОГРАФИЧЕСКИХ НАЗВАНИЙ, ОТРАЖАЮЩИХ СОДЕРЖАНИЕ *

В статье рассматривается алгоритм автоматизированного извлечения из текста документа географических названий, отражающих его содержание. Обсуждаются вопросы непосредственного извлечения из текста документа названий, входящих в соответствующий тезаурус, а также пополнения лексического словаря словоформами географических названий, выявления омонимов и определения названий, отражающих содержание документа.

Ключевые слова: геокодирование, автоматизированное извлечение географических метаданных документа.

Введение

В настоящее время с учетом возрастающей потребности общества в информационном обеспечении, в том числе связанным и с географическим аспектом информации, все большую актуальность приобретают разработки, направленные на интеграцию «негеографических» информационных систем с информационными системами, изначально ориентированными на обработку географической информации. Добавление географического аспекта к информации, хранящейся в таких системах, как, например, электронные библиотеки, позволяет существенно повысить функциональность навигационных, поисковых и визуализа-ционных сервисов этих систем, в частности находить информацию, которая относится к конкретному географическому региону [1; 2].

Следует отметить, что существующие программные комплексы для организации электронных библиотек не обладают необходимой функциональностью по хранению и обработке географических данных. Наделение же их требуемой функциональностью осложняется отсутствием единых стандартов на поиск и представление данных, связанных с географическим аспектом, которые сопрягались бы с существующими геоинформационными системами (ГИС), т. е. с системами, для которых географический аспект информации является основным [3]. Отсюда вытекает актуальность и перспективность создания технологии, обеспечивающей обработку географической информации в «негеографических» информационных системах общего назначения.

* Работа выполнена при частичной поддержке РФФИ (проекты № 10-07-00302, 11-07-00561, 12-07-00472), президентской программы «Ведущие научные школы РФ» (грант НШ 6293.2012.9) и интеграционных проектов СО РАН.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2012. Том 10, выпуск 1 © В. Б. Барахнин, О. Л. Жижимов, А. А. Куперштох, Д. М. Скачков, А. М. Федотов, 2012

Географический аспект информации может быть зафиксирован на уровне метаданных, описывающих содержание документа. При этом географические метаданные объекта могут быть заданы двумя способами:

• с помощью количественного геометрического описания географического объекта на основе координат;

• с помощью ссылки на элемент некоторого тезауруса, включающего географические названия соответствующих объектов.

Первый вариант более предпочтителен, но он не очень удобен по причине необходимости внесения существенных изменений в уже существующие информационные системы, в отличие от второго варианта, который может быть реализован на базе существующих парадигм информационных систем при условии их небольшой модернизации. Поэтому далее речь пойдет только о втором варианте.

Существует множество тезаурусов географических наименований, однако сложность их использования заключается в том, что географический аспект объектов, хранящихся в электронных библиотеках, зачастую относится не к текущему, а к прошедшему моменту, в то время как большинство тезаурусов содержит информацию, относящуюся только к текущему моменту.

Важно подчеркнуть, что могут меняться не только географические названия, к чему все уже привыкли, но и границы геометрических объектов, которые соответствуют объектам географическим. При этом любые изменения географических названий и геометрических объектов, ассоциированных с ними, как правило, привязываются к какому-нибудь нормативному документу, будь то постановление того или иного органа власти или соответствующая историческая хроника.

Таким образом, для использования в информационных системах (в электронных библиотеках) географического аспекта в его любом виде необходим справочный аппарат (тезаурус), который бы включал не только географический аспект информации, но и ее временной (исторический) аспект.

Основные требования к тезаурусу географических названий, который мог бы удовлетворить потребности существующих информационных систем по обработке географического и исторического аспектов информации, сформулированы в работах [4; 5]. Показано, что такого рода тезаурус должен являться расширением профиля ZThes 1 для доступа к тезаурусам по протоколам Z39.50 и SRW/SRU и включать необходимые компоненты для временного и географического поиска. Построена онтология тезауруса, отвечающего сформулированным требованиям. На основании этой онтологии и схемы тезауруса географических названий Института Гетти 2 построена схема тезауруса, подходящая для использования при внедрении в электронные библиотеки.

При содержательном наполнении тезауруса для геокодирования текстов, связанных с географическими объектами (населенные пункты, реки и т. д.), расположенными на территории Российской Федерации, целесообразно использовать Тезаурус географических названий Российской государственной библиотеки 3 [6]. К его достоинствам следует отнести полноту и наличие ссылок на нормативные документы, определяющие наименование объекта. Однако данный тезаурус нуждается в доработке. Во-первых, иерархические связи в нем явным образом не указаны и могут быть получены лишь путем обработки записей. Во-вторых, в нем не содержится ретроспективных сведений: невозможно получить ни данных о предыдущих названиях, ни данных о предыдущих координатах объектов. Далее мы будем говорить о геокодировании документов на русском языке с использованием названий российских географических объектов.

Важнейшей задачей, возникающей в процессе добавления к описанию документа географических метаданных, является извлечение из его текста географических названий, входящих в тезаурус и отражающих содержание документа [7]. Ввиду того что электронные библиотеки нередко содержат десятки тысяч (а иногда и миллионы) документов, решение

1 The Zthes specifications for thesaurus representation, access and navigation: http://zthes.z3950.org/

2 Getty Thesaurus of Geographic Names Online: http://www.getty.edu/research/tools/vocabularies/tgn/index.html

3 Тезаурус РГБ: http://aleph.rsl.ru/F/?func=file&file_name=find-b&local_base=tst11

указанной задачи невозможно без ее максимальной автоматизации. Проблемам разработки алгоритмов автоматизированного извлечения из текста документа географических названий, отражающих его содержание, и посвящена данная статья.

Автоматизированное извлечение географических названий

Первым этапом решения поставленной задачи является извлечение из текста документа всех географических названий, входящих в тезаурус. Сразу оговоримся, что вхождение в текст документа притяжательного прилагательного, соответствующего тому или иному географическому названию (новосибирский метрополитен, омский спортсмен и т. п.), будет приравниваться к вхождению в текст самого географического названия. Разумеется, для большей точности работы алгоритма тезаурус следует дополнить синонимами официальных названий: например, Санкт-Петербург - Петербург - Питер - северная столица - город на Неве и т. д., а также их производными, но мы отдаем себе отчет в трудоемкости и слабой формализуемости решения этой задачи.

Итак, фактически мы имеем дело с задачей координатного индексирования текста терминами, входящими в заданный словарь, при этом термины могут состоять не только из одного, но и из нескольких (как правило, двух) слов, например, Новосибирская область, Белое море, Северная Двина и т. п. Ввиду того что в русском языке имена существительные и прилагательные при склонении изменяют свою форму, разработка эффективного алгоритма автоматизации извлечения из текста ключевых терминов, в том числе и географических названий, представляет нетривиальную задачу, так как необходимо учитывать и те случаи, когда слова, образующие термин, находятся не только в именительном (как они занесены в тезаурус, за редкими исключениями типа море Лаптевых), но и в косвенных падежах.

В [8] описан алгоритм автоматического поиска и подсчета ключевых слов из заданного словаря, представляющих собой словосочетания сложной структуры, учитывающий морфологию русского языка. В основу алгоритма [9] положено использование двух индексов, содержащих триады «номер текста» - «позиция в тексте» - «номер слова из лексического словаря» и «номер термина» - «позиция слова в термине» - «номер слова из лексического словаря».

При этом если первый индекс встречается практически во всех информационно-поисковых системах, то введение второго индекса, позволяющее резко повысить эффективность алгоритма, имеет оригинальный характер. Индекс терминов наряду с их списком размещается в хранилище данных программной библиотеки, реализующей алгоритм, и пополняется по мере изменения этого списка. Кратко опишем указанный алгоритм.

I. Алгоритм построения индекса терминов состоит из следующих этапов.

1. Разбиение термина на отдельные слова.

2. Создание предварительного индекса, содержащего триаду «номер термина» - «позиция слова в термине» - «слово в символьном представлении».

3. Добавление встретившихся неизвестных слов в лексический словарь библиотеки, где им присваиваются идентификационные номера.

4. Переработка индекса в формат «номер термина» - «позиция в тексте» - «номер слова из лексического словаря».

5. Сбор статистики о длинах терминов для реализации поиска и идентификации составных терминов (т. е. терминов, состоящих более чем из одного слова).

6. Сбор статистики о количестве вхождений отдельных слов в термины для оптимизации поиска путем исключения из рассмотрения терминов, заведомо отсутствующих в тексте.

II. Алгоритм построения индекса текстов аналогичен, но в нем отсутствует этап 3.

III. Заключительная стадия работы программной библиотеки - подсчет количества вхождений терминов в текст (тексты).

1. Подсчет возможных комбинаций «текст» - «термин», основанный на статистике вхождения отдельных слов (см. этап 6 алгоритма индексации терминов).

2. Нахождение всех потенциально возможных мест вхождения каждого термина в текст (тексты) на основе наличия хотя бы одного общего слова из лексического словаря. Позиция каждого потенциально возможного вхождения фиксируется.

3. Рассмотрение каждого из возможных мест вхождений с точки зрения соответствия термину в целом.

4. Рассмотрение каждого из возможных мест вхождений с точки зрения соответствия термину в целом. Актуальность вхождения определяется наличием рядом с соответствующей позицией других слов, входящих в термин. Существуют конфигурируемые варианты требований определения актуальности вхождения (точный или неточный порядок слов, минимальное количество слов, входящих в термин, возможность «прерывания» термина посторонними словами и т. п.).

5. Исключение учета вхождений, поглощаемых более длинными вхождениями.

6. Сбор статистики вхождений для каждой пары «текст» - «термин».

Отметим, что при решении задачи извлечения географических названий этапы 4 и 5 актуальны довольно редко, но все-таки их нельзя полностью исключить: например, практически равноупотребительны термины Новосибирский район и Новосибирский сельский район, обозначающие один и тот же географический объект.

На основании изложенного алгоритма реализована программная библиотека, включающая функции для поиска и подсчета количества вхождений в заданный текст (тексты) некоторых последовательностей слов (в частности, географических названий, входящих в тезаурус). Работа с программной библиотекой осуществляется через веб-интерфейс.

Пополнение лексического словаря словоформами географических названий

В процессе создания программной библиотеки, реализующей алгоритм извлечения из текста документа географических названий, входящих в тезаурус, встает вопрос о выборе средств, дающих возможность учитывать морфологию слов русского языка. Выбор пал на свободно распространяемый программный продукт ^ре11 4, изначально предназначенный для проверки орфографии на разных языках, в том числе русском 5 (язык проверки определяется словарем, который подключает пользователь). Основной подход, положенный ныне в основу словаря, заключается в использовании нормализованной формы слова и правил словоизменения, отвечающих грамматике русского языка. Все слова разбиты на флективные классы (типы словоизменения), каждому из которых ставится в соответствие система окончаний всех словоформ слова-представителя. По этой причине словарь одновременно содержит и важную информацию о морфологии слов, которая необходима для современных русскоязычных поисковых систем. Однако указанный словарь (как, впрочем, и любой другой из известных нам словарей, предназначенных для выполнения аналогичных функций) не содержит словоформ десятков тысяч географических названий, входящих в тезаурус РГБ.

Для правильной работы программной библиотеки, реализующей алгоритм извлечения терминов, входящих в тезаурус географических названий, необходимо пополнение лексического словаря их словоформами. Оно должно проводиться в экспертном режиме, однако работа эксперта по генерации всех словоформ нового слова весьма трудоемка: для существительного с учетом изменения падежа (изменение категории числа для географических названий не происходит) нужно выписать 6 словоформ, для прилагательного с учетом изменения падежа - 6 словоформ (при этом следует учитывать, что притяжательные прилагательные нередко следует изменять и по родам: Новосибирская область, Новосибирский район, Новосибирское водохранилище, т. е. количество словоформ в данном случае достигает 18, а точнее - 24, если еще вспомнить про Новосибирские острова). Такой объем механической работы, помимо больших трудозатрат, чреват неизбежным появлением опечаток.

Автоматическая генерация словоформ может быть осуществлена посредством использования библиотеки морфологического анализа phpМorphy 6, работа которой основана на соображениях аналогии: предполагается, что слова, оканчивающиеся на одинаковые буквосочетания, изменяются по одному образцу. Разумеется, данное предположение носит чисто

4 Ispell - Spell checker: http://directory.fsf.org/ispell.html

5 Словарь русского языка для Ispell: http://semiconductors.phys.msu.su/~swan/orthography.html

6 Библиотека морфологического анализа phpМorphy: http://phpmorphy.sourceforge.net

эмпирический характер и выполняется далеко не всегда (ср., например, формы множественного числа слов волос, голос и колос).

Эксперименты по генерации словоформ как математических терминов, входящих в тезаурус предметной области «Математика» [10], так и географических названий из Тезауруса географических названий РГБ показали высокую, но отнюдь не стопроцентную правильность работы библиотеки рЬрМогрЬу. Например, слово Угуй (село в Усть-Таркском районе Новосибирской области) воспринимается как повелительное наклонение несуществующего глагола уговать. В подобных ситуациях некоторые словоформы формально могут совпадать, но часть словоформ будет отсутствовать, что, разумеется, неприемлемо.

Таким образом, в тех случаях, когда алгоритмы библиотеки дают неправильный результат, следует прибегать к непосредственной генерации словоформ экспертом.

Для автоматизации работы эксперта построено веб-приложение, автоматически генерирующее все словоформы заданного слова (существительного или прилагательного) русского языка [8]. Мы ограничились только существительными и прилагательными, поскольку именно эти части речи обычно выступают в качестве новых слов практически в любой предметной области, а глаголы в подавляющем большинстве случаев не являются специфическими для той или иной предметной области и включены в основной словарь ^реП. Очевидно, указанное ограничение вполне допустимо и при решении задачи генерации словоформ географических названий.

В основе работы веб-приложения лежит алгоритм Г. Г. Белоногова [10], использующий разбиение слов языка на флективные классы, т. е. типы словоизменения, каждому из которых ставилась в соответствие система окончаний всех словоформ слова-представителя (основа существительных и прилагательных, как правило, остается неизменной). Всего Г. Г. Белоно-говым выделено для существительных 66 флективных классов, для прилагательных - 12, каждому из которых поставлен в соответствие полный набор окончаний.

В случае добавления в словарь географических названий число возможных флективных классов для существительных значительно уменьшается.

Это происходит, во-первых, за счет классов, относящихся к одушевленным существительным как мужского, так и женского рода (таких классов соответственно 19 и 8). Возможные совпадения названий географических объектов с одушевленными нарицательными существительными (Орел, Горняк, Чуваши и т. п.) не нуждаются в специальном анализе, поскольку такая омонимия выявляется заранее в процессе предварительной работы с тезаурусом при составлении списка географических названий, имеющих «негеографические» омонимы, и «многозначных» названий, а это означает, что образец склонения слова-омонима уже имеется в лексическом словаре. Что же касается совпадения названий географических объектов с одушевленными собственными существительными (русскими фамилиями), то, как известно, соответствующие географические названия склоняются по неодушевленному образцу: с С. М. Кировым, но с городом Кировом.

Во-вторых, флективные классы для неодушевленных существительных зачастую различаются типом склонения лишь во множественном числе, однако для тех географических названий, которые соответствуют форме единственного числа, нет необходимости генерировать словоформы множественного числа.

Наибольшее количество возможных флективных классов, из которых приходится делать выбор, возникает при генерации словоформ географических названий, изначально стоящих во множественном числе: Печоры, Спас-Клепики, Выгоничи и Ливны относятся к разным флективным классам. Впрочем, при омонимии географических названий с неодушевленными нарицательными существительными образец склонения слова-омонима также имеется в лексическом словаре, что, в частности, исключает необходимость генерации словоформ географических названий, совпадающих со множественным числом нарицательных неодушевленных существительных.

Что же касается прилагательных, входящих в географические названия, то в лексический словарь не входят либо притяжательные прилагательные, относящиеся к географическим названиям (Болотнинский район), либо диалектные, простонародные и т. п. слова (Верхне-кокшенгский Погост), либо прилагательные, выступающие в качестве имен существитель-

ных (Новокручининский). При этом большинство подобных слов относится к одному флективному классу.

Таким образом, работа с веб-приложением заключается в следующем. Обрабатывая новое слово, эксперт устанавливает при необходимости его начальную форму и указывает его тип: независимое существительное, прилагательное или зависимое слово-дополнение в родительном падеже. Зависимое слово сразу добавляется в словарь, так как единственной формой слова (применительно к соответствующему контексту) является оно само (море Лаптевых). При выборе независимого существительного на следующем шаге необходимо указать его род и число. Для прилагательного дополнительные характеристики не указываются.

Для уменьшения размеров надклассов, на которые разбиты флективные классы, применяется модификация алгоритма Г. Г. Белоногова, описанная в работе [8], состоящая в автоматическом анализе окончаний нормализованной словоформы внутри каждого надкласса, что приводит к значительному уменьшению количества элементов, из которых предстоит сделать выбор. Тем самым программа автоматически проводит предварительный анализ окончания слова, отсеивая те классы, к которым данное слово заведомо принадлежать не может. После этого нужно выбрать флективный класс, которому соответствует слово. Для выбора предоставляется таблица возможных флективных классов, которые определяются словом-представителем и его несколькими характерными словоформами. Количество объектов-альтернатив (с учетом указанных выше особенностей склонения географических названий) доведено до рекомендуемого когнитивной психологией (не более 7-9 альтернатив).

Мысленно просклоняв данное слово по указанным формам и сравнив полученные окончания с окончаниями из таблицы, можно однозначно определить его флективный класс. После этого программа генерирует все формы слова, отображая их в виде таблицы, в которой они распределены по падежам и родам (если это прилагательное). Выводится список уникальных словоформ, так как обычно слово может иметь одинаковые окончания в разных формах. На основании этого списка эксперт принимает решение о занесении словоформ в словарь или, в исключительных случаях, когда сгенерированные словоформы оказываются неверными (например, у слова оказалась изменяемая основа), о переходе в ручной режим работы.

Решение проблемы омонимии

К сожалению, простой подсчет количества вхождений в документ слов и словосочетаний, содержащихся в соответствующем тезаурусе, не является удовлетворительным решением задачи извлечения из текста документа географических названий. Дело в том, что географические названия бывают омонимичны другим словам, являющимся как именами нарицательными (Орел, Белая и т. п.), так и именами собственными (Киров, Кострома и т. п.). Кроме того, нередко одно и то же название носят сразу несколько различных географических объектов. Возникает необходимость отсеять из полученного набора слов омонимы географических названий, таковыми не являющиеся, а также установить, к какому конкретно географическому объекту относится найденное в документе «многозначное» название.

Важно подчеркнуть, что при решении этой задачи, как и при решении рассматриваемой далее проблемы, выявления названий, действительно отражающих содержание текста, целесообразно использовать следующий подход к определению более нежелательной ошибки («ошибки первого рода»). Отсутствие того или иного конкретного документа вряд ли будет замечено пользователем системы, ищущим документы, привязанные к некоему географическому объекту. Напротив, обнаружив в результатах запроса документ, к интересующему объекту явно не относящийся (а особенно несколько подобных документов), пользователь с большой вероятностью утратит доверие к такой информационно-поисковой системе. Именно поэтому механизм разрешения коллизий должен быть достаточно строгим, чтобы обеспечить отсев посторонних документов.

Итак, для выявления в тексте омонимов географических названий, таковыми не являющихся, а также для конкретизации значения «многозначных» названий необходимо заранее в процессе работы с тезаурусом составить список географических названий, имеющих такие омонимы, и «многозначных» названий.

Если «многозначные» названия в тезаурусе выявляются достаточно просто, путем его непосредственного анализа (а также путем сравнения тезауруса российских географических названий с иностранными аналогами: например, населенные пункты Николаевка, Павловка и т. п. имеются как в России, так и на Украине), то выявление омонимов «общего плана» -задача более сложная. Омонимы имен нарицательных выявляются в процессе сравнения тезауруса географических названий с общим лексическим словарем, используемым программой в библиотеке. Омонимы имен собственных могут быть обнаружены при сравнении тезауруса с биографическими, мифологическими и т. п. словарями. При этом, разумеется, никогда нельзя быть уверенным в достаточно полном выявлении омонимов указанного типа, поскольку небольшие населенные пункты могут носить имена деятелей местного масштаба, чьи имена не встречаются в сколько-нибудь распространенных биографических словарях (но, вместе с тем, имена этих деятелей могут встретиться, например, в документах, посвященных истории соответствующего региона).

Кратко изложим подходы к выявлению омонимов и конкретизации «многозначных» названий применительно к конкретному документу. Наиболее общим приемом выявления нарицательных омонимов является учет регистра первой буквы слова. Этот прием может оказаться неэффективным, если омонимичное слово является первым словом в предложении, а также если заголовок документа набран прописными буквами. В случае неоднократного вхождения такого слова в текст почти наверняка удастся выявить его смысл путем анализа регистра первой буквы всех его вхождений. Если же омонимичное слово встречается только раз и притом в качестве первого слова в предложении, то относить его к географическим названиям вряд ли целесообразно хотя бы потому, что географические названия зачастую употребляются с предлогом указания места или направления (т. е. не выступают в качестве первого слова предложения), а в случае возможной омонимии - и с указанием типа географического объекта (город Орел, река Белая и т. п.).

Последнее соображение учитывается и при выявлении омонимов - имен собственных (не относящихся к географическим названиям): «географический» омоним будут характеризовать предлоги и / или указание типа географического объекта, а «персональный» могут характеризовать, например, инициалы или имя персоны (все подобные сведения должны храниться в специальном дополнительном словаре, предназначенном для идентификации омонимов).

Наиболее сложна задача о конкретизации «многозначных» географических названий. Для ее решения следует учитывать возможное указание типа географического объекта (река Москва), вхождение в текст названия региона, к которому может принадлежать объект, вхождение в текст других географических названий, относящихся к этому региону (если последний явно не упомянут) и т. п. При этом следует учитывать сравнительную значимость объектов: например, при отсутствии дополнительных сведений о принадлежности к региону населенного пункта Киров речь почти наверняка идет об областном центре, а не о городе в Калужской области.

Определение названий, отражающих содержание документа

После того, как из текста документа выделены все входящие в него географические названия и конкретизированы «многозначные» названия, неизбежно встает главный вопрос: какие именно названия отражают содержание документа, т. е. к каким элементам тезауруса (а следовательно, и к географическим координатам) следует привязывать этот документ?

По-видимому, наиболее простым вариантом, не требующим привлечения сложных алгоритмов семантического анализа текста, является проверка вхождения наименования в метаданные (атрибуты библиографического описания) документа.

Если географическое название встретилось в названии документа, его аннотации, ключевых словах, а также (применительно, например, к документам с новостных лент) в атрибуте «место события» («место передачи информации»), то такое название следует считать отражающим содержание документа.

В случае если указанное правило «сработало», то привязывать документ к иным географическим названиям, входящим в текст документа, но не встречающимся в названных атрибутах, представляется нецелесообразным.

Если же перечисленные атрибуты не содержат географических названий, то проводится анализ вхождения названий непосредственно в текст документа, при этом отражающими содержание документа признаются название, имеющее наибольшее число вхождений, а также следующие за ним по числу вхождений названия, частота встречаемости каждого из которых отличается от предыдущего не более чем на величину некоторого коэффициента (устанавливаемого эмпирически). Кроме того, в этот список целесообразно добавить и первое по порядку вхождения географическое название (если, разумеется, оно в нем отсутствует).

Пример работы алгоритма

Проиллюстрируем работу алгоритма на ряде записей из тестовой базы данных публикаций по экологии Байкала. Для большей наглядности в качестве результата работы алгоритма будем рассматривать полный список извлеченных из документа географических названий. Из всей структуры записи нас будут интересовать несколько полей, а именно:

• заголовок статьи;

• аннотация к статье;

• источник;

• место публикации.

Заголовок статьи и аннотацию отнесем к контенту, источник и место публикации - к контексту.

Выберем из базы данных ряд записей случайным образом.

Запись 1

Заголовок: Флора лиственничных лесов лесостепного пояса на примере котловин Витим-ского Плоскогорья (Северное Забайкалье)

Источник: Разнообразие растительного покрова Байкальского региона

Место публикации: Улан-Удэ

Аннотация: Лиственничные леса лесостепного пояса котловин Витимского плоскогорья представлены 32 семействами, 95 родами и 152 видами сосудистых растений. Набор семейств аналогичен лесному комплексу Байкальской Сибири. При этом имеются отличия, связанные с положением семейств в головной части спектра. В первую очередь с повышенным участием видов сем. Роасеае (1-е место), обусловленное северным положением исследуемой флоры. Во вторую с появлением сем. Ьаш1асеае, ЬШасеае, которые имеют значительное представительство в степях Забайкалья. Значительное присутствие в исследуемых лесах выше названных семейств подчеркивает переходный характер флоры. Флористический анализ флоры лиственничных лесов котловин Витимского плоскогорья позволяет сделать заключение о том, что они являются лесостепными. Этот вывод подтверждает наличие в головной части семейственного спектра сем. ЬШасеае, Ьаш1асеа, свойственных степям Байкальской Сибири. Переходное положение лесов также подтверждается и значительным участием в их составе лесостепных видов степного комплекса Забайкалья. Библ. 2.

Запись 2

Заголовок: Голоценовая растительность Бурятии, реконструированная по данным споро-вопыльцевого анализа озерных отложений

Источник: Актуал. пробл. палинол. на рубеже 3-го тысячелетия

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Место публикации: Москва

Аннотация: В непосредственной близости к оз. Байкал растительность лесотундрового облика существовала 10 000-10 600 л. н. Ей на смену пришли холодные степи, широко распространившиеся 9 000-10 000 л. н. в условиях повышения летних температур и некоторого иссушения климата. После 9 000 л. н. в регионе стала быстро распространяться древесная растительность. Период между 6 000 и 8 500 л. н. характеризуется максимальным за голоцен распространением березовых и еловых лесов, что предполагает значительный рост увлаж-

ненности и смягчение континентальности климата. Состав пыльцевых спектров свидетельствует о том, что участие пихты в составе темнохвойных таежных лесов достигло максимума в интервале 3 000-6 000 л. н. Пихта является наиболее требовательной к климатическим условиям древесной породой региона, что позволяет считать время ее распространения оптимальным с точки зрения соотношения тепла и влаги. На протяжении последних 3 000 лет сосновые и лиственничные леса играют ключевую роль в растительном покрове, отражая ухудшение условий увлажненности и усиление континентальности климата.

Запись 3

Заголовок: Геология и металлогения золотоносных провинций Центральной Сибири

Источник: Геология и минеральные ресурсы Центральной Сибири

Место публикации: Красноярск

Аннотация: В Центрально-Сибирском регионе по геолого-структурным и металлогениче-ским особенностям благороднометалльные провинции классифицированы на две группы: провинции в складчатых областях байкальской и каледонской консолидации с элементами активизации в герцинском цикле (1-я подгруппа: Енисейская, Таймыро-Североземель-ская провинции; 2-я подгруппа: Восточно-Саянская, Западно-Саянская, Кузнецко-Ала-тайская провинции); провинции в окраинных платформенных структурах (преимущественно герцинской консолидации) Сибирской платформы (Маймеча-Котуйская, Анабарская, Норильская, Западно-Эвенкийская, Южно-Эвенкийская). По металлогенетическим особенностями провинции первой группы относятся к существенно золотоносным, второй - к существенно

золото-платиноносным. Соответственно для них характерен свой спектр типовых рудных (россыпных) формаций: для провинций первой группы: золото-кварцевая, золото-сульфидная, золото-кварц-сульфидная, золото-серебряно-кварц-сульфидная, золотоносных метасоматитов (березитов, лиственитов, вторичных кварцитов), золотоносных кор выветривания, группа россыпных формаций различного происхождения; для провинций второй группы: сульфидная золото-платино-медно-никелевая, малосульфидная платиноносная, зо-лото-платиноносная щелочно-ультраосновная, золотосодержащая магнетитовая скарновая и гидротермально-метасоматическая кальцит-кварцевая, редкометально-золото-платино-носная, золото-платино-редкометалльная кор выветривания, аллювиальных золотоносных и золото-платиноносных россыпей. Важной чертой металлогенического строения золотоносных провинций первой группы является широкий спектр рудных формаций, имеющих промышленное значение и локализующихся в виде поясов и зон: золото-кварцевая (Челюскинский, Енисейский золото-кварцевые пояса), золото-сульфидная (Енашиминско-Чирим-бинский пояс), золото-серебряно-кварц-сульфидная (Кузеевско-Богунайская зона), сульфидная золото-платино-медно-никелевая (Кингашская зона). Для золото-платиноносных провинций в окраинных структурах Сибирской платформы характерно ареальное (очаговое) расположение и небольшое количество промышленно значимых рудных формаций: сульфидная золото-платино-медно-никелевая и мальсульфидная платиноидная (Норильский район). В последние годы серьезное промышленное значение приобретает группа рудных формаций золотоносных кор выветривания.

Запись 4

Заголовок: Высоко разрешающая запись изотопов урановой серии в осадках озера Байкал

Источник: IV Верещагинская байкальская конференция, Иркутск, 26 сентября - 1 октября, 2005

Место публикации: Иркутск

Аннотация: Описана методика исследования динамики изменений климата, основанная на элементном анализе осадков диатомовых водорослей. Было установлено, что в теплые периоды климата уран в осадках содержит относительно повышенное количество неравновесного {234}и, а в холодные периоды осадки характеризуются пониженным содержанием урана. Проведен временной анализ изотопов урановой серии за последние 150 тыс. лет с разрешением 200 лет в осадках St2, поднятых с Академического хребта оз. Байкал. Показано, что результаты анализа хорошо коррелированы с уровнем инсоляции, а оценки возраста сло-

ев, соответствующих теплым периодам, коррелированы с максимумами инсоляции. Россия, Лимнологический ин-т СО РАН, Иркутск.

Запись 5

Заголовок: Анализ нарушений природоохранного законодательства на территории Байкальского заповедника и его охранной зоны

Источник: Закон Российской Федерации «Об охране озера Байкал» как фактор устойчивого развития Байкальского региона

Место публикации: Иркутск

Аннотация: Анализ собранных информационных данных позволяет сделать следующие выводы. 1. Первичные причины негативного отношения основной массы местного населения к заповеднику как к природоохранной организации заключаются во введении режима особой охраны на части природной территории, обеспечившей ранее жизнедеятельность поселков (сельхозугодья, огороды, покосы, места традиционного сбора ягод, отдыха, любительской охоты). Искусственно созданный конфликт исправлен передачей Кабанскому (Бабушкин -скому) лесхозу в 1972 г. припоселковых участков леса из состава заповедника, что сняло напряжение, но не устранило проблему. 2. Причинами современных противоречий и конфликтов между работниками охраны и местным населением являются: социально-экономические условия, вынуждающие отдельных представителей населения искать в природопользовании, чаще всего незаконном, средства к выживанию или дополнительный заработок; утрата общественной традиционной культуры в природопользовании; недостаточно высокая культура инспекторской работы; недостаточная информированность населения о природоохранном законодательстве.

Запись 6

Заголовок: Роль микроорганизмов в формировании качества воды экосистемы озера Байкал

Источник: Экология-2007

Место публикации: Архангельск

Аннотация: Рациональное использование природных ресурсов озера Байкал, а также разработка водоохранных мероприятий невозможна без выявления роли микроорганизмов в процессах превращения веществ антропогенной природы, поступающих в озеро. Микроорганизмы являются хорошими индикаторами при выявлении антропогенного фактора на экосистему озера. Необходимо срочно решать вопрос о строительстве очистных сооружений, поскольку в связи с развитием новой экономической зоны в п. Листвянка нагрузка на экосистему озера будет все увеличиваться, и эта ситуация может оказаться непредсказуемой. Озеро Байкал - внутриконтинентальный водоем с низкими скоростями водообмена, низкими температурами и слабыми микробиальными процессами деструкции.

Запись 7

Заголовок: Структурно-функциональная характеристика фитобентоса прибрежно-дельтовых водоемов оз. Байкал

Источник: Биоразнообразие экосистем Внутренней Азии

Место публикации: Улан-Удэ

Аннотация: Исследованы прибрежно-дельтовые водоемы оз. Байкал: дельта р. В. Ангары, водоемы р. Селенги, заливы Селенгинского мелководья, озёра среднего и нижнего течения р. Баргузин, устье р. Баргузин, озера и протоки Южного района Байкала. Водорослевые обрастания в малопроточных дельтовых водоемах имеют настолько высокую биомассу, что в благоприятные годы их доля по сравнению с биомассой высших водных растений доходит до 97 %. Благоприятные условия в дельтовых водоемах, высокая фотосинтетическая активность и скорость возобновления органического вещества, высокие показатели биомассы определяют значительную роль донных водорослей как во внутренних процессах круговорота вещества и энергии, так и в притоке органического вещества из прибрежно-соровой части дельт в оз. Байкал. Анализ и сравнение структурно-функциональных характеристик донных водорослей позволили выяснить влияние географической широты на флору и экологию дон-

ных сообществ, роль субстрата в развитии и формировании обрастания, роль сезонных и межгодовых сукцессий в донных сообществах, роль микрофитобентоса, водорослевых обрастаний и эпифитов на макрофитах в продуцировании пресноводной экосистемы. Россия, БайкМ ИрНЦ СО РАН, п. Листвянка, Ирк. обл., Россия.

Таким образом, в результате работы алгоритма в записях 1-7 были обнаружены следующие названия (см. таблицу).

Результаты обработки

Номер записи Названия, относящиеся к контенту (заголовок, аннотация) Названия, относящиеся к контексту (источник, место публикации)

1 Витимское плоскогорье, Забайкалье Байкальский регион, Улан-Удэ

2 Бурятия, Байкал Москва

3 Красноярский край, Енисей, Анабарск, Норильск, Челюскинск Красноярский край, Красноярск

4 Байкал, Российская Федерация Верещагинск, Иркутск

5 Байкал, Кабанск, Бабушкинск Российская Федерация, Байкал, Иркутск

6 Байкал, Листвянка Архангельск

7 Байкал, Ангара, Селенга, Баргузин, Российская Федерация Азия, Улан-Удэ

Из полученных результатов можно сделать следующие выводы.

1. Алгоритм пропускает географические названия только в достаточно сложных случаях, что видно в результатах обработки записи 3.

2. Алгоритм не обрабатывает сокращенные названия по причине сложностей с их определением.

3. В целом поставленная задача по извлечению географических названий из текстовых документов выполняется с достаточной точностью.

Заключение

Описанный в статье алгоритм автоматизированного извлечения из текста документа географических названий, отражающих его содержание, является частным случаем аналогичного алгоритма из работы [8], предназначенного для анализа текстов произвольной тематики. Работоспособность общего алгоритма была проверена при решении ряда практических задач, однако предложенная в данной статье модификация алгоритма, предназначенная для работы с географическими названиями, способна значительно повысить его эффективность.

Список литературы

1. Жижимов О. Л., Мазов Н. А. География и стандарты метаданных для электронных библиотек: содержание, применение, проблемы // Электронные библиотеки. 2009. Т. 12, № 1. URL: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2009/part1/ZM

2. Жижимов О. Л., Мазов Н. А. Об использовании географических координат при поиске библиографической информации // Научные и технические библиотеки. 2009. № 1. С. 54-60.

3. Жижимов О. Л., Мазов Н. А. Проблемы географической привязки цифровых объектов в электронных библиотеках // Тр. XII Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2010). Казань, 2010. С.207-214.

4. Скачков Д. М., Жижимов О. Л. О профиле доступа к данным тезауруса для ретроспективного геокодирования и географического поиска в электронных библиотеках // XVIII Междунар. конф. «Крым-2011». Судак, 4-12 июня 2011 г. URL: http://www.gpntb.ru/win/inter-events/crimea2011/disk/059.pdf

5. Скачков Д. М., Жижимов О. Л. Об использовании ретроспективного геокодирования для географического поиска в электронных библиотеках // Тр. XIII Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2011). Воронеж, 2011. С. 30-37.

6. Лаврёнова О. А. Многоязычный доступ к данным на основе тезауруса географических названий // Сб. тез. постерных докл. IX Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2007). Переславль-Залесский, 2007. С. 57-62.

7. Барахнин В. Б., Жижимов О. Л., Скачков Д. М. Проблема извлечения из текстовых документов географических названий, отражающих содержание // Сб. тр. XI Всерос. конф. с участием иностранных ученых «Проблемы мониторинга окружающей среды» (EM-2011). Кемерово, 2011. С. 285-290.

8. Шокин Ю. И., Федотов А. М., Барахнин В. Б. Проблемы поиска информации. Новосибирск: Наука, 2010.

9. Барахнин В. Б., Куперштох А. А. Алгоритм координатного индексирования электронных научных документов // Тр. междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании». Павлодар (Казахстан), 2006. Т. 1. C. 228-232.

10. Барахнин В. Б., Нехаева В. А. Технология создания тезауруса предметной области на основе предметного указателя энциклопедии // Вычислительные технологии. 2007. Т. 12. Спец. вып. 2. С. 3-9.

11. Белоногов Г. Г., Новоселов А. П. Автоматизация процессов накопления, поиска и обобщения информации. М.: Наука, 1979.

Материал поступил в редколлегию 16.01.2012

V. B. Barakhnin, O. L. Zhizhimov, A. A. Kupershtokh, D. M. Skachkov, A. M. Fedotov

THE ALGORYTHM OF EXTRACTING PLACE NAMES REPRESENTING CONTENT

FROM TEXT DOCUMENTS

The algorithm for automated extraction of geographical names representing content from text documents discussed in article. Questions related with extraction names included in thesaurus from document, adding word forms of geographical names to the lexical dictionary, homonyms detection, and retrieving names describing the content of document covered in the article.

Keywords: geocoding, automated extraction of geographic metadata from document.

i Надоели баннеры? Вы всегда можете отключить рекламу.