Научная статья на тему 'Система автоматического индексирования и реферирования текстовых документов'

Система автоматического индексирования и реферирования текстовых документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
492
79
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кравцов А.А., Липницкий С.Ф., Степура Л.В.

Рассмотрены теоретические предпосылки и программная реализация системы индексирования и реферирования текстовых документов на основе использования базы знаний о предметной области в виде ситуативно-синтагматической сети. В системе используется предложенный авторами подход к вычислению информативности лексем и предложений, основанный на сопоставлении статистических характеристик словоформ в реферируемом тексте и полном корпусе текстов. Система может быть использована в научно-технических библиотеках для автоматизированного индексирования и аннотирования научно-технических статей и книг, а также пользователями Интернет для предварительного ознакомления с содержанием текстовых документов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Theoretical preconditions and program realization of computer system of indexing and abstracting of text documents on the basis of knowledge base use about a subject domain in the form of an is situational-syntagmatic network are considered. The approach offered by authors to calculation informative lexemes and the offers, based on comparison of statistical characteristics of word forms in the reviewed text and a full corpus is used in this system. The computer system can be used in scientific and technical libraries for the automated indexing and annotation of scientific and technical articles and books, and also Internet users for familiarity with the content of text documents.

Текст научной работы на тему «Система автоматического индексирования и реферирования текстовых документов»

УДК 004.912

СИСТЕМА АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ И РЕФЕРИРОВАНИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ

© Кравцов А.А., Липницкий С.Ф., Степура Л .В.

Объединенный институт проблем информатики НАН Беларуси ул. Сургдновд, 6, г. Минск, 220012, Беларусь

e-mail: kravtsov@newman.bas-net.by, lipn@newman.bas-net.by, stepura@newman.bas-net.by

Abstract. Theoretical preconditions and program realization of computer system of indexing and abstracting of text documents on the basis of knowledge base use about a subject domain in the form of an is situational-syntagmatic network are considered. The approach offered by authors to calculation informative lexemes and the offers, based on comparison of statistical characteristics of word forms in the reviewed text and a full corpus is used in this system. The computer system can be used in scientific and technical libraries for the automated indexing and annotation of scientific and technical articles and books, and also Internet users for familiarity with the content of text documents.

Введение

Постановка проблемы. Эффективность процессов автоматического индексирования и реферирования текстовых документов существенным образом зависит от интеллектуальности программной системы, т. е. ее способности накапливать и использовать знания с целью «компьютерного понимания» текстов и их фрагментов. Известно, что понимание текста человеком связано со знанием языка, с одной стороны, и распознаванием ситуативного контекста, с другой. При отсутствии ситуативных знаний восприятие текста возможно только на лингвистическом уровне, В связи с этим возникает проблема построения такой модели базы знаний, которая обеспечила бы реализацию эффективных алгоритмов индексирования и реферирования текстов с учетом ситуативных связей между понятиями предметной области.

Состояние проблемы. Основной задачей, возникающей при автоматическом индексировании и реферировании текстовых документов, является вычисление информативности слов и предложений. Существующие подходы к решению этой задачи основаны главным образом на анализе (статистическом, лингвистическом, семантическом) самого исходного текста без привлечения знаний о предметной области. Использование таких знаний позволяет существенно повысить эффективность функционирования информационных систем различного назначения за счет их интеллектуализации [1, 2, 3, 4].

Нерешенные задачи, цель и задачи статьи. В рамках рассматриваемой проблемы нерешенными являются следующие задачи:

- вычисление информативности слов и предложений текста с использованием накопленных знаний в виде корпусов текстов по различной тематике;

- создание словарей базы знаний на основе моделирования ситуативных связей между понятиями предметной области.

Решение этих задач является основной целью данной статьи.

Рис. 1, Структурная схема системы индексирования и реферирования текстовых документов

1. Архитектура системы

В состав системы автоматического индексирования и реферирования текстовых документов входят следующие основные структурные компоненты (рис, 1):

- автоматизированное рабочее место (АРМ) эксперта-.лингвиста;

- база знаний, включающая систему словарей;

- программы поиска информативных слов и предложений в текстовых документах;

- программы синтеза рефератов,

АРМ эксперта-лингвиста - это комплекс программ, предназначенный для автоматизированного формирования и актуализации баз данных и знаний,

В базе данных системы накапливаются и хранятся текстовые документы, па основе которых формируются тематические корпуса текстов для всех разделов предметной области, (Тематический корпус - это совокупность текстов по конкретной тематике; множество всех тематических корпусов - это полный корпус текстов). Если в полном корпусе текстов представлен только один тематический, то полный корпус дополняется корпусом текстов с общеупотребительной лексикой, т, е, полный корпус текстов должен содержать, как минимум, два тематических. На основе статистической обработки корпусов текстов формируются словари базы знаний,

В состав базы знаний системы входят частотный словарь словоформ, словарь словоизменительных парадигм, словарь синонимов и словарь ситуативных связей,

В словаре словоформ каждой словоформе поставлены в соответствие:

- абсолютная частота словоформы в полном корпусе текстов;

- абсолютные частоты словоформы во всех тематических корпусах текстов;

- номер (код) парадигмы,

В первоначальном состоянии каждая словоформа словаря образует отдельную парадигму. После объединения некоторых (или всех) словоформ в словоизменительные парадигмы словоформам присваивается номер парадигмы, элементом которой эта словоформа является.

Словарь словоформ используется при определении абсолютной частоты словоформы в реферируемом документе. При этом предусмотрены два варианта, В первом варианте (при построении общего реферата текстового документа) частота словоформы подсчитывается непосредственно в документе. Во втором варианте (в случае создания тематически ориентированного реферата) словоформам документа приписываются частоты из соответствующего тематического корпуса текстов.

Словарь парадигм служит для поиска всех словоформ парадигмы после нахождения словоформы и ее кода в словаре словоформ. Частоты всех словоформ найденной парадигмы при этом суммируются, и словоформе приписывается суммарная частота, Аналогичным образом используется словарь синонимов. Процедура определения частот слов используется при вычислении их информативности,

В словаре ситуативных связей представлены упорядоченные пары слов, каждой из которых поставлена в соответствие абсолютная частота этой пары в предложениях полного корпуса текстов. Словарь используется при синтезе реферата и является реализацией модели базы знаний,

2, Моделирование знаний о предметной области

Построим модель базы знаний системы индексирования и реферирования текстовых документов в виде ситуативно-синтагматической сети. Это граф, вершинами которого являются информативные лексемы, а ребрами - ситуативные связи между лексемами. Информативность лексем в сети определяется на основе сопоставления их частотных характеристик в корпусах текстов.

Пусть имеется некоторое непустое множество текстов входного языка (набор текстов по конкретной тематике). Сформируем текст ТЪ, объединив все множества предложений каждого из этих текстов, и назовем его тематическим корпусом текстов. Поскольку в информационной системе представлено, как правило, несколько таких

п

корпусов, будем обозначать их Т/^ ({ - номер корпуса). Объединение Ри = У Т/^

¿=1

всех тематических корпусов назовем полным корпусом текстов,

С учетом введенных обозначений ситуативные связи формализуем в виде ситуативного отношения на множестве лексем.

Обозначим через вРг множество всех лексем полного корпуса текстов /•'//. Тогда отношение толерантности О (рефлексивное и симметричное бинарное отношение) на множестве вРг назовем ситуативным отношением в полном корпусе текстов Ри, если любая упорядоченная пара лексем (//. и) из множества XI г является элементом отношения О тогда и только тогда, когда вероятность совместной встречаемости

лексем ц ър в корпусе текстов Ей не меньше некоторого порогового значения (уровня ситуативной связи).

Под совместной встречаемостью двух лексем здесь понимается наличие этих лексем (или их синонимов) в одном и том же предложении корпуса Ри. Граф 3СИТ, ситуативного отношения будем называть ситуативно-синтагматической сетью.

3, Индексирование текстовых документов

Процесс индексирования текстовых документов включает два этапа. На первом этапе в тексте выявляются информативные словоформы, а на втором - ключевые слова (лексемы).

Информативность словоформы определим как условную вероятность того, что эта словоформа извлечена из индексируемого текста (или релевантного ему тематического корпуса текстов) РЬ, при условии, что она уже извлечена из полного корпуса текстов /•'//:

о/с /с _ • Зри) _ Р(Зть) • Р(3ри/3ть) /-.ч ^{отн/Ьри)^—-——-— —---—--

г\Ори) г{Ьри)

В формуле (1) задействованы следующие события:

~ ^тл, ~ словоформа извлечена случайным образом из тематического корпуса текстов (или текстового документа) РЬ, (РЬ, £ Ри);

~ Зри - словоформа извлечена из полного корпуса текстов Ей.

Пусть птъ-, п>ри - абсолютные частоты встречаемости словоформы в индексируемом тексте (или релевантном ему тематическом корпусе текстов) РЬ и полном корпусе текстов 1'и соответственно. Тогда нетрудно установить [5, 6], что при достаточно больших объемах корпусов текстов РЬ и 1'и формула для вычисления информативности словоформы примет вид

1тн ~-■ (2)

При вычислении информативности лексемы в числителе и знаменателе формулы (2) находится сумма частот всех словоформ парадигмы для данной лексемы с учетом словоизменения, зафиксированного в словаре парадигм системы, и синонимии в корпусах текстов РЬ и Ей соответственно,

В разработанной версии программной системы результаты индексирования предъявляются пользователю в виде списка лексем (ключевых слов) с их информативностью (в процентах). Список может быть отсортирован по алфавиту или по убыванию информативности лексем,

4, Реферирование текстовых документов

При построении реферата текста формируется маршрут его информативности и семантический след. Формально понятия маршрута информативности и семантического следа текста определим следующим образом.

Рис. 2, Пример семантического следа текста в графе информативности

Пусть имеется текст (т. е, кортеж предложений) Те, Вычислим информативность лексем всех предложений текста Те, Поставим в соответствие каждому предложению из Те длину вектора, компонентами которого являются показатели информативности всех информативных слов этого предложения. Эту длину будем считать характеристикой информативности данного предложения. Исключим из текста Те все неинформативные предложения, т. е, предложения, показатель информативности которых меньше некоторого числа (порога информативности), В результате получим кортеж предложений (в порядке их следования в Те) Теинф. = (7Г1, 7г-2,... , 7Г„), Кортеж Теинф. будем называть маршрутом информативности текста Те,

Построим орграф Сгинф., считая все предложения маршрута информативности Теинф. его вершинами. Всякую пару вершин 71"¿, 7гу- (г < j.l < i < п — 1, 2 < j < п) соединим дугой (7г^,7г7) тогда и только тогда, когда в ситуативно-синтагматической сети SCMT. существует хотя бы одна пара вершин (подцепочек предложений и 7Г7-соответственно), соединенных ребром, которое указывает па существование ситуативной связи между этими подцепочками.

Орграф С?'инф., па множестве вершин которого определен линейный порядок, соответствующий порядку предложений в маршруте информативности Теинф., будем называть графом информативности текста Те,

Маршрут информативности Теинф. является основой для построения реферата текста Те, Для регулирования объема маршрута информативности и выявления в нем мопотематических фрагментов построим семантический след текста.

Семантическим следом Тг текста Те будем называть подграф графа информативности С?'инф., вершинами которого являются все вершины орграфа Grwnф. с числом дух', ипцидептпым им, пе меньше некоторого щ (рис, 2),

На рис, 2 каждая вершина графа информативности С?'инф. помечена числом, обозначающим количество инцидентных ему дух' (в данном случае щ = 4), Вершины и дуги орграфа Сгинф., не вошедшие в состав семантического следа Тг, изображены пунктирными линиями. Связные подграфы семантического следа соответствуют двум мопотематическим фрагментам текста.

Семантический след текста - это модель реферата текстового документа,

5, Программная реализация системы

Рассматриваемая версия системы индексирования и реферирования текстовых документов реализована па языке программирования С++. Система может обрабатывать тексты в форматах html, txt, rtf, doc. Обработка документов формате pdf

1 Программа выделения информативных слое [Просмотреть реферат]

çpr Файл Сервис Вид Помощь

^ m м

Отменить Вставить Шрифт

.Количество слов контекста 20

Разрешить выделение

Уровень информативности:0

Статистика ) Вернуться в главное окно |

ИНФОРМАТИВНЫЕ ПРЕДЛОЖЕНИЯ

РЕФЕРАТ

Цветение длится на протяжении мая., отчасти нюня. Опылением занимаются в основном шмели и мухи. Многочисленные сплюснутые семена прячутся в коробочке.

О корневищах и цветках известно, что они являются сильным рвотным и слабительным средством.

ipitдне« медицина изредка ттрнмкнял-в атеар подземных органов растения п| ■ rtfty дыкатЕшдых путей нервных к ■Гияекппоги'чп ганя* для тгнани* листов»

L

Га же лекарственная форма использовалась как полоскание при зубной боли и крушениях слизистой рта; на места ранений, геморроидальных шишек, язв и укусов прикладывались компрессы.

щк содержи" дуьнлнны: вещества и шляпай кр эти га л к

Шт

pssfeimfi

ввивв

Семейство касатиковые, или ирисовые, славится красотой своих представителей. Включает в себя около 250 видов, распространенных в умеренных и тропических областях северного полушария.

И практически любой дикорастущий вид настолько хорош собой, что редкий из них не пробовался в культуре.

Касатик желтый также культивируется, у него есть пестролистные формы, и Бог весть, к созданию скольких садовых сортов он причастен - новые и новые появляются ежегодно. Русское название растения изначально звучит как косатик, т.е. растение с листьями, похожими на косы.

Белорусские крестьянки пили отвар травы касатика в надежде на рост волос-пример симпатической магии.

У Седнра касатик анровндный подается как эмблема спокойствия и афродизиак, т.е. средство для возбуждения полового влечения.

Последнее может быть связано с тем, что по одному из вариантов греческого мифа о рождении Эроса его матерью была Ирида (см. ниже о латинском названии рода]. В букете знатока цветочных символов ирис должен донести до адресата, что его дружба значит очень много, а также говорит о доверии, мудрости и надежде. В словаре Даля общее название касатиков - петушки. Для касатика болотного сабельник, лепешннк, чикан.

Эта группа имен отличает касатик болотный от других касатиков, но сближает его с

О корневищах и цветках известно, что они являются сильным рвотным и слабительным средством.

Народная медицина изредка применяла отвар подземных органов растения при заболеваниях желудка, верхних дыхательных путей, нервных и гинекологических

болезнях, для изгнания глистов._

Та же лекарственная форма использовалась как полоскание при зубной боли и

нарушениях слизистой рта; на места ранений, геморроидальных шишек, язв и укусов змей

прикладывались компрессы.

Имеются данные о лечении им зпнлепснн.

Отвар корневищ применяют в акушерско-гинекологической практике для усиления родовых потуг, остановке маточных кровотечений, при нарушении менструального цикла, а также при стоматитах, гингивитах.

Статистика докуме нта

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Ключевые слова: -

Слово Информативность Есть в реферате л

эпилепсия 60 ДА

кровотечение 60 ДА

лечение 57 ДА

заболевание 57 ДА

язва 52 ДА

боль 49 ДА

рвотный 48 ДА

слизистый 46 ДА

слабительный 44 ДА

болезнь 43 ДА

желудок 42 ДА

лечебный 41 НЕТ

укус 40 ДА

симпатический 40 НЕТ

лекарственный 38 ДА

незрелый 37 НЕТ

нервный 37 ДА

маточный 35 ДА

ранение 35 ДА

Рис. 3. Результаты индексирования и реферирования текстового документа

возможна после их конвертирования в поддерживаемые системой форматы с помощью существующих программных средств.

Программная система представляет собой исполняемое приложение Windows, в рабочей области которого отображается открытый документ и результаты его индексирования и реферирования. На панели инструментов приложения имеются элементы управления «Уровень информативности», «Порох' некорректности», «Объем реферата», «Количество слов контекста». С номощыо этих элементов пользователь задает необходимые ему параметры системы.

На рис. 3 представлены результаты индексирования и реферирования текста «Касатик аировидный» (о лекарственном растении). В левом окне представлены все предложения текста (при уровне информативности, равном нулю). В нравом окне приведены реферат и список ключевых слов, упорядоченных но убыванию их информативности. В левом окне выделен контекст предложения из реферата, отмеченного пользователем в нравом окне.

Данная версия системы обеспечивает индексирование и реферирование текстов в двух режимах. В нервом режиме формируется общий реферат, представляющий основное содержание документа. Во втором режиме создается реферат, ориентированный на тематику пользователя но рубрикам: авиация и космонавтика, астрономия, биология, военные технологии, география, геология, дистанционное зондирование Земли, лингвистика, математика, общая медицина, поиск и обработка текстовой

информации, психология, социология, технология и промышленность, транспорт и связь, физика, философия, химия, энергетика и строительство. Количество рубрик может быть увеличено за счет создания новых тематических корпусов текстов.

Заключение

Полученные результаты.

1, Разработана модель базы знаний системы индексирования и реферирования текстовых документов,

2, Предложен подход к вычислению информативности словоформ и предложений текста на основе использования корпусов текстов различной тематической направленности,

3, Разработана программная система, в которой реализованы полученные авторами теоретические результаты.

Перспективы дальнейших исследований. Исследования могут быть продолжены в направлении индексирования и реферирования текстов на различных входных языках с выдачей результатов на языке, отличном от входного,

список литературы

1. Удо Хан, Индерджиет Мани. Системы автоматического реферирования // Открытые системы, № 12 [Электронный ресурс], 2000 г. - Режим доступа: http://www.osp.ru/os/2000/12/178370 -Дата доступа: 3.04.2008.

2. Hulth, А. et al Automatic keyword extraction using domain knowledge // Lecture notes in computer science, Vol. 3930/2006, 2006, P. 633-641.

3. Демьянков В.З. Интерпретация, понимание и лингвистические аспекты их моделирования на ЭВМ // М.: Изд-во Моск. ун-та, 1989 г., 172с.

4. Ильин Н, Киселев С., Рябышкин В., Танков С. Технологии извлечения знаний из текста // Открытые системы, № 6 [Электронный ресурс], 2006 г. - Режим доступа: http://www.i-teco.ru/articlel04.html. - Дата доступа: 3.04.2008.

5. Липницкий С.Ф. Семантический анализ текста на основе ситуативно-синтагматической сети // Информатика, № 2, 2005 г., С. 102-110.

6. Кравцов A.A., Липницкий С. Ф., Насуро Д.Р. Синтез рефератов текстовых документов на основе ситуативно-синтагматической сети // Искусственный интеллект, № 2, 2006 г., С. 172-175.

Статья поступила в редакцию 27.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.