Научная статья на тему 'Метод автоматического реферирования текстов на естественном языке'

Метод автоматического реферирования текстов на естественном языке Текст научной статьи по специальности «Математика»

CC BY
210
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод автоматического реферирования текстов на естественном языке»

МЕТОД АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ ТЕКСТОВ НА

ЕСТЕСТВЕННОМ ЯЗЫКЕ

Стеклянников С.Е.

Московский государственный институт электроники и математики, каф. ИТАС

1. Введение

Все более широкое применение компьютеров в различных сферах человеческой деятельности не только ускорило создание и обработку документов, но и чрезвычайно увеличило их количество и объём. Так по различным оценкам человечество породило от 8 до 15 экзобайт (1*1018 байт) информации в 2002 году. Поэтому искусство реферирования, или составления аннотаций, или кратких изложений материала, то есть извлечения наиболее важных или характерных фрагментов из одного или многих источников информации, стало неотъемлемой частью повседневной жизни. С решением подобных задач сталкивается, к примеру, журналист при подборе материала для статьи, работник аналитической службы при подготовке обзора, студент при конспектировании различного рода учебных материалов. Указанные задачи возникают и при работе с текстовыми базами данных, и при разборке электронной почты, и при поиске в сети Internet.

Главное различие между средствами реферирования состоит в том, что они, по существу, формируют - краткое изложение или набор выдержек. В [1] приведен следующий пример. Выдержка из Геттисбергского обращения Авраама Линкольна: «Восемьдесят семь лет назад наши отцы ступили на эту землю, чтобы создать новую нацию». Краткое изложение того же текста: «В этой речи Авраам Линкольн призывает вспомнить солдат, которые отдали свои жизни в битве при Геттисберге». В дальнейшем в работе будет идти речь о рефератах первого типа, то есть о выдержках.

Составления выдержек предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого определяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае — просто соединение выбранных фрагментов. В большинстве методов применяется модель линейных весовых коэффициентов, основу которых составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с различными характеристиками. Наиболее распространенными являются весовой коэффициент расположения, зависящий от

того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент — в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, вводной части или в заключении, и коэффициент ключевых фраз, которые представляют собой лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и так далее. Затем эти коэффициенты суммируются для каждого блока, после чего выбираются п блоков, обладающих наивысшей суммой коэффициентов (значение п может быть определено на основании степени сжатия) для включения в реферат. Обычно объем реферата должен составлять от 5 до 30% исходного текста.

Главное преимущество линейной модели заключается в простоте ее реализации. Однако выделение предложений (или параграфов), не учитывающее взаимоотношений между ними, приводит к формированию бессвязных рефератов. Некоторые предложения могут оказаться пропущены, либо в них могут встречаться «висящие» слова или словосочетания (слово или фраза, которые невозможно понять без другого слова или фразы). Этого недостатка лишены системы опирающиеся на знания. Они содержат грамматики и словари для синтаксического разбора естественно-языковых конструкций, а также справочники, отражающие соображения здравого смысла и понятия, ориентированные на предметную область, для принятия решений во время анализа и определения наиболее важной информации. Выделяют два основных подхода.

Первый опирается на традиционный лингвистический метод синтаксического разбора предложений. Процедуры сравнения манипулируют непосредственно деревьями с целью удаления и перегруппировки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких как скобки или встроенные условные или подчиненные предложения. После такой процедуры дерево разбора существенно упрощается, становясь, по существу, структурной «выжимкой» исходного текста.

Второй подход к составлению краткого изложения уходит корнями в системы искусственного интеллекта и опирается на понимание естественного языка. Синтаксический разбор также входит составной частью в такой метод анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные репрезентативные структуры всей исходной информации, которые аккумулируются в текстовой базе знаний. В качестве

структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов.

Основным недостатком этих методов является то, что процессу синтаксического разбора соответствует целое дерево вариантов свертки фразы, вследствие чего производительность алгоритма падает экспоненциально с ростом числа используемых правил и количества слов в предложении. Так, очень сложные предложения могут порождать десятки тысяч вариантов разбора.

В работе рассматривается метод составления выдержек, опирающийся на знания, но при этом не содержащий этапа синтаксического анализа.

2. Алгоритм работы системы

На вход системы автоматического реферирования поступает неструктурированный текст на естественном языке. Процесс формирования реферата из входных данных состоит из следующих этапов:

• графематический анализ;

• морфологический анализ;

• семантический анализ;

• составление выдержки.

Графематический анализ основан на использовании присущих данному языку законов соединения символов текста. Его задача - определение границ содержательных элементов текста: словоформ, сокращений, чисел, формул, знаков препинания и т.п. Результатом графематического анализа являются сведения о границах слов внутри предложений, границах предложений и абзацев текста.

В общем случае на этапе морфологического анализа каждой поступившей на вход словоформе сопоставляется множество нормальных (начальных) форм слова, с соответствующим набором значений параметров (род, падеж, склонение и т.д.), при котором данная нормальная форма имеет одинаковое с входной словоформой написание. Появление нескольких нормальных форм слова обусловлено омонимией (ситуация, когда одно слово может быть воспринято в нескольких значениях). Под морфологической омонимией понимается ситуация, когда одному и тому же написанию слова соответствует несколько уникальных наборов <нормальная форма слова, параметры слова>. Примером может служить слово «стекло» (существительное в именительном падеже единственного числа «стекло», глагол прошедшего времени среднего рода «стекать»). Параметры слова

используются на этапе синтаксического анализа, который в рассматриваемый системе отсутствует, что позволяет сократить объем словаря и ускорить морфологический анализ за счет отказа от определения их (параметров) значений.

Семантический анализ предполагает наличие семантического словаря. За основу был взят словарь, описание которого приводится в [3], [4]. Он содержит около 80000 слов, каждому из которых ставится в соответствие набор от 5 до 30 относительно самостоятельных понятий (сем), в зависимости от значимости слова, причем омонимы в нём имеют различное семантическое представление. Благодаря отношениям общности и противоположности элементарные семы образуют бинарное дерево, которое на каждом следующем уровне воспроизводит все предыдущие. Таким образом, самый нижний уровень содержит все семы графа. Это важное обстоятельство позволяет произвести процедуру линеаризации графа, превратив его в некое подобие линейного пространства. Количество осей такого пространства есть некоторый произвол, определяемый способом нарезки графа. В рассматриваемом пространстве имеется около 3000 сем разбитых на 15 семантических осей.

Входными данными этого словаря являются нормальные формы слов, полученные на этапе морфологического анализа. Однако при программной реализации последовательное определение нормальной формы слова по морфологическому словарю и извлечения из тезауруса понятий не является оптимальным как по производительности, так и по объему хранимой информации. Повысить производительность можно с помощью морфосемантического словаря, хранящего как морфологическую, так и семантическую информацию. В этом случае, найдя слово в морфологическом словаре, мы получаем и семантическую информацию из тезауруса. При этом время на поиск в семантическом словаре не тратится, а сами нормальные формы хранятся только один раз. Более подробное описание морфосемантического словаря используемого в рассматриваемой системе приведено в [5].

Основной задачей этапа семантического анализа является устранение омонимии. При этом на ряду с вышеупомянутой морфологической омонимией возникает и лексическая омонимия. При лексической омонимии одно и то же с точки зрения словоизменения слово может обозначать разные предметы, действия и так далее. Примером может служить слово «коса» (прическа, инструмент и песчаная отмель).

В морфосемантическом словаре сема описывается как пара <id,levelid >, где:

• id - идентификатор семы;

• levelid - уровень семы с идентификатором id.

id и levelid представляют собой целые числа больше нуля. Тогда семантическая близость (семантическая мера) двух слов представленных множествами сем w1 и w2 может быть вычислена следующим способом:

W1UW2I

mera(w1,w2) = ^(level d^ -1)(countid^ -1)

i=1

где:

• idi - идентификатор i-ой семы в множестве w1^w2;

• levelid - уровень семы с идентификатором id;

• ооиЫ = + countidW2 , где - число вхождений семы с

идентификатором ¡ё в множество countidW2 - число вхождений семы с

идентификатором ¡ё в множество при этом countidW1 , countidW2 ={0,1}. Обобщая для к слов можно записать:

\Wl^W2 |

тгга(^1, w2,•••, Щ) = X (1еуе1^г - 1)(соип1ыг -1)

г=1

где:

• ¡ё; - идентификатор ¡-ой семы в множестве

• 1еуе1ш - уровень семы с идентификатором ¡ё;

к

• countidг countidWl , где соип^Щ - число вхождений семы с

У=1 '

идентификатором ¡ё в множество ^^

В случае омонимии, то есть когда для одного слова существует несколько наборов сем ассоциированных с ним - семантический анализатор

должен выбрать наилучший вариант семантического представления. Пусть в

1 ».» * * * предложении к слов, тогда необходимо найти такие , ,..., wk , что:

mera (w*,w2,..., w*) = max mera (wNw22v- wkk)

1 < ij < m j

1 <ik < mk

1 < i, < m,

где Ш1, ш2,..., шк - число омонимов 1-го, 2-го,..., к-го слов соответственно. Очевидно, что для точного решения этой задачи необходимо вычислить ш1*ш2*...*шк семантических мер, что неприемлемо в случае сложных предложений, порождающих десятки тысяч вариантов. Предлагается следующее приближенное решение данной задачи. Если для слова существует несколько наборов сем ассоциированных с ним, то для каждого такого значения вычисляется Лшега^.

Лтегау. = тега^2,...,w12,^2,...,<2,...,w|,м2,...,w/-1,w/+\...,,...,м2,...,) где 1<Кк; 1<]<ш;. Причем

Лтета1} = тега( м1, м2,..., м/-1, , ,..., ) -

Ю|

I (levelldc -1)

0=1 где:

W = wi П (w1 u wf u... u wj"1 u... u w1 u w2 u... u w/ 1 u w/+1 u... u w™' u... ...uw1 uwf u...u);

• idc - идентификатор c-ой семы в множестве fi;

• levelid - уровень семы с идентификатором id.

После чего для каждого из значений i, то есть для каждого из слов предложения, выбирается такое j, при котором значение Ameraij минимально - это говорит о том, что удаление набора сем wij в наибольшей степени снизит "осмысленность" предложения.

Amera* = min Amera.

1£j < mi

для i=[1,k].

Однако в рамках одного предложения не всегда удается однозначно определить правильный вариант, к тому же приближенное решение бывает ошибочным, поэтому для каждого слова разумно оставить несколько наборов сем, для чего, например, можно воспользоваться следующим условием:

w. - e < w. < w.

где w/ выбрано в соответствии с предыдущим условием; i=[1,k].

Окончательное устранение омонимии осуществляется с учетом контекста. Применяется тот же алгоритм, но для вычисления семантической меры используются все слова текста, то есть:

Amera. = mera (w\, w',..., w"1, w1, w22,..., w2m2,..., w1, wf,..., w¡~\ w/+1,..., w"í,..., w1, w„2,..., w"")

где n - число слов в тексте. При этом для каждого слова выбирается единственный набор сем.

К моменту начала этапа составления выдержки каждое предложение текста представляет собой множество наборов сем ассоциированных со словами этого предложения. Так i-ое предложение, состоящее из k слов, представлено

c12 k ^ 12 k

множеством si={wi , wi ,..., wi }, где wi , wi ,..., wi - это множества сем

ассоциированных с первым, вторым,., k-ым словом i-го предложения

соответственно. Меру семантической близости двух предложений можно

определить следующим образом:

Mera( s2) = mera( w\, wj2,..., wf1, w2,, w^,..., wf2)

где:

• k1 - число слов в пером предложении;

• k2 - число слов во втором предложении. Обобщая для m предложений:

Mera (s2,..., Sm ) = mera (w12,..., wf1, w1, w22,..., w22,..., wm , wm,..., w"m ) где ki - число слов в i-м предложении.

Выдержка должна состоять из предложений содержащих наиболее весомые понятия и самые сильные связи, которые и несут наибольшую информацию о тексте, что можно формализовать следующим образом. Необходимо выбрать Nr предложений текста таких что:

Mera С--. N) = max Mera (t1' ^ N )

1<i<NT

tj e S = {s1,s2,...,SNT}; j = [1,Nr] tj Ф tj, при k Ф j

где:

• NT - число предложений в тексте;

• S1 , S2 ,... , SNT - предложения текста.

Для точного решения необходимо вычислить

Ыт!

Ыя!(Ыт -Ыя)!

значений семантических мер. Очевидно, что получение точного решения для сколько-нибудь серьезного текста на практике не осуществимо.

Для решения поставленной задачи можно воспользоваться следующим методом. Сначала из текста выбирается Q пар предложений с наибольшей семантической мерой между предложениями входящими в пару. Пары сортируются в порядке убывания их семантической близости. Таким образом, первая пара предложений представляет собой искомый реферат при Кя=2. При этом можно с достаточно большой степенью уверенности говорить о том, что выбранные пары войдут в итоговый реферат при любом так как они являются наиболее информативными и сильно связанными. Далее осуществляется работа следующего алгоритма.

Вход: Q пар предложений, где х - порядковый номер первого предложения пары в тексте, у - порядковый номер второго предложения пары. Выход: группы предложений.

Начало

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Создать первую группу и поместить в нее предложения первой пары Цикл от 1:=2 до Q

Если (х и у 1-ой пары не входят ни в одну группу) то

Создать новую группу и помесить в нее предложения 1-ой пары Иначе

Если (х и у 1-ой пары входят в разные группы) то Если (выполняется Условие2) то Объединить эти группы

Все

Иначе

одну)то

Если (для 1-ой пары х входит в некоторую группу, а у не входит ни в

Если (выполняется Условие 1) то

Добавить у в группу содержащую х

Все

входит ни в одну) то

Иначе

Если (для 1-ой пары у входит в некоторую группу, а х не

Если (выполняется Условие 1) то

Добавить х в группу содержащую у

Все

Все

Все

Все

Все Конец цикла Конец

Условие 1. Выполняется в том случае, если семантическая мера добавляемого предложения с Нш11;1% предложений группы будет не меньше Ншй2. Где НшШ, Ншй2 могут задаваться пользователем.

Условие2. Выполняется в том случае, если для Ншй3% предложений одной группы выполняется Условие 1 по отношению к другой группе. Где НшйЗ может задаваться пользователем.

Таким образом, будут созданы группы, предложения в каждой из которых будут связаны между собой одной или несколькими темами. Причем количество групп, а также "строгость" соблюдения темы внутри каждой из групп задается пользователем параметрами НшИ;1, НшИ;2, НшкЗ. Здесь хотелось бы заметить, что для выбора Q пар предложений с наибольшей семантической мерой в общем случае необходимо произвести Кт(Кт-1)/2 вычислений значений мер, что для больших текстов приведет к катастрофическому увеличению трудоемкости. Этого можно избежать, если не учитывать предложений с малой собственной семантической мерой, то есть предложений, для которых Мега(Б;) меньше некоторого числа.

Дальнейшее составление реферата заключается в процедуре последовательного выбора предложения с максимальной собственной семантической мерой не принадлежащего ни одной из групп и не участвовавшего в формировании реферата до этого и, в случае выполнения Условия 1, добавления его в ту группу, с предложениями которой он имеет наибольшую семантическую близость. Процедура завершается при добавлении в выдержку N предложений. Полученные таким образом группы могут быть объединены в одну по требованию пользователя. Выходом рассмотренной системы автоматического реферирования текстов являются выдержки состоящие из предложений групп. Предложения представляются пользователю в порядке их появления в исходном тексте.

3. Заключение

В соответствии с вышеизложенным был разработан семантический рефератор текстов, к достоинствам которого кроме высокой производительности и умеренного объема занимаемой памяти относится возможность реферирования текстов содержащих слова различных языков, что обусловлено их единым семантическим представлением. Среди недостатков системы можно отметить возможность появления "висящих" слов или словосочетаний.

Список литературы:

1. Удо Хан, Индерджиет Мани. Системы автоматического реферирования. // Открытые системы, #12/2000

2. Э.С. Клышинский, А.С. Андреев, С.В. Ёлкин. Метод машинного перевода текстов. // Сб. научных трудов 3-го научно-практического семинара "Новые информационные технологии". М.:МГИЭМ, 2000, сс. 58-63

3. Бетин В.Н. Ёлкин С.В. Хачукаев Э.М. Принципы построения семантического словаря для решения задачи устранения омонимии // Вестник ВИНИТИ НТИ. 2001. сер 2, N1. С.34

4. Ёлкин С.В., Бетин В.Н., Жигарев А.Е, Простаков О.В, Хачукаев Э.М. Разработка семантического анализа текстов при автореферировании // Вестник ВИНИТИ НТИ. 2001. сер 2, N12. С. 18-21

5. С.В. Ёлкин, Э.С. Клышинский, С.Е. Стеклянников. Проблемы создания универсального морфосемантического словаря. // Труды Международных научно-технических конференций "Интеллектуальные системы (IEEE AIS'03)" и "Интеллектуальные САПР (CAD 2003)". М.: Изд-во Физико-математической литературы, 2003, Т.1 сс.159-163.

i Надоели баннеры? Вы всегда можете отключить рекламу.