Математические структуры и моделирование 1999. Вып. 3, с.143-151.
УДК 519.71
АССОЦИАТИВНАЯ МОДЕЛЬ РЕАЛЬНОГО
ТЕКСТА
И ЕЕ ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА
О.Г. Чанышев
Characteristics text's prototype, generated by automat-«writer», give a chance objective check of the real text assotiative model. Happen To short results of autoindexing by the system GIOS real texts of different genres and text of present article.
Ассоциативная модель реального текста, основанные на ней алгоритмы и программы прототипа интеллектуальной системы управления текстовыми базами данных - системы ГИОС - разработаны на основании предположения о возможности автоматического выявления в тексте ключевых слов и словосочетаний. Следствия модели проверены на представительном корпусе текстов различных жанров и объемов.
1. Прототип текста
Модель основывается на очевидном положении - предметные области, описываемые вербально, могут быть представлены графами из вершин - объектов и ребер - N-местных отношений. Идея представления реальных объектов графами и определения множеств графов с помощью специальных грамматик, представления текста как ориентированного или неориентированного графа давно и плодотворно используется в различных областях науки (см. [1, с.98], [2, с. 185232], [3, с.490], [4, с.31], [5, 6]). В случае, когда компьютерная система не имеет данных для классификации речевых объектов по частям речи, а следовательно - элементов предметных областей по объектам и отношениям, следует рассматривать текст как задание тотального графа предметной области списками смежности переменной длины - предложениями.
Такая постановка дала возможность за пределами многообразия форм и жанров естественноязыковых текстов получить некоторые общие их характеристики. Для этого был разработан автомат-шисатель» (рис. 1), формирующий
© 1999 О.Г. Чанышев
E-mail: [email protected]
Омский филиал Института математики СО РАН
описания пути в графе в ответ на указание начальной и конечной вершин. Через оперативную память автомата, моделирующую кратковременную память человека, происходит обмен между двумя типами внешних памятей и долговременной, хранящей упорядоченные последовательности двоек имен - вершины и инцидентной дуги. Ограниченность оперативной памяти 7-ю ячейками [7, с.30-31] приводит к необходимости формирования описания пути блоками из двух последовательных троек имен: вершина - дуга - следующая вершина и концевого маркера блока, содержащего имена начальной и конечной вершин в пути и последней вершины в сформированном блоке. Формирование ьго блока начинается с чтения (ь1)-го маркера.
Такое представление пути или множества путей в графе названо прототипом текста, а тройки и маркеры - прототипами предложений.
Следует отметить, что наличие маркеров приводит к образованию дополнительных связей между именами вершин, что отличает граф прототипа текста от исходного графа. Частотный анализ, основанный на частоте повторения слова как меры его важности, установил ряд важных свойств прототипа текста.
Во-первых, если вес прототипа предложения определить как сумму частот входящих имен, то распределение весов имеет осциллирующий характер (рис. 2). Учитывая, что локальные максимумы приходятся на концевые маркеры, содержащие наиболее «важные» имена вершин, становится очевидным применение итеративной процедуры отбора прототипов предложений (или предложений реального текста) с локальными максимумами весов для автоматического квазиреферирования.
Во-вторых, поиск инвариантов - величин, не зависящих от числа вершин в отдельном пути ни от числа путей в однокорневом графе, показал, что таковыми являются: а) отношение числа прототипов предложений квазиреферата к общему числу предложений в прототипе текста - коэффициент квазиреферирования (Кг); б) отношение числа имен вершин, не вошедших в предложения квазиреферата к общему числу имен вершин. Разность между единицей и этим отношением названа коэффициентом полноты описания (К/)-
Выяснилось, что если сгруппировать имена с равными частотами и пронумеровать (проранжировать) группы в порядке возрастания частоты, то зависимость ранга от частоты (известная в лингвистике как гиперболический закон рангового распределения Ципфа) начиная с 8 вершин в пути перестает быть строго линейной - лидируют с отрывом имена начальной и конечной вершин (рис. 3). Варьирование числа и длин путей в одновершинном графе дало основание ввести в рассмотрение критическую частоту имени, при которой произведение ранга на частоту достигает максимума и отклонение от линейной зависимости, во всяком случае, происходит при частотах больших критической.
юкг = 0.5 ХЙ2 + 1,
где К2 - ранг группы с частотой 2.
Если не учитывать имена дуг, то каждый прототип предложения можно рассматривать как задание бинарного отношения смежности между верши-
нами графа, а прототип в целом - как задание графа бинарными списками смежностей вершин. В таком случае частота появления имени есть степень вершины в тотальном графе прототипа текста.
Формальное представление реального текста как ориентированного графа, задаваемого матрицей лексических связей, подробно изложено в статьях [8, 9]. За частоту слова принимается число его повторений в различных предложениях. Различные грамматические формы слова из его парадигмы рассматриваются как различные слова. Слова с единичной частотой, служебные слова языка и некоторые другие, определяемые экспертно для широкого класса текстов как семантически незначимые, не учитываются. Оставшиеся лексемы составляют первичное множество связи (Ь°), из которого на основе анализа пересечений областей существования выделяется множество V независимых лексем. Последние обладают тем свойством, что для любой их пары найдутся минимум два предложения, в каждое из которых входит только одна лексема из пары. Составляя в среднем примерно 0.1 от общего словаря текста (четверть - без учета принадлежащих стоп-словарю), именно они являются его несущей конструкцией. Степень лексической экстракции иллюстрируют зависимости частота-ранг (рис. 4,5) текстов, автоиндексированных с учетом только лексем связи (нижняя линия) и по полному словарю текста.
Рассмотрение предложений реального текста как списков смежностей вершин переменной длины приводит к выводу о недостаточности частотной меры важности слова. Действительно, если в прототипе текста частота имени аналогична степени соответствующей вершины графа, то и для реального текста следует взять туже меру. Новый критерий важности слова - ассоциативная мощность (Ф) - есть степень вершины минус число имен вершин (слов), смежных с данным в первом предложении области существования данного.
к=2г-,. . . , . . ., А^ - номера предложений области существования /¿-ой лексемы, начиная со 2-го
2. Реальный текст
N. Щ
(1)
к 3 = 1,зфг
1, если (13 ^ Рт%, гаг- < к 0 во всех других случаях
(2)
Алгоритм расчета ассоциативных мощностей совмещен с алгоритмом выделения независимых лексем так, что Ф для лексем из V С Ь° определяются с учетом всех лексем из Ь°.
3. Результаты эксперимента
Выбор множества текстов для экспериментов определялся целевой установкой -нужно было показать, что предлагаемый метод автоиндексирования дает одинаковые результаты в широком тематическом и жанровом диапазоне. В таблице представлены результаты автоматического анализа системой ГИОС 86 полных текстов 7 жанровых групп в диапазоне числа предложений 28-1682.
Средние значения Кг и К$ по жанровым группам
Группа 1 2 3 4 5 6 7
Число т-ов 12 22 7 16 16 8 5
Кг 0.33 0.32 0.32 0.33 0.3 0.32 0.3
Ср.кв.откл. 0.02 0.02 0.01 0.02 0.04 0.01 0.04
Kf 0.8 0.75 0.79 0.78 0.76 0.77 0.68
Ср.кв.откл. 0.02 0.03 0.03 0.04 0.03 0.03 0.01
Жанровые группы: 1) тексты научно-технического характера; 2) студенческие авторефераты по философии; 3) оригинальные философские тексты; 4)публи-цистика; 5) рассказы и повести А.П. Чехова; 6) повести Н.В. Гоголя; 7) поэзия представлена двумя поэмами A.C. Пушкина и тремя стихотворениями М.Ю. Лермонтова.
Полностью подтвердилось предположение о постоянстве коэффициентов реферирования и полноты описания.
Процесс итеративного квазиреферирования сходится к одному (очень редко к двум) ключевому предложению. При этом, в большинстве случаев, они правильно отражают основную тему текста.
В большинстве проанализированных текстов на графике «частота-ранг» обнаруживается скачок частот (рис.6), при этом JIMC с частотой, равной или большей критической, оказываются и основными «действующими лицами» текста.
Скачок ассоциативной мощности обнаруживается на всех без исключения графиках «ассоциативная мощность - ранг». Лексемы, частота которых или ассоциативная мощность больше критических, названы доминантными, или доминантами.
Графики плотности ф (сумма ф{ частотной группы, деленная на число лексем в группе) наглядно иллюстрируют положение о недостаточности частотной меры важности слова (рис. 7).
Полученные результаты являются объективным подтверждением правильности ассоциативной модели и перспективности ее развития в направлении автоматического семантического анализа текстов.
4. Результаты анализа текста статьи
Описание многофункциональной системы ГИОС выходит за рамки темы, однако автор полагает уместным привести логическую схему базы знаний о связях в тексте (БЗС) (рис.8) и схему потока алгоритма ее автогенерации (рис.9).
В заключение приведем результаты автоматического анализа текста настоящей статьи. Текст анализировался с первого предложения после аннотации и не включал настоящего раздела. Операторы ЬаТех'а не обрабатывались.
Число предложений - 97; число квазирефератов - 4; числа предложений квазирефератов - 29,8,3,1; число элементов Ь° - 120; V - 71; Шкг =6; число лексем, не вошедших в квазиреферат 1-й итерации, - 15; А"г=0.299; Кf=78.87.
Лексемы из V до (цифры в скобках - Фиш): (56 16) текста,(31 13) рис, (31 9) текстов, (48 9) вершин, (27 1) слова, (31 6) предложений, (27 6) графа.
Предложения квазиреферата 3-й итерации (в 4-ю входит первое из них):
(16) Во-вторых, поиск инвариантов - величин, не зависящих ни от числа вершин в отдельном пути ни от числа путей в одновершинном графе, показал, что таковыми являются: а) отношение числа прототипов предложений квазиреферата к общему числу предложений в прототипе текста - коэффициент квазиреферирования (Кг); б) отношение числа имен вершин, не вошедших в предложения квазиреферата, к общему числу имен вершин.
(33) Новый критерий важности слова - ассоциативная мощность (Ч?) -есть степень вершины минус число имен вершин (слов), смежных с данным в первом предложении области существования данного.
(95) Ассоциативная модель естественноязыкового текста.
Графики весов предложений и распределения «частота-ранг»:
Последнип ппк па графике весов предложении соответствует папмепованпю последней статьи в списке литературы - предложение 95.
5. Рисунки
-б11
б11 = ((УО, <11,у1), (г>1, ¿2, у2), (у2, б?з, Уз), ("3, щ)) РТ = У0,б?1,и1. У1,с12,У2-
у2,(13,у3. у3,(14,у4. У0,у4,У4.
>
Рис.1. Автомат-"писатель''
Рис.6
Рис.7
Ф
Ь1 Тип записи ' Текст"
Номер строки Nst Строка
Ьг Тип записи "Реферат"
Номер итерац. Число предл. Ср Ссылки на предл. Г
и Тип записи ' Предложение"
Ссылка Пози- Число строк Пози- Список
Номер на стр.1 ция ция Вес ссылок на леке.
А, Рог1 Рог2 Iе
О
V Тип записи "Лексема"
Лексема 1ех Частота со Ассоц. мощность ф Список вхождения I1
ссылка на ссылка на Позиция в
строку предл. предл.
Рис.8. Логическая схема БЗС
Литература
1. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. - М.: Мир, 1978.
2. Кузин JI.T. Основы кибернетики. Т.2. - М.: Энергия, 1979.
3. Зыков A.A. Теория конечных графов. - Новосибирск: Наука, 1969.
4. Котельников И.В. Введение структурной информации в процесс автоматической классификации данных, представляемых в реляционной модели // КИИ - 94, Национальная конференция с международным участием «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ - 94»: Сб. научных трудов: В 2 т. - Том 1. - 1994. - С.30-34.
5. Пальчунов Д.Е. Алгебраическое описание смысла высказываний естественного языка // Модели когнитивных процессов (Вычислительные системы, 158): Сб. научных трудов / Под ред. К.Ф. Самохвалова- Новосибирск: ИМ СО РАН, 1997. - С.127-148.
6. Пальчунов Д.Е. Анализ текстов естественного языка с помощью метода ГА-БЕК // Там же. - С.159-166.
7. Механизмы памяти / Руководство по физиологии. - Л.: Наука, 1987.
8. Чанышев О.Г. Гипертекстовая объектно-ориентированная система для работы с полнотекстовыми БД// Информационные технологии и радиосети (ИН-ФОРАДИО'96): междунар. науч.-практ. конф. (Омск, 6-8 февраля 1996 г.) - Новосибирск: Изд-во Инт-та математики СО РАН, 1998. - С.60-74.
9. Чанышев О.Г. Ассоциативная модель естественноязыкового текста // Вестник Омского университета. - 1997. - Вып. 4. - С.17-20.