УДК 681.324
Д.В.Михайлов, Н.А.Степанова, И.И.Юрченко
ФОРМИРОВАНИЕ И КЛАСТЕРИЗАЦИЯ КОНТЕКСТОВ ДЛЯ СУЩЕСТВИТЕЛЬНЫХ РУССКОГО ЯЗЫКА В РАМКАХ КОНВЕРСИВНЫХ ЗАМЕН
Институт электронных и информационных систем НовГУ, Dmitrv.Mikhavlov@novsu.ru
The paper deals with the problem of semantic clustering in natural language texts. Syntactic contexts of nouns serve as a basic structure for automatic formation of a set of text attributes. A principle of revealing of converse terms in the contexts under investigation is described.
Ключевые слова: кластеризация, синтаксические контексты существительных, принцип выявления конверсивов
Центральной задачей анализа смысла высказывания естественного языка (ЕЯ) является выделение класса семантической эквивалентности (СЭ). В общих чертах установить СЭ означает доказать идентичность ролей, в которых фигурируют идентичные понятия относительно сходных ситуаций, описываемых сравниваемыми текстами.
Поставим задачу установления СЭ следующим образом. Пусть дано множество текстов ЕЯ
О = {Т1,...,Т„(0)}, п(О) = |О|. Элементами О могут
быть, к примеру, ответы обучаемых на вопрос тестирующей системы при применении заданий открытой формы [1]. Требуется по результатам синтаксического разбора Т1,...,Тп(О) выявить для каждого Т е О :
— множество V(Т) ситуаций, описываемых текстом Т;
— множество М (Т) объектов (понятий), значимых в ситуациях из множества V(Т);
— тернарное отношение I с О х М XV, которое ставит в соответствие каждому объекту (понятию) т е М : М = и М (Т ) ситуацию V е V : V = и (Т),
г г
в которой он фигурирует относительно заданного текста Тг.
Далее на основе выявленного отношения I выделяются группы текстов, сходных по встречаемости объектов в одних и тех же ситуациях. Иными словами, имеем задачу семантической кластеризации исходного множества текстов ЕЯ.
Идея предлагаемого решения основана на зависимости лексической сочетаемости слова от его семантического класса (СК) в заданном ЕЯ. С СК отождествляется обозначаемое словом понятие (сущность, предмет, явление) реального мира. Поэтому справедливо предположение о возможности выявления СК слова посредством анализа его сочетаний с другими словами в текстах ЕЯ по тематике заданной предметной области.
Первостепенную роль для выявления СК слова из набора текстов заданной тематики играет контекст целевого слова. Наибольшую точность дают модели контекста на основе синтаксических связей в предложении [2]. В частности, формализация понятий, обозначающих участников ситуаций, требует анализа сочетаемости соответствующих существительных со словами, являющимися синтаксически главными по
отношению к ним. Причем наряду с сочетаниями «актант-предикат» необходимо учитывать произвольные сочетания существительных в тексте между собой (в том числе посредством предлогов).
Каждое выявляемое из текста понятие идентифицируется в первую очередь относительно заданного множества ситуаций. Поскольку сами ситуации обозначаются предикатными словами — глаголами (либо их производными), то наиболее приемлемым вариантом контекста для существительного, обозначающего некоторое понятие относительно анализируемой ситуации, будет последовательность соподчиненных слов
Ski = {V1 , K , V„( ki ) , mki l (1)
где v1 e V (Ti) обозначает некоторую ситуацию и является глаголом (отглагольным существительным); mki
— существительное и обозначает некоторое понятие, значимое в v1; Vvl e {v2,...,vn(ki)} — некоторое существительное. Реальные тексты ЕЯ, в частности русского, обладают тем свойством, что при наличии отношения Rq : v1Rqv2 в (1) возможно установление данного
отношения между v1 и Vvl e{v3,K,vn(ki)}, а также между v1 и mki вне зависимости от уже существующих отношений между словами этой последовательности. Данное свойство следует из соотношения смыслов соподчиненных слов. С учетом указанного свойства отношения Rq имеем расширение множеств понятий
M(T) и ситуаций V(Ti) в соответствии с представленным ниже алгоритмом.
Алгоритм 1. Формирование троек-кандидатов на включение в отношение I.
Вход: pS ={Sk,};
Выход: PiK = {pkK : pkK = {,mv): (,mv) e i};
// gi есть некоторая пометка для Tt e G
Начало
Pк : = 0 ; // Инициализация
S
Начало цикла. Пока р ^ 0 Выбрать Ski из Pf ;
PK :=0;
Начало цикла. Для l = 1,...,n(ki)
(2)
pK .=pK-{gi, m, vl)};
// Ski ={ • ,mki} в соответствии с (і)
j.=n(kij;
Начало цикла. Пока j >l
pkkK .=pkK , vj, vl)};
j .=j-і;
Конец цикла {Пока j>l };
Конец цикла {Для l = і, ... ,n(ki)};
P? :=if up£ };
if .=p,s \ {Ski};
Конец цикла {Пока P ^ 0 };
Конец {Алгоритм 1}.
При этом роль, в которой объект m є M(Тг) выступает относительно некоторой ситуации v є V(Ті), определяется типом q отношения Rq между v и словом справа от него в последовательности (і); q характеризуется падежом зависимого слова и предлогом для связи синтаксически главного и зависимого слова. По этой причине каждое v є V (Тг) на выходе алгоритма і
представлено вместе с предлогом, посредством которого оно связывается с другим словом, синтаксически зависимым по отношению к нему.
= py, если py *"\
[х, если py ="", где х — синтаксически главное слово; у — зависимое слово; py — предлог; • — операция конкатенации. Для использования в дальнейших рассуждениях введем следующие функции: prep : v ^ py, которая
ставит в соответствие каждому v є V(Ті) предлог для связи с зависимым словом; case : m ^ cy, которая ставит в соответствие каждому именному m є M(Ti) символьное обозначение его падежа cy є {"nom","gen","dat""acc""ins","loc"}. Соответствие между словом и его начальной формой зададим с помощью функции norm .
В качестве инструмента концептуальной кластеризации текстов исходного множества G задействуем методы теории анализа формальных понятий (АФП) [З]. При этом G рассматривается как множество формальных объектов, M — как множество формальных признаков, V — как множество значений формальных признаков. Отношению I с G x M x V ставится в соответствие формальный контекст K = (G, M, V, I), и строится решетка формальных понятий (ФП) ЭТ( M, V, I), а задача анализа смысловой
близости текстов сводится к исследованию качественных характеристик ЭТ . Визуализация ЭТ диаграммой линий позволяет графически отображать группировку текстов множества G по признакам вида «объект — ситуация — роль». Основные этапы построения ЭТ представлены нижеследующим алгоритмом 2. Данный
алгоритм описывает формирование множества ФП
{(А, В): А с О, В с М х V, А = В', В = А'} контекста К = (О, М, V, I), где А — объем, В — содержание для ФП (А, В), причем А = {(т, V): т е М, V е VI Уд е А: т^) = V}, В' = {д е О |У(т, V) е В: т(д) = V}. Отношение порядка <, необходимое для формирования ЭТ , устанавливается для ФП контекста К следующим образом: (А1, В1) < (А2, В2), если А1 с А2, В2 с В1. При этом ФП
(А2, В2) называется суперпонятием для ФП (А1, В1).
Алгоритм 2. Построение формального контекста для исходного множества текстов.
Вход: О.
Выход: К = (О,МV, I).
Шаг 1. Синтаксический анализ текстов из О с формированием р5 = {5к } для каждого Тг е О.
Шаг 2. Для каждого Тг е О на основе р выделить М(Т) и ^(Т)сV(Т)Ш) = {*:к,Vn(k■),тй} в соответствии с (1)};
Шаг 3. На основе выделенных {(Т-) | г = 1, п(О)}
и {^(Т )| - = 1, п(О)} найти одноименные ситуации V, принадлежащие различным Vl(Ti) и сходные по фигурирующим в них объектам т е М : М = и М (Т) в
сходных ролях.
Шаг 4. Приписать названиям выделенных на шаге 3 ситуаций одинаковые целочисленные индексы
в соответствующих V (Т) и Р5 .
Шаг 5. По аналогии с шагом 3 на основе Р^ найти разноименные ситуации V, принадлежащие различным V (Т) и сходные по фигурирующим в них объектам т е М в сходных ролях.
Шаг 6. По каждой группе синонимов
: = {^ к , vn(ki■), Щг } в соответств1и с (1)| - = 1,п(О)}:
= Буп , выявленной на шаге 5, выделить канонический представитель V с наибольшей частотой употребления и заменить все v1 е , где е 5уп , на V!.
Шаг 7. Выполнить шаги 3-6 для разноименных ситуаций, принадлежащих различным Vl(Ti) и сходных по фигурирующим в них т е М, но с меной ролей (конверсивы).
Шаг 8. Для каждого Тг е О сформировать
V(Т) = V^T)u|U(Ski \К-}\М)
и установить
отношение I в соответствии с алгоритмом 1 с учетом результатов шагов 3-7.
При формировании множеств объектов М и ситуаций V на основе синтаксического анализа исходного множества текстов О актуальна проблема наличия расщепленных значений (РЗ) в составе после-
k
довательностей (1) при возможном наличии конверси-вов для v1 в . Давая формальное определение расщепленного предикатного значения (РПЗ) в [4], мы исходим из допущения, что соответствующие замены выполнены, а для пары {Т1, Т2} с О сравниваемые множества 51 с Т1 и 52 с Т2 последовательностей
вида (1): 51 ={5П,..., 5п(51 )1}, 52 ={512,к, 5п(52 )2} , где
п(51 ) = |5^, п(52 ) = |52|, описывают одно и то же множество объектов относительно одной и той же ситуации без мены ролей. Опираясь на правила синонимических преобразований типа конверсивных замещений [5] и обобщая понятие РПЗ, определим конверсив следующим образом.
Утверждение. Пусть 51 с Тх, 52 с Т2,
51 ={511,к, 5п(51 )1}, 52 = {512,к, 5п(52 )2} , где п(51 ) = ,
п(52 ) = |52|, п(51 ) = п(52). Применительно к {51,52} имеет место конверсив, если для У 5к1 е 51 найдется 5-2 е 52, такое, что при этом могут иметь место следующие случаи взаимного соответствия 5к1 и 5-2:
1) 5к1 Л^к 2 , Vk3, . , Л^кпк , тк1}
5;2 = {^"21, {2, Vk3, . , '^к^,гк , тк11 пОГт(у11 ) = пОГт(^1 ) , погт(^к 2 ) = погт(у’к 2), причем в общем случае ргвр(у[ 1) Ф ргер(у21), а case(vk2) Ф са8в(к2 );
2) 5к1 = {^'11, ^12 , ^ 2 , Vk3, . , Л^кпк , тк1}
={ Vk2, Vk3, . , ^к , mkl}, пОГт(Ук2 ) = пОГт(у'к2 ) , са^е(^к2) Ф case(vk2) в общем случае, причем для 5-2
3 5к1 е ^ 5и Ф 5к1: {*^к1,5;-2} удовлетворяет требованию случая 1 и для 5к1 3 5’-2 е 52, 5’-2 Ф 5-2:
{к1, 2 } удовлетворяет тому же требованию.
Замечание. Положим v21 = погт(у 21) в Б-2 для
случаев 1 и 2, v11 = погт(у'11) и v12 = погт(у’12) в 5к1 для случая 2. По аналогии с РПЗ будем называть пару {п, v12} расщепленным конверсивом для v21 .
Определяемые утверждением конверсивные замены включают в себя как простые перестановки актантов исходного слова на другие места без расщепления последнего, так и замены РПЗ на их нерасще-пленные семантические эквиваленты с последующей перестановкой актантов. В частности, в качестве замен без расщепления могут быть рассмотрены синонимические замещения. Для случая 1 имеем к = - ,
ргер('1 )= ргер(4 ), а case(vk2 ) = case(v'k2 ). Актуальной здесь является автоматическая лингвистически интерпретируемая классификация выявляемых конверсивов и определение порядка их замен в анализируемых текстах.
Для установления порядка применения кон-версивных преобразований воспользуемся следующими эвристическими правилами.
Правило 1. При выборе возможного варианта конверсивной замены без расщепления предпочтение
отдается слову с минимальной многозначностью. При этом степень многозначности количественно определяется числом найденных для рассматриваемого слова предикатных лексических значений.
Правило 2. При нескольких вариантах замен на слова с одинаковым количеством возможных предикатных лексических значений предпочтение отдается слову с максимальным количеством беспредложных валентностей.
Замечание. Как отметил акад. Ю.Д.Апресян, беспредложные падежи выступают в качестве обязательных чаще, чем предложные, прямой — чаще, чем косвенные [6]. Данный факт дает основание предположить, что в конверсивном ряду более компактное описание ситуации (более четкое выражение смысла) характерно для того предикатного слова, у которого количество беспредложных валентностей максимально.
Правило 3. При наличии нескольких вариантов замены расщепленного конверсива нерасщепленным семантическим эквивалентом следует руководствоваться правилами 1 и 2 для конверсивных замен без расщепления.
Правило 4. Если для найденного по правилу 3 семантического эквивалента расщепленного конвер-сива существуют вариант замены по правилу 1 или 2, то следует производить замену расщепленного кон-версива именно на этот вариант.
Применим предложенный нами и использованный в [7] метод формирования и кластеризации понятий к множеству конверсивных замен, выявленных в соответствии с утверждением на основе правил 1-4. Пусть у21 есть вариант конверсивной замены согласно одному из правил 1-4. Предположим также,
Сопу г
что уи является либо нерасщепленным значением
уп , заменяемым по правилам 1 и 2, либо
Сот її її ( }
У11 = у12 • • • у11, при этом {уи,У12/ заменяется
согласно правилам 3 и 4. Введем в рассмотрение
л ~ ту-Сопу {^Сопу д у-Сопу ТСопу\
формальный контекст К = О , М , I ), в
ЄСопу ( /'Мі г Сопу
= Г21: у21 = ПоГШ\у2\ ), М =
= [у^Г : уц = погш(у11), у12 = погш(у12) в соответст-
Сопу Сопу Сопу
вии с утверждением. Отношение I С О X М
ставит в соответствие каждому варианту конверсив-
Сопу
ной замены у2! є О заменяемый конверсив
Сопу Сопу Сопу Сопу
уи є М . При генерации К пары ^1, уц } выбираются таким образом, чтобы V ССопп =
= (дСопу вСопу) : сСопу є л^пу^Сому мСопу ^опу) ( ^^Сопу
Сопу Сопу Сопу
— решетка ФП для К ; А с О — объем
Сопу Сопу Сопу Сопу
ФП С ; В с М — содержание ФП С ) входило в цепочку максимальной длины при
1ЛСопу\ т-ч стуСопу
А ^ тах. В этом случае Л отвечает крите-
тг Г с-ьСопу' с^Сопу
рию полезности. Каждая область Л с Л при единственности наибольшего общего подпонятия и наименьшего общего суперпонятия получает содержательную интерпретацию группы смысловых отно-
Текст на Решетка Формальных
русском Cognitive Dwarf Деревья Conv revealing P U XML making Формальный Concept Explorer
языке разбора контекст Понятий
Рис.1. Схема обмена данными между модулями программного комплекса
шений со сходным составом аргументов и сходным характером взаимных перестановок аргументов (сходным типом конверсии).
Выявление последовательностей вида (1) и ге-
Сопу
нерацию К реализуют разработанные авторами алгоритмы и программное обеспечение, упомянутые в [1] и дополненные процедурами сравнения последовательностей (1) на предмет наличия конверсивов в соответствии с утверждением и замены последних согласно правилам 1-4. Соответствующая схема представлена на рис. 1.
Синтаксический анализ текста осуществляется программой Cognitive Dwarf [8] (распространяется свободно). Для извлечения конверсивов из синтаксического дерева с формированием множества PU пар
/ Conv \
v21, v11 — кандидатов на включение в отношение
TConv
I авторами реализован специализированный мо-
дуль Conv_revealing на основе программы Dwarfprint в составе Cognitive Dwarf. Генерацию контекста
тг Conv (s-'Conv л rConv TConv \ i л, ~
K = G , M , I ) в виде xml-фаила осуще-
ствляет разработанная авторами программа
XML_making. Визуализацию решетки ЭТСот диаграммой линий выполняет ПО Concept Explorer [9], реализующее методы АФП.
В качестве экспериментального текстового материала (рис.2) были взяты варианты ответов на тестовые задания открытой формы по материалам статьи [10]. Следует отметить, что в настоящей работе, как и в [1], рассмотрение ведется относительно последовательностей (1), которые состоят из глаголов (включая
их особые формы — причастия и деепричастия) и существительных. Важнейшим направлением дальнейших исследований является включение в состав последовательностей вида (1) наречий как характеристик действий, обозначаемых глаголами, и прилагательных как дополнительных характеристик объектов множества М (Т). Это позволит учитывать расщепления с оценочными адъюнктами и расщепления на основе синтаксической деривации [11].
Работа выполнена при поддержке РФФИ (проект №06-01-00028).
1. Mikhailov D.V., Emelyanov G.M., Stepanova N.A. Forma-
tion and clustering of Russian’s nouns’s contexts within the frameworks of Splintered Values // 9th International Conference «Pattern Recognition and Image Analysis: New Information Technologies» (PRIA-9-2008): Conference Proceedings. Nizhni Novgorod, 2008. Vol.2. Р.39-42.
2. Ibid. Р.39.
3. Ibid. Р.40.
4. Ibid. Р.41.
5. Мельчук И.А. Опыт теории лингвистических моделей «Смысла Текст». Семантика, синтаксис. М.: Языки русской культуры, 1999. 345 с.
6. Апресян Ю.Д. Избр. тр. T.I. Лексическая семантика. Синонимические средства языка. М.: Языки русской культуры, 1995. С.149.
7. Mikhailov D.V., Emelyanov G.M., Stepanova N.A. Op. cit.
Р.41-42.
8. http://cs.isa.ru:10000/dwarf
9. http://conexp.sourceforge.net/
10. Воронцов К.В. // Таврический вестник информатики и математики. 2004. №1. С.5-24.
11. Мельчук И. А. Цит. соч. С. 160.
Рис.2. Пример группировки конверсивных замен