УДК 681.324
Д.В.Михайлов, Г.М.Емельянов
ПОСТРОЕНИЕ МОДЕЛИ ОБЪЕКТА ИНФОРМАЦИОННОГО ПРОСТРАНСТВА ПРИМЕНИТЕЛЬНО К ИССЛЕДОВАНИЮ ДИНАМИКИ ФУНКЦИОНИРОВАНИЯ
Д-ГРАММАТИК
The paper deals with the functional and logic structure of information filling in problem of modelling the rule input/output as the tree grammar information space's object.
Как известно, традиционные подходы к формализации преобразований синтаксических структур естественных языков (ЕЯ) в той или иной мере основаны на Д-грамматиках [1] как формальном аппарате для работы с помеченными деревьями. Тем не менее, ряд задач анализа текстов на ЕЯ наряду с описанием допустимых преобразований деревьев зависимостей требует привлечения знаний о возможных последовательностях таких преобразований с качественным анализом каждой из них. К числу таких задач относятся, в частности, задачи установления смысловой (семантической) эквивалентности ЕЯ-текстов [2], а также решаемая авторами настоящей статьи задача распознавания семантических повторов в сравниваемых по смыслу высказываниях [3]. Решение указанных задач особенно актуально при построении интерпретаторов тестовых заданий открытой формы для систем компьютерного дистанционного обучения.
Для исследования динамики функционирования совокупности правил синонимических преобразований деревьев глубинного синтаксиса [4] при использовании заменяемого лексическим правилом поддерева лексической синонимической конструкции (ЛСК) [3] в качестве элемента повтора в указанной задаче авторами предложена описанная в [5] информационно-логическая модель системы правил расширенной лексико-синтаксической Д-грамматики. Предложенная модель учитывает недетерминированный характер порождения Д-грамматикой множества помеченных деревьев, построение целевого вывода сводится к классическим задачам теории сетей Петри.
Однако рассмотрение входа/выхода правила в качестве объекта информационного пространства требует формального описания его активизации как информационного элемента в зависимости от ситуации использования и с учетом его внутренней структуры, для чего необходимо решение двух основных задач:
построение модели входа/выхода правила как объекта информационного пространства;
разработка структуры информационного наполнения анализируемого дерева.
При этом основным требованием к модели входа/выхода правила является отображение различных способов его использования при единообразии функционального описания. Анализ вызывающих активизацию входа/выхода правила событий позволяет выделить следующие способы его использования как информационного элемента:
— анализ применимости правила к помеченному дереву с выдачей FALSE/TRUE в качестве результата;
— синтез дерева по задаваемому выходным деревом шаблону;
— распознавание ключевого слова заменяемого лексическим правилом поддерева;
— расстановка композиционных меток [1] в анализируемом дереве.
Во всех четырех показанных ситуациях элементы информационного пространства активизируются по-разному ввиду неоднородности вызывающих их активизацию событий при идентичности функциональной структуры процессов активизации. Поскольку задача применения правила п к некоторому заданному дереву Т^есть частный случай задачи
«Изоморфизм подграфу», логико-функциональная структура информационного наполнения
входного/выходного дерева Тп правила п должна быть идентична логико-функциональной структуре информационного наполнения анализируемых деревьев.
Действительно, если дерево глубинного синтаксиса фразы % представить как
t = W v \
х X х’ гг
где W% — множество узлов, Vx — множество ветвей дерева Тх, то аналогичным деревом представляется вход/выход Тп правила п:
Тп = W V>,
где элементы множеств Wn и Уп содержат функциональные требования к содержимому
узлов и ветвей заменяемого/заменяющего дерева.
С учетом указанных требований авторами предложена структура информационного наполнения узла входного/выходного дерева, унифицируемая со структурой соответствующего описания преобразуемых правилами деревьев и ориентированная на представление динамических структур данных в нотации функционального языка Microsoft muLISP.
В соответствии с приведенным в работах И.А.Мельчука описанием уровня глубинного синтаксиса в информационном наполнении узла глубинной синтаксической структуры следует выделить лексическую часть, соответствующую представленному в узле элементу глубинной лексики, и грамматическую часть, содержащую семантические словоизменительные характеристики. Кроме того, в описание узла должны быть введены особые элементы, соответствующие пометке входящей в узел ветви и композиционной метке. Исходя из этого, информационное наполнение узла w% е Wx может быть представлено списком из
четырех элементов (аналогичным списком представляется информационное наполнение
wn е Wn ):
w% = (lex _ in%, gram _ in%, arrow _ label%, composition _ label% ), (1)
в котором элемент lex _ inx соответствует лексической части узла, gram _ in% — грамматической его части, arrow _ label — пометке входящей ветви, а composition _ label — композиционной метке узла.
Лексическая часть lex _ in% узла представляется списочной структурой, первый элемент С0 которой соответствует самостоятельной лексеме, лексической производной от которой (в виде последовательно взятых значений лексических функций из списка funn,...,fun1) является соответствующая содержимому узла лексема (на поверхностносинтаксическом уровне):
lex _ inx = (C0, funn,..., funx), причем список funn,...,fun1 может быть пустым в случае отображения в узле фиктивной
лексемы, идиомы, либо самостоятельной лексемы, не являющейся лексическим коррелятом [4] в виде значений лексических функций, присутствующих в той же глубинной синтаксической структуре других лексем.
Грамматическая часть узла представляется упорядоченной двойкой:
gram _ inx = (part _ of _ speech, list _ semant _ categ),
где part _ of _ speech — символьный атом, обозначающий часть речи,
list _ semant _ categ — список семантически обусловленных [4] словоизменительных категорий (у существительных — число, у глаголов — вид, время, наклонение).
Элемент arrow _ label списочного описания (1) принимает целочисленные значения
одного из шести описанных в [1,4] типов связей между родительским и дочерним узлом в
глубинной синтаксической структуре, а для вершины дерева arrow _ label = 0 (входящая
ветвь отсутствует).
Описание информации узла в виде списка (1) позволяет:
а) формально определить функциональные требования к узлу глубинной синтаксической структуры при описании компонент заменяемого некоторым лексическим правилом дерева; при этом символ С0 выступает в качестве служебного — им задается местонахождение ключевого слова ЛСК;
б) вычислять значение суперпозиции лексических функций из списка funn,...,fun1 с использованием их имен в качестве функциональных аргументов.
Само дерево представляется составной структурой, первым объектом которой является описание вершины в виде (1), вторым — список дочерних поддеревьев. В нотации Microsoft muLISP такой структуре будет соответствовать список с отсутствием ограничений на число хвостов. Пример подобного описания для входа лексического правила №17 с обслуживающим его синтаксическим правилом №6 при применении в обратном направлении [6] приведен на рис.1. Аналогичный пример приведен на рис.2 для глубинной синтаксической структуры простого распространенного предложения русского языка «Лаборатория провела эксперименты по изучению условных рефлексов».
(((СО 30 Opal ) nil 0 0)
((nil nil 1 1 ))
(((СО 30) nil 2 2)
(( nil nil 2 2 ))
)
)
a) 6)
Рис.1. Входное дерево правила (а) и его списочное описание в нотации Microsoft muLISP (б): A, B — произвольные слова, в процессе перифразирования остаются без изменений
Operj (30 Экспериментировать )) \
((( Экспериментировать ( SO Oper1 ))
(V (сов_вид прош_вр изъявит_накл )) 0 nil ) ((( Лаборатория nil )( S (ед_ч)) 1 nil ))
(( Экспериментировать ( SO ))( S (мн_ч)) 2 nil )
Лаборатория Я, (ркспериментировать) ((( q nil)( S nil ) 1 nil ))
1^-^ т2 ((( Q nil )( S (на)) 2 nil ))
Q Q Изучение ((( Изучение nil )( S (по ед_ч)) 3 nil)
Шунен i * *
2 (((Q nil) nil 1 nil))
Рефлекс mo:
((( Рефлекс nil)( S (мн_ч)) 2 nil)
- (( Условный nil )(A (мн_ч)) 5 nil)
)
У СЛОЕНЫЙ
)
)
)
а) б)
Рис. 2. Дерево глубинного синтаксиса для простого распространенного предложения русского языка (а) и соответствующее ему списочное описание (б)
Поскольку каждое лексическое синонимическое преобразование в общем случае обслуживается одним или несколькими синтаксическими, входное дерево лексического преобразования следует рассматривать как поддерево входного дерева первого из обслуживающих данную лексическую замену синтаксических преобразований. Причем для синтаксических преобразований значимой является только разметка ветвей. Поэтому не относящиеся к описанию ЛСК узлы дерева Тп представляются пустым или неопределенным (nil) значением элементов lex _ inп и gram _inn списочного описания (1).
При наличии описания Тп и Т% в виде представленных на рис.1б и рис.2б списочных
структур Тп может рассматриваться как система, порождающая отличные друг от друга процессы с идентичной функциональной структурой. Прохождение очередного узла wn e Wn при рекурсивной обработке может быть рассмотрено как абстрактное событие, а установление функционального соответствия некоторого wyj- e W% заданному wni, размещение в wyj- e W% композиционной метки узла wni, синтез w k по представленному в wn
шаблону — как разные варианты реализации этого события (конкретные действия в процессах анализа применимости правила к помеченному дереву, расстановки композиционных меток в анализируемом дереве и синтеза дерева по заданному выходным деревом правила шаблону). Показанное свойство предложенной модели входа/выхода правила п позволяет оценить ее адекватность с применением методов сетевого моделирования указанных процессов.
Действительно, если прохождению каждого из узлов wn e Wn сопоставить переход e Т, а с каждым прохождением узла как разовой реализацией факта изменения некоторого условия связать позицию p j e P, то работа входа/выхода правила Д-грамматики моделируется сетью Петри
N = {P, Т, F, H, C, M 0 },
где P — множество позиций; Т — множество переходов; F и H — матрицы инцидентности, F : P х Т ^ {0,1} и H : Т х P ^ {0,1}; C = {color1, color 2, color3, color 4, color5} — множество
цветов маркера; M0 : P ^ {0,1} — начальная маркировка или разметка.
5
Каждому из color i e C соответствует определенный способ использования инфор-
i=1
мационного элемента как вариант разовых реализаций событий прохождения узлов wnj e Wn при обходе Тп : color1 — анализ применимости правила, color 2 — синтез дерева
на выходе правила, color3 — определение ключевого слова ЛСК, color 4 — расстановка композиционных меток в Ту.
Следует отметить важные особенности сети N, актуальные для моделирования активизации Тп как объекта информационного пространства с учетом последовательности действий в порождаемых входом/выходом правила п процессах. С целью формального представления окончания обхода дерева Тп как системного события множество переходов Т
\т\
содержит особый переход tout » ^Т| , инцидентный всем pt e P, для которых Z Fij =0
j=1
Для обозначения изменения условия, соответствующего завершению процесса обхода дерева Тп , множество позиций содержит позицию pout » p|P, инцидентную единственному
переходу tout. Поскольку в случае успешного завершения анализа применимости правила п к помеченному дереву Тх последующая перестройка исходного дерева требует идентификации ключевого слова заменяемой ЛСК и расстановки композиционных меток в анализируемом дереве, для задания последовательности указанных процессов в структуру сети N введена дополнительная дуга, соединяющая переход tout с позицией pj, соответствующей началу процесса обхода дерева Тп . С целью формализации условия окончания анализа/синтеза во избежание развертывания бесконечных процессов в сети N в множество C введен нейтральный маркер color5, запрещающий срабатывание перехода, а для перехода
t out задается индивидуальная таблица условий срабатывания.
Условия срабатывания перехода tout сети N
Pi є P : F[i, T|] = і, i = і,...,^ pout Рі
colon coloгЗ coloгЗ
coloгЗ color 4 color 4
color4 color5 color5
color2 color5 color5
Для разрешения конфликтных ситуаций при сетевом моделировании рекурсивной обработки леса дочерних поддеревьев узла wn e Wn в множество переходов Т введены без-
PI
условные переходы tk : Z Hkj > 1, а прохождение каждого узла представлено двумя пози-
j=1
циями сети: до и после прохождения. Пример сетевой модели для представленного на рис.1а входа правила приведен на рис.3.
Сеть N обладает рядом свойств, позволяющих оценить адекватность порождаемых ею процессов моделируемым процессам, порождаемым Тп как системой при анализе применимости
правила п к дереву Т% либо синтезом результирующего дерева по задаваемому Тп шаблону.
Теорема 1. Все порождаемые сетью N процессы конечны.
Доказательство следует из конечности (по определению) множеств позиций P и переходов Т, а также ограничений, наложенных таблицей на срабатывание перехода tout .
Теорема 2. Сеть N является ограниченной. Доказательство. Сеть N будет ограниченной, если любое ее место ограничено. Как следует из теоремы 1, Уp j e P может содержать мак-
5
симум по одному маркеру цвета color i e C,
i =1
максимальное количество маркеров в позиции равно трем (для pout ), что и служит доказательством ограниченности N.
Таким образом, сетью N порождаются конечные параллельные процессы без альтернатив и конкуренции. Одновременное появление в позиции pout маркеров цветов color3, color 4 и color5 (при анализе применимости правила п) либо маркеров цветов color2 и color5 (при синтезе дерева по задаваемому деревом Тп шаблону) соответствует завершению указанных процессов. Активизация Тп как объекта информационного пространства может быть формально определена как достижение тупиковой разметки в N при успешном завершении процесса анали-
Рис.3. Сетевая модель входа/выхода правила: переход ґ1 соответствует прохождению
вершины, /3 — узла А, — узла с содер-
жимым 50 (С0) , ґ5 — узла В
за/синтеза.
Задание системы правил Д-грамматики массивами ссылок на описание входов/выходов правил и условий их применимости в виде представленных на рис.1б составных структур позволяет программно реализовывать алгоритмы поиска последовательностей преобразований помеченных деревьев на основе предложенной в [5] информационнологической модели с применением современных средств логического и функционального программирования..
Работа выполнена в рамках проекта РФФИ №03-01-00055 при поддержке гранта №ТОО-3.3-408 Минобразования РФ, в рамках работ по контракту № И 0675 ФЦП «Интеграция».
1. Гладкий А.В., Мельчук И.А. // Информационные вопросы семиотики, лингвистики и автоматического перевода. Вып.1. М., 1971. С.16-41.
2. Emelyanov G.M., Krechetova T.V., Kurashova E.P. // Pattern Recognition and Image Analysis. 2000. Vol. 10. № 4. P.520-526.
3. Emelyanov G.M., Mikhailov D.V. and Zaitseva E.I. // Pattern Recognition and Image Analysis. 2003. Vol. 13. № 3. P.447-451.
4. Мельчук И.А. Опыт теории лингвистических моделей «Смысл^Текст»: Семантика, синтаксис. М.: Школа «Языки русской культуры», 1999. 345 с.
5. Михайлов Д.В., Емельянов Г.М. // Изв. СПбГЭТУ «ЛЭТИ». Сер.: Информатика, управление и компьютерные технологии. Вып. 3. СПб., 2003. С.96-102.
6. Мельчук И. А. Указ. соч. С. 154.