Научная статья на тему 'Семантическая кластеризация текстов предметных языков (морфология и синтаксис)'

Семантическая кластеризация текстов предметных языков (морфология и синтаксис) Текст научной статьи по специальности «Математика»

CC BY
300
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
Ключевые слова
ПОНИМАНИЕ ТЕКСТОВ / ЕСТЕСТВЕННЫЙ ЯЗЫК / ПРЕДМЕТНАЯ ОБЛАСТЬ / СЕМАНТИЧЕСКАЯ ЭКВИВАЛЕНТНОСТЬ / КЛАСТЕРИЗАЦИЯ ЗНАНИЙ / ТЕОРИЯ РЕШЕТОК

Аннотация научной статьи по математике, автор научной работы — Михайлов Дмитрий Владимирович, Емельянов Геннадий Мартинович

Рассматривается задача семантической кластеризации текстов предметного Естественного Языка. Предложен подход к выработке критериев качества синтаксического анализа как инструментального средства выделения объектов и признаков. Особое внимание уделяется Расщепленным Значениям и конверсивам в составе синтаксических контекстов существительных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Михайлов Дмитрий Владимирович, Емельянов Геннадий Мартинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Семантическая кластеризация текстов предметных языков (морфология и синтаксис)»

СЕМАНТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ТЕКСТОВ ПРЕДМЕТНЫХ ЯЗЫКОВ (МОРФОЛОГИЯ И СИНТАКСИС)

Дмитрий Владимирович Михайлов1 (доцент, e-mail: Dmitry.Mikhaylov@novsu. ru ),

Геннадий Мартинович Емельянов1 (профессор, e-mail: Gennady.Emelyanov@novsu. ru )

1 Государственное образовательное учреждение высшего профессионального образования «Новгородский государственный университет имени Ярослава Мудрого»

Аннотация

Рассматривается задача семантической кластеризации текстов предметного Естественного Языка. Предложен подход к выработке критериев качества синтаксического анализа как инструментального средства выделения объектов и признаков. Особое внимание уделяется Расщепленным Значениям и конверсивам в составе синтаксических контекстов существительных.

Ключевые слова: понимание текстов, естественный язык, предметная область, семантическая эквивалентность, кластеризация знаний, теория решеток.

Введение

Одним из наиболее перспективных путей повышения качества распознавания текстов Естественного Языка (ЕЯ) является привлечение семантической информации. Знания о семантике ЕЯ, ее связи с синтаксисом и морфологией в наибольшей степени востребованы при установлении эквивалентности смысла распознаваемого текста заданному смысловому эталону для случая, когда указанный эталон описывается конечным пользователем на некотором предметно-ориентированном подмножестве ЕЯ.

Следует отметить, что в общих чертах установить факт Семантической Эквивалентности (СЭ) означает доказать идентичность ролей сходных понятий относительно сходных ситуаций, описываемых сравниваемыми текстами.

Наиболее близка данной идее обработка текстов на основе коммуникативной грамматики. Хорошим примером является поисковая система Exactus [1].

Тем не менее, существуют задачи сравнения смысла, отличные от традиционного для поисковых систем взаимодействия "запрос-ответ". Примером является интерпретация текста ответа на тестовое задание открытой формы в системе автоматизированного контроля знаний [2]. Необходимо не столько отобразить ответ на предметную область, сколько оценить его близость ответу, "правильному" с точки зрения преподавателя, конструировавшего тест. Анализ близости высказываний здесь требует учета лексико-функциональной синонимии, в частности -расщепленных значений и конверсивов [3]. В более общем случае многих обучаемых мы имеем задачу текстовой кластеризации [4].

По оценке Г. С. Осипова [5], требуется более детальное исследование свойств семантических связей и в самой коммуникативной грамматике.

Как было показано нами ранее [4], формализация понятий Предметной Области, представляющих участников тех или иных ситуаций, предполагает исследование сочетаемости соответствующих существительных со словами, синтаксически главными по отношению к ним. Актуальным здесь является задействование методов машинного обучения как в

процессе формирования указанных связей, так и в целом для изучения взаимодействия семантики, синтаксиса и морфологии при установлении СЭ.

Основной причиной ограниченности использования методов распознавания и обучения в лингвистических процессорах является сложность моделирования неограниченного усложнения предложения естественного языка. Вместе с тем, разумные ограничения на предметную область ЕЯ-высказываний в совокупности с ограничениями ситуационного плана позволяют эффективно исследовать законы изменения буквенного состава слов анализом близости символьных последовательностей. Тем более, что одним из показателей морфологической зависимости в языках с развитой морфологией является флексия - изменяющаяся при склонении или спряжении часть слова, находящаяся в конце словоформы. Так, в русском языке из флексий вычисляется большая часть грамматических категорий, а сами флексии приписываются грамматическим значениям. Это позволяет в ряде случаев обнаруживать зависимость между словоформами, отсутствующими в словаре. Взаимовлияние морфологического и синтаксического анализа состоит в том, что грамматическое значение как основа поиска морфологической зависимости может быть однозначно проинтерпретировано только вследствие фиксации того синтаксического отношения, которое служит средством выражения этой зависимости [6].

Разработка математической модели процесса выделения и обобщения синтаксического отношения в языке с развитой морфологией является целью настоящей работы.

Грамматика русской морфологии и флективные классы

Предлагаемое решение проблемы основано на закономерностях выражения смысла в ЕЯ его носителем.

Как уже обсуждалось нами ранее [7], языковой опыт человека можно разделить в соответствии с разделением концептуальной картины мира. При этом основополагающим является понятие ситуации употребления ЕЯ как основы его генезиса.

Под ситуацией употребления ЕЯ понимают описание нового социального опыта (содержания совместных действий) средствами этого ЕЯ. Формально фиксируемый ситуацией £ языковой контекст представляется тройкой:

£ = (0,Я,Т), (1)

где О есть множество объектов-участников £ , Я -множество отношений между о е О , Т - множество форм языкового описания £ .

Предположим, что в качестве Т выступает множество синонимичных (с точки зрения носителя ЕЯ) фраз, причем каждая из них описывает одну ситуацию действительности (относительно языкового контекста £). Положим выбор Т е Т для описания ситуации £ равновероятным.

При использовании последовательности соподчиненных слов

(2)

в качестве основы выделения о е О в множество Я войдут синтаксические отношения Яа:

і = і,..., л.

(3)

для всех £и,

Здесь:

-у - предикатное слово (глагол, либо отглагольное существительное), которое обозначает ситуацию;

- тк, - существительное и обозначает некоторое понятие, значимое в у.

1 ’

’у, е{у2,..., уп^к,.) | - существительное;

- к - порядковый номер последовательности среди выявленных из Т ;

- п (к, I) - количество соподчиненных существительных последовательности;

- q - тип отношения Яд, он характеризуется падежом зависимого слова и предлогом для связи главного и зависимого слова. При этом q соответствует имени синтагмы, которая определяет бинарное отношение вида (3).

Поскольку £ есть (по определению) полное и независимое описание контекста, то имеем задачу: Задача 1. На основе ЕЯ-фраз из Т найти Я , рассматривая отношения между о е О в качестве признаков последних относительно (1).

Рассмотрим Т е Т с точки зрения символов, которые его составляют. Для "Т, е Т справедливо:

Т. = ТС и ТЕ,

где Тс - общая неизменная часть для всех Т1 е Т, Т ^ - флективная часть.

На множестве Т^ выражаются синтагматические зависимости, которые задаются с помощью Я . Если Т = II Щ, то, соответственно,

щ=щс ищ;. (4)

Здесь Щ - буквенный состав слова, щс е ТС -неизменная, щ; е Т ^ - флективная часть.

Таким образом, попарным сравнением Щ различных Т требуется найти:

1). Щ; и щ; каждого Щ; при |щс| ® тах ;

2). Отношение Я,, определяющее допустимость сочетания (щ;,щ£), кф;.

Введем в рассмотрение индексное множество 3 для неизменных частей всех слов, употребленных во всех фразах из Т .

Определение 1. Моделью Ь линейной структуры предложения Т е Т будем называть упорядоченную совокупность индексов ; е 3 неизменных частей слов, присутствующих в Т .

При этом порядок индексов в Ь идентичен порядку следования соответствующих слов в Т . Поэтому Ь (Т.) позволяет однозначно восстановить ЕЯ-фразу Т на множестве всех слов для всех фраз из Т . И наоборот, для "Т. е Т на индексном множестве 3 можно однозначно построить Ь (Т.).

Для построения множества Я в (1) необходимо найти совокупность указанных моделей, удовлетворяющих требованиям проективности. С учетом линейной природы синтагм дополним ограничения на проективность [8], используемые в системах анализа текстов, следующим образом.

Пусть к (;, Ь (Т.)) - позиция индекса ; в модели

Ь (Т ) . Тогда множество связей относительно Ь (Т )

Б : Т, ®{( к (;, Ь (Т,)), к (к, Ь (Т))) :; Ф к }.

Определение 2. Связь

а, = ( к(;,ь (Т,)), к (к,ь (Т,)))

является допустимой для модели Ь (Т ) , если

з{Т,,Тт}ет , I Фт , причем и Ь (Т,), и Ь (Тт) содержат в качестве подпоследовательности либо { ;, к} , либо {к, ;} . При этом пара индексов ( ;, к) соответствует одной синтагме, а индекс , - типу синтаксического отношения, которое ей соответствует.

Положим, что для "Т е Т , 1 = 1,.,|т|, все

е Б (Т) удовлетворяют Определению 2.

Определение 3. Будем считать, что модель Ь (Т) проективна относительно Я в (1), если

Б(т)|

Е К -\Ь (Т )1, где

#=;

Ь# = | к (;, Ь (т,))-к (к, ь (т,))|.

На основе | Б (Т) формируется граф синтагм (V3,13). Элементами множества вершин У3 этого

графа являются множества пар (;, к), {;, к} е 3 , сгруппированных по некоторому общему для них индексу к. Множества Е; и Е2, входящие в У3, будут соединены ребром из 13 , если 3{;, к, т} е 3 : (;,к) е Е1, (к,т)е Е2 и ; Ф т .

Анализом (V3,13) строится дерево-прецедент (V/, /;3) для | Т , , = 1,.,Т . Формально

V;3 = 3, 7,3 ={(;, к) :3 Е еУ3, (;, к )е Е} . (5)

При этом индекс к е У;3 соответствует корню дерева (у;3,/;3), если 3Е; е V3, в котором пары индексов сгруппированы по к, |Е;| > 1, а к не содержится ни в одной паре индексов для " Е2 е V3 :

Е; Ф Е2.

Содержательно корень соответствует предикатному слову в (1), которое (по определению) обозначает ситуацию. Поскольку исследуемая проблема точности синтаксического анализа, в частности, при использовании технологии прикладного морфологического анализа без словаря [6], характерна для ситуаций (1) с двумя и более участниками, то число дочерних узлов у корня полагается больше одного.

Будем использовать маршруты в дереве (5) для выделения классов отношений из Я в (1) согласно сформулированной нами Задаче 1. Данная задача наиболее естественно решается методами Анализа Формальных Понятий (АФП, [9]).

Рассмотрим множество флексий как множество формальных объектов:

gF ={fj : fj =•(WF)},

где i = 1,...,|г|, а • есть операция конкатенации, которая последовательно выполняется над символами из WF в (4).

Введем в рассмотрение формальный контекст:

KF =(Gf , MF, IF), (6)

в котором MF = Gf , а IF с GF xMF. При этом:

iF ={(fj,fk) :s(j,k) =true,{j\k}<= J}.

Отношение s определяется рекурсивно на основе (VJ,IJ):

1). s (j1, j1 ) = true;

2). s (j j2) = true в одном из следующих двух случаев:

- $ E1 е VJ : (j1, j2 )е E , причем $ j3 е J , для которого s (j2, j3) = true;

- $(E1,E2) е IJ : $ j3 е J , при этом

(j j3)e E1, (j3, j2)e E2, а s (j3, j2) =true.

Модель (6) выделяет классы в R по характеру изменения флективной части зависимого слова в V Rq е R с учетом бинарности Rq.

Рассмотрим задачу поиска флексий для слов в составе расщепленных значений и конверсивов.

Введем следующие функции: prep : w ® py,

которая ставит в соответствие каждому wj = •( W ) предлог py для связи с зависимым словом; case : w j ® cy, которая ставит в соответствие каждому именному w j обозначение его падежа cy е {"nom","gen","dat","acc","ins","loc"}. Соот-

ветствие между словом и его начальной формой зададим функцией norm .

Опираясь на описанные в [3] правила конверсив-ных замещений и обобщая введенное нами в [4] понятие Расщепленного Предикатного Значения (РПЗ), сформулируем определение конверсива следующим образом.

Определение 4. Пусть S1 и S2 - пара множеств последовательностей вида (2). Применительно к { S1, S2} имеет место конверсив, если для V Sk1 е S1 найдется Sj 2 е S2 такая, что возможны следующие случаи взаимного соответствия Sk1 и Sj2 .

Случай 1.

Sk! ={ VU , ^k 2 , Vk3, - , Vkn(k ,І), mk1|

Sj2 ={ V2! , Vk2 , Vk3, - , Vkn(k,І), mkl| .

При этом norm (v11 ) Ф norm (v21 ),

norm (vk2) = norm (vk2 ), причем в общем случае prep (v11 ) Ф prep (v21 ), а case (vk2) Ф case (vk2 ) .

Случай 2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Sk! ={ VU , V12 , Vk2 , Vk3, - , Vkn(k,І), mк11 :

Sj2 ={ V2! , Vk2 , Vk3, - , Vkn(k,І), mk1

I.

Здесь norm(vk2) = norm(vk2 ),

case(vk2) * case(vk2 ) (в общем случае), но при этом

для Sj 2 $ S« е S1, S„' * V такая, что { Ski, Sj 2 }

/

соответствует Случаю 1, а для Sk1 $ Sj2 е S2,

Sj2 * Sj2: { Sk1, Sj2 } также соответствует Случаю 1

взаимного соответствия последовательностей вида (2).

Замечание 1. Положим v21 = norm (v21 ) в Sj2 для Случая 1 и Случая 2, v11 = norm (v11 ) и

v12 = norm (v12 ) в Sk1 для Случая 2, соответственно.

По аналогии с РПЗ будем называть { v11, v12} Расщепленным Конверсивом для v21.

Замечание 2. Рассматриваемые конверсивные замены включают в себя как простые перестановки актантов исходного слова на другие места без расщепления последнего, так и замены РПЗ на их не-расщепленные семантические эквиваленты с последующей перестановкой актантов. В качестве замен без расщепления могут быть рассмотрены и синонимические замещения, описываемые Лексической Функцией Syn [3]. Здесь для Случая 1 мы имеем:

k = j , prep (V11 ) = prep (V21 ) , а

case (vk2) = case (vk2 ).

Как следует из Определения 4, для слов в составе РПЗ и конверсивов не может быть найдено представление (4) попарным сравнением буквенного состава слов во всех Tt е T .

Рассмотрим

T- ={Wj : Wj =•(Wj)} .

Положим также, что $ Tf с T , определяющее последовательность:

= {u, :u, = •(»'/),Uk«'k' = Tr},

где Wk е T - последовательность символов слова, для которого не найдено представления (4).

Лемма 1. Последовательность PCnc содержит предикатное слово, если ${j,0,k} с L (T):

{ wj,ul,.,up,wik}с TiCnc, где { ul,.,up} = pCnc,

p = \P?”c\.

Доказательство следует из определения корня дерева (V|J, IJ) и сделанного допущения о числе

участников ситуации (1) с учетом проективности

Ь (Т).

Пусть для последовательности РСпс выполняется условие Леммы 1.

Лемма 2. Слово ик е рСпс принадлежит РПЗ, если 3Т; е Т : Ь {Tj) Ф Ь (Т), а ик е РСпс, где РСпс также отвечает условию Леммы 1. При этом —I 3Тк е Т : РСпс е рСпс, а Ь (Т )Ф Ь (Т) и Ь (Тк )Ф Ь (Т).

Доказательство следует из доказанной Леммы 1 и определения множества ребер в графе (У3,13).

Замечание 3. При выполнении условия Леммы 2 ик может быть в том числе и зависимым словом в составе РПЗ.

Пусть РСпс - последовательность слов, удовлетворяющих условию Леммы 2.

Теорема 1. Для формирования контекста (6) при наличии РПЗ либо конверсива необходимо и достаточно найти множество Т е Т :

T' = { T, : |FC“'| ® maxI.

(7)

Доказательство теоремы следует из доказанной

Леммы 2.

Помимо выполнения условия Теоремы 1, ключевым требованием при отборе Т е Т является минимум слов, не представляемых соотношением (4). Для "ик е | РС”С , Т е Т' представление (4) формируется сравнением буквенного состава со всеми и; е | РС"С : Т1 е(Т \ Т'). При этом необходимо,

чтобы 2|ЩкС\>|щ/| + |Щ/|, где ЩкР = ЩкС иЩ/, а и Щ/.

FCnc' n FCnc Ф 0 .

то

имеющего максимальную

Cnc

Замечание 4. Если , ,

"ит е ( РСпС \ РСпС ) есть предлог и представляется вместе со словом, стоящим слева от него в РСпС .

С учетом РСпС дерево (5) преобразуется следующим образом:

1) Корень изменяется с к = 0 на значение к

для ик е РСпС

встречаемость в различных Т

2) Левое поддерево остается без изменений.

3) Правое поддерево перевешивается на узел ;

для и; е РСпс наименьшей встречаемости.

4) В паре { и,, ит }е РСпс дочерним будет узел

для слова с меньшей встречаемостью.

В итоге основу формирования контекста (6) составляют те Т , которые наиболее полно описывают ситуацию (1).

Рассмотрим свойства контекста КЕ , актуальные для выделения морфологических классов слов из Т .

Пусть Ь - базис импликаций [9] , а ^ - решетка Формальных Понятий (ФП) для контекста К . Утверждение 1. ФП

(Л¥, Бе ): Л¥ с Ое , Бе с Ме соответствует у; е £и

в (2), если 3(Рг ® Сз) е Ь : |Рг| = 1 и РгиС _ Бр . При этом наличие импликации

(Рг; ® С^;) е Ь : Рг е С^; допускается только тогда,

когда Рг; и СЗ; = Бр .

Утверждение 2. Применительно к тк, е £к, в (2) ФП (ЛЕ, Бе ) соответствует прилагательному, если

7"»^

Б есть множество признаков некоторого элемента множества Ое и —3(Рг ® С) е Ь : РгиС _ Б¥ .

В противном случае ФП (ЛЕ, Б¥) соответствует

существительному из { у2, ., тк,} е £к,.

Синтаксические отношения выделяются анализом наименьшей верхней грани каждой пары ФП в ^ и образуют классы по сходству характера флексии зависимого слова. Отдельному классу соответствует область в решетке, а Наименьшее Общее Суперпонятие [9] этой области - прецеденту класса.

Оценка выделенных классов отношений дается в сопоставлении с контекстом вида (6) по результатам работы программы синтаксического анализа. Актуальной здесь является автоматическая лингвистически интерпретируемая классификация выявляемых конверсивов и РПЗ.

Введем в рассмотрение формальный контекст:

К^Сопу (^Сопу ]М^СопУ 1Сопу ) (8)

в котором согласно Определению 4

GConv = {у

{у2і : у2l = norm (^І )I ,

Здесь:

'К)

- операция конкатенации имеет место для Случая

2 из рассматриваемых Определением 4;

- Отношение 1Сопу с 0Сопу хМСопу ставит в соот-

ветствие каждому варианту конверсивной замены у2; е оСот’ заменяемый конверсив

уСопу е МСопу.

Пусть ^Сопу есть решетка ФП для контекста (8). Введем индексы: 1 - для контекстов, формируемых с применением предложенной нами модели, 2 - для контекстов, формируемых с применением програм-

мы синтаксического анализа. Положим, что ^2"опу и ^2 формируются на основе неструктурированного текста заданной тематики, включающего подмножество Т относительно языкового контекста ситуации

(1). Мощность этого подмножества зависит от репрезентативности текста [4].

Под показателем репрезентативности здесь следует понимать количество форм языкового описания заданной ситуации, использованных при формировании ^ и ^С°пу, которые присутствуют в анализируемом тексте.

Каждая область решетки ‘$Согп’ (вне зависимости от исходных данных для построения) при единственности Наибольшего Общего Подпонятия и Наименьшего Общего Суперпонятия получает содержательную интерпретацию группы смысловых отношений со сходным составом аргументов и сходным характером перестановок аргументов (типом конверсии).

Введем в рассмотрение базисы импликаций:

Ljonv - базис импликаций для K1 onv, L1om’ - для

Z^Conv K2 .

Утверждение 3. Будем считать классификацию отношений из R в (1) на основе контекста (6) допустимой применительно к случаю наличия в T фраз, отвечающих Определению 4, если ^ с ^ и

$(prc°nv ® Cs<Conv) е LConv: $(Pr2Conv ® Cs<Conv) е LC2onv,

где PrjConv n Pr2Conv *0 и CsConv n Cs^ *0 .

При этом случай ^ ^ не обязательно соот-

ветствует тексту с максимальной репрезентативностью по сформулированному нами критерию. Встречаемость тех или иных сочетаний флексий находится в зависимости и от количества описываемых текстом ситуаций. В частности, текстом может описываться несколько ситуаций, близких рассматриваемой по составу участников и их ролевой ориентации. Анализ взаимной близости самих ситуаций в этом случае - тема отдельного обсуждения.

Экспериментальная апробация

Исходными данными для формирования контекстов K1F и K1Con’ были правильные ответы на тестовое задание открытой формы.

Вопрос теста: «Каковы негативные последствия переобучения при скользящем контроле?»

В итоге было получено двадцать семь вариантов правильного ответа на данный вопрос (рис. 1).

На рис.2 представлена решетка для T' (табл.1). Формирование контекстов Kf и KC°ny также производилось по вариантам правильных ответов на тесты открытой формы, но более широкой тематики проблем качества обучения алгоритмов. Морфологический и синтаксический анализ текста осуществляется программой Cognitive Dwarf [10].

у

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11

^M'Cony J yCwy : yCwy

У

У

ІІ

їй Синонимичные перифразы

27:2 Insert Indent Modified

["Нежелательное переобучение приводит к заниженности эмпирического риска.",

"Нежелательное переобучение, следствием которого является заниженность эмпирического риска.",

"Заниженность эмпирического риска является следствием нежелательного переобучения.",

"Заниженностьэмпирического риска, являющаяся следствием нежелательного переобучения.",

"Эмпирический риск, заниженность которого является следствием нежелательного переобучения.",

"Эмпирический риск, заниженный вследствие нежелательного переобучения.",

"Эмпирический риск, к заниженности которого ведет нежелательное переобучение.",

"Риск, заниженный как следствие переобучения.",

"Эмпирический риск по причине, обусловленной нежелательным переобучением, может оказаться заниженным. ", "Эмпирический риск в силу обстоятельств, связанных с нежелательным переобучением, может оказаться заниженным. ", "Эмпирический риск по причине, вызванной нежелательным переобучением, может быть заниженным. ",

"Эмпирический риск, к заниженности которого приводит нежелательное переобучение.",

"Нежелательное переобучение служит причиной заниженности эмпирического риска.",

"Заниженность эмпирического риска, причиной которой является нежелательное переобучение.",

"Заниженность эмпирического риска является результатом нежелательного переобучения.",

"Нежелательное переобучение, с которым связана заниженность эмпирического риска.",

"Эмпирический риск, с переобучением связана его заниженность. ",

"Заниженность эмпирического риска связана с переобучением.",

"Заниженностьэмпирического риска, являющаяся результатом нежелательного переобучения.",

"Нежелательное переобучение, результатом которого является заниженность эмпирического риска.",

"Нежелательное переобучение, результат которого есть заниженность эмпирического риска.",

"Нежелательное переобучение, приводящее к заниженности эмпирического риска.",

"Нежелательное переобучение, служащее причиной заниженности эмпирического риска.",

"Заниженность эмпирического риска относится к следствию нежелательного переобучения.",

"Заниженность эмпирического риска связана с нежелательным переобучением.",

"Нежелательное переобучение является причиной заниженности эмпирического риска.",

"Заниженность эмпирического риска, причиной которой служит нежелательное переобучение.']

ill

Рис. 1. Исходные данные для формирования К[ и КС°пУ Таблица 1. Правильные ответы Т, еТ' в (7) из представленных на рис. 1

основа флективная часть + предлог

занижен ость ости ость ости ость ости

эмпирическ ого ого ого ого ого ого

риск а а а а а а

нежелательн ого ое ого ое ым ое

переобучении я е я е ем е

являя ется — ется ется — —

следствии ем — — — — —

служ — ит — — — —

причин — ой — ой — —

результат — — ом — — —

связан — — — — а:с —

привод — — — — — ит:г

Рис. 2. Синтаксические отношения на основе сочетаний флексий

В целях краткости изложения здесь не приводится . Решетки и представлены на

рис.3 и 4. Визуализацию решетки диаграммой линий [9] в настоящей работе выполняет ПО Concept Explorer [11], реализующее методы АФП. Область в Ж^ (рис.3), отвечающая условию Утверждения 3, обозначена прямоугольником.

Заключение

Сферой рассмотрения настоящей работы были классы отношений для слов с изменяемой частью в конце словоформы. Тем не менее, чрезвычайно интересным является дальнейшее развитие предложенного в работе метода применительно к изменениям в составе основы слова. Здесь следует отметить беглые гласные, чередования гласных и согласных в составе основы, а также вариантные формы основ.

47В

приводить иллюстрировать

Рис.З. Группировка РПЗ и конверсивных замен по результатам Cognitive Dwarf

следствием :является

результатом: является

связана

причинои .'является

причинои: служит

приводит

Рис. 4. РПЗ и конверсивы в составе фраз из T' (табл.1)

В частности, отдельного рассмотрения заслуживает включение в синтаксические контексты вида

(2) имен числительных, для которых особенно актуально явление чередования в основах. Пример: «триста», «трехсот», «тремстам», «триста», «тремястами», «трехстах».

В связи с этим другое немаловажное направление дальнейших исследований - распознавание слов-паронимов в составе синонимичных фраз. Наиболее плодотворные результаты данное исследование даст совместно с количественным изучением вариативности на уровне морфем и лексем русского языка [12].

Благодарности Работа выполнена при поддержке РФФИ (проект №06-01-00028).

Литература

1. Тихомиров, И. А. Интеграция лингвистических и статистических методов поиска в поисковой машине "Exactus" [Электронный ресурс] / И.А. Тихомиров, И.В. Смирнов // Межд. Конф. по компьютерной лингвистике "Диалог-2008". http://www.dialog-21 .ru/dialog2008/ materials/html/80. htm (дата обращения: 18.11.2009).

2. Васильев, В.И. Методологические правила конструирования компьютерных тестов [Текст] / В.И. Васильев, А.Н. Демидов, Н.Г. Малышев, Т.Н. Тягунова - М.: МГУП, 2000. - 64 с.

3. Мельчук, И. А. Опыт теории лингвистических моделей "Смысл^текст": Семантика, синтаксис [Текст] / И.А. Мельчук. - М.: Шк. "Языки русской культуры", 1999. - 345 с.

4. Mikhailov, D.V. Formation and clustering of Russian's nouns's contexts within the frameworks of Splintered Values [Текст] / D.V. Mikhailov, G.M. Emelyanov, N.A. Stepanova // 9th Int. Conf. "Pattern Recognition and Image

Analysis: New Information Technologies" (PRIA-9-2008).

- Nizhni Novgorod. - NNSU. - 2008. - Vol.2. - P. 39-42.

5. Осипов, Г. С. Приобретение знаний интеллектуальными системами: Основы теории и технологии [Текст] / Г.С. Осипов. - М.: Наука, 1997. - 112 с.

6. Ножов, И.М. Синтаксический анализ [Электронный ресурс] / И.М. Ножов // Компьютерра. - 2002. - №21 (446). http://www.computerra.ru/offline/2002/446/18250/ (дата обращения: 18.11.2009).

7. Емельянов, Г.М. Концептуально-ситуационное моделирование процесса перифразирования высказываний Естественного Языка как обучение на основе прецедентов [Текст] / Г.М. Емельянов, А.Н. Корнышов, Д.В. Михайлов // Искусственный интеллект. - 2006. - №2. - С. 72-75.

8. Кибрик, А.Е. Очерки по общим и прикладным вопросам языкознания / А.Е. Кибрик. - М.: КомКнига, 2005.

- 332 с.

9. Ganter, B. Formal Concept Analysis - Mathematical Foundations [Текст] / Ganter B. and Wille R. - Berlin : Springer-Verlag, 1999. - 284 с.

10. Программный пакет синтаксического разбора и машинного перевода [Электронный ресурс] //

http://cs.isa.ru:10000/dwarf/ (дата обращения:

18.11.2009).

11. The Concept Explorer [Электронный ресурс] //

http://conexp.sourceforge.net (дата обращения:

18.11.2009).

12. Гусев, В.Д. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) [Электронный ресурс] / В.Д. Гусев, Н.В. Саломатина // Межд. Конф. по компьютерной лингвистике "Диалог-2004". http://www.dialog-21 .ru/Archive/2004/Salomatina.htm (дата обращения:

18.11.2009).

References

1. Tikhomirov, J.A. Integration of linguistic and statistic methods in search engine "Exactus" [Electronic resource] / I.A. Tikhomirov, I.V. Smirnov // Computional linguistics and intellectual technologies: International Conference "Dialogue-2008". http://www.dialog-21.ru/dialog2008/materials/html/80.htm. -(in Russian, access date: 18.11.2009).

2. Vasilev, V.I Methodological rules of designing of computer tests [Text] / V.I. Vasilev, A.N. Demidov, N.G. Malyshev, T.N. Tjagunova - Moscow: MSUPA, 2000. - 64 p.

- (in Russian).

3. Mel'chuk, LA An Attempt at a Theory of "Mean-ing^Text" Linguistic Models: Semantics, Syntax [Text] / I.A. Mel'chuk. - Moscow: Languages of Slavonic Culture, 1999. - 345 p. - (in Russian).

4. Mikhailov, D.V. Formation and clustering of Russian's nouns's contexts within the frameworks of Splintered Values [Text] / D.V. Mikhailov, G.M. Emelyanov, N.A. Stepanova // 9th Int. Conf. "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-9-2008).

- Nizhni Novgorod. - NNSU. - 2008. - Vol.2. - P. 39-42.

5. Osipov, G.S. Knowledge acquisition by intellectual systems: fundamentals of theory and technology [Text] / G.S. Osipov. - Moscow: Nauka, 1997. - 112 p. - (in Russian).

6. Nozhov, I.M. Syntactic analysis [Electronic resource] /

I.M. Nozhov // Computerra. - 2002. - No21 (446). http://www.computerra.ru/offline/2002/446/18250/. - (in Russian, access date: 18.11.2009).

7. Emelyanov, G.M. Conceptually-situational modeling of process of synonymic transformation of the natural-language statements as machine learning on the basis of precedents [Text] / G.M. Emelyanov, A.N. Kornyshov, D.V. Mikhailov // Scientific-theoretical magazine «Artificial intelligence». - 2006. - No2. - P. 72-75. - (in Russian).

8. Kibrik, A.E. Sketches on the general and applied questions of linguistics [Text] / А.Е. Кибрик. - Moscow: KomKniga, 2005. - 332 p. - (in Russian).

9. Ganter, B. Formal Concept Analysis - Mathematical Foundations [Текст] / Ganter B. and Wille R. - Berlin : Springer-Verlag, 1999. - 284 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Software package of syntactic analysis and machine translation [Electronic resource] // http://cs.isa.ru:10000/dwarf/.

- (in Russian, access date: 18.11.2009).

11. The Concept Explorer [Electronic resource] // http://conexp.sourceforge.net. - (access date: 18.11.2009).

12. Gusev, V.D. Algorithm of revealing of set expressions

with taking into account their variability (morphological and combinatorial) [Electronic resource] / V.D. Gusev, N.V. Salomatina // Computional linguistics and intellectual technologies: International Conference "Dialogue-2004". http://www.dialog-

21 .ru/Archive/2004/Salomatina.htm. - (in Russian, access date: 18.11.2009).

SEMANTIC CLUSTERING OF SUBJECT-ORIENTED LANGUAGES'S TEXTS (MORPHOLOGY AND SYNTAX)

Dmitrii Vladimirovich Mikhailov1 (docent, e-mail: Dmitry.Mikhaylov@novsu. ru ),

Gennadii Martinovich Emelyanov1 (professor, e-mail: Gennady.Emelyanov@novsu. ru )

1 State Educational Institution of Higher Vocational Education "Yaroslav-the-Wise Novgorod State University"

Abstract

The problem considered is the semantic clustering of texts in Subject-Oriented Natural Language. The approach offered is to elaborate perfomance criteria for syntactic analysis as a toolbox to reveal objects and attributes. Especial attention is given to the Splintered Values and conver-sives within nouns's syntactic contexts.

Key words: text mining, natural language, subject area, semantic equivalence, knowledge clustering, lattice theory.

Поступила в редакцию 20.II.2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.