Научная статья на тему 'Эвристики для улучшения работы частичного синтаксического анализатора'

Эвристики для улучшения работы частичного синтаксического анализатора Текст научной статьи по специальности «Математика»

CC BY
187
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ПАРСИНГ / СИНТАКСИЧЕСКИЙ АНАЛИЗ / ЧАНКИНГ / ARTIFICIAL INTELLIGENCE / COMPUTATIONAL LINGUISTICS / PARSING / CHUNKING

Аннотация научной статьи по математике, автор научной работы — Поляков Владимир Николаевич, Буштедт Владислав Андреевич

В статье описана работа частичного синтаксического анализатора с использованием эвристик, которые позволяют сократить количество ложно выявленных при первоначальном анализе синтаксических конструкций (чанков). В предыдущих работах авторов было выявлено, что в русском языке на обнаружение чанков очень большое воздействие оказывают явления омонимии и полисемии. Под ложно выявленными чанками понимаются такие, которые были обнаружены частичным синтаксическим анализатором, но не являются на самом деле верными. Метод поиска чанков с применением этих эвристик получил название >. Приведена формальная постановка задачи. Выполнена компьютерная реализация метода поиска чанков, результатом которой является программный комплекс >. Проведена оценка эффективности предложенного метода поиска чанков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of partial parsing is considered in this paper. New heuristics are proposed to reduce the quantity of chunks falsely exposed at the first step of analysis. A very large influence is rendered by the phenomena of homonymy and polysemy on detection of chunks in Russian. Falsely exposed chunks are treated as ones which were found out by a partial parser, but are not actually correct. The method of search of chunks with the use of these heuristics got the name ``Right-chunk 4''. The formal task statement is carried out. Computer realization of method of search of chunks is executed as software ``Chunk-creator 4''. The estimation of quality is conducted.

Текст научной работы на тему «Эвристики для улучшения работы частичного синтаксического анализатора»

УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Том 151, кн. 3

Физико-математические пауки

2009

УДК 004.81

ЭВРИСТИКИ ДЛЯ УЛУЧШЕНИЯ РАБОТЫ ЧАСТИЧНОГО СИНТАКСИЧЕСКОГО АНАЛИЗАТОРА

В.А. Буштедт, В.Н. Поляков

Аннотация

В статье описала работа частичного синтаксического анализатора с использованием эвристик, которые позволяют сократить количество ложно выявленных при первоначальном анализе синтаксических конструкций (чайков). В предыдущих работах авторов было выявлено, что в русском языке па обнаружение чапков очень большое воздействие оказывают явления омонимии и полисемии. Под ложно выявленными чапками понимаются такие, которые были обнаружены частичным синтаксическим анализатором, по по являются па самом деле верными. Метод поиска чапков с применением этих эвристик получил название «Г^М-Ошпк 4». Приведена формальная постановка задачи. Выполнена компьютерная реализация метода поиска чапков. результатом которой является программный комплекс «С1шпк-Сгеа<:ог 4». Проведена оценка эффективности предложенного метода поиска чапков.

Ключевые слова: искусственный интеллект, компьютерная ..лингвистика, парсипг, синтаксический анализ, чапкипг.

Введение

Задача синтаксического анализа является одной из сложных задач компьютерной лингвистики и искусственного интеллекта. Исследование данной проблемы началось еще в 60-е годы XX века. Были созданы различные системы, которые позволяли проводить синтаксический анализ предложений на естественном языке, но сильного развития эти системы не получили, так как имели но очень высокие показатели точности анализа [1. 2].

Позднее задачу синтаксического анализа начали решать в составе задачи автоматического анализа текста на естественном языке. Но стоит отметить, что до недавнего времени большое число исследователей сходились во мнении о нецелесообразности введения модуля синтаксического разбора в системы автоматического анализа текста ввиду сложности реализации этой идеи [3]. Однако оказалось, что. несмотря на ограниченную точность синтаксических анализаторов, их использование способно заметно повысить качество таких систем в случае комбинирования с известными статистическими методами [4. 5].

К решению этой проблемы существуют три подхода: формально-грамматический. эвристический и вероятностно-статистический [6].

Первый направлен на создание сложных систем правил, которые позволяли бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической структуры: второй па выявление таких эвристик, которые бы позволяли получать наиболее приближенные к реальности результаты работы синтаксического анализатора: третий на сбор статистики встречаемости различных структур в похожем контексте, на основе которой и принимается решение о выборе варианта структуры.

В настоящей работе рассматривается формально-грамматический и эвристический подходы.

Вследствие того, что достичь удовлетворительных результатов при полном синтаксическом анализе пока не представляется возможным, памп было принято решение о проведении исследований, связанных с работой частичного синтаксического анализа, так называемого «Чанкера» (от англ. слова «сЫтк» глыба, ломоть, то есть нечто грубое и общее, в смысле частичного синтаксического анализа по сравнению с полным).

При синтаксическом анализе текста на естественном языке основной проблемой является разрешение неоднозначностей. Так. в работе [7] было выявлено, что основной проблемой при частичном синтаксическом анализе в русском языке являются явления полисемии и омонимии, которые создают избыточность при обнаружении чанков. В настоящей работе предложено несколько эвристик, направленных на устранение избыточности.

1. Формальная постановка задачи

В предыдущих работах [7. 8] мы столкнулись с проблемой избыточности обнаружения чанков. Она определяется двумя явлениями в русском языке:

1) полисемия - наличие совпадающих лемм1 в словаре. Например, коса па голове у девушки, коса как орудие труда и песчаная коса в море:

2) омонимия наличие совпадающих морфоформ. то есть одно и то же написание слова соответствует большому количеству морфоформ слов с различными грамматическими характеристиками. Например, стали (Сущ., ж.р.. Р.П.. мн.ч.) и стали (Глаг.. прош. вр.. I сир.. 3 лицо): или железа (Сущ., ср.р.. Р.П.. мн.ч.) и железа (Сущ., ж.р.. И.П.. ед.ч.).

Стоит отметить, что в нашем исследовании задача чанкинга решается в ограниченном масштабе, так как мы выявляем чанки только с именами существительными (НС). Это мотивировано дальнейшим использованием результатов чанкинга для построения лексико-синтаксических портретов существительных [9]. которые далее используются для разрешения многозначности НС. Изначально в работе [8] была предложена эвристика, которая ограничивает дистанцию от НС до зависимого слова. Эта эвристика улучшила результаты анализа на 32%. Прямой перебор без эвристик давал значение меры П. равное 0.25. эвристика ограничения расстояния до зависимого слова позволила получить значение П равным 0.32 (надо заметить, что похожее исследование для чешского языка было произведено в 2005 г. [10]).

В настоящей работе мы предлагаем десять новых эвристик, направленных на уменьшение количества ложно выявленных чанков. При разработке этих эвристик мы предложили эффективные методы, которые позволили сократить количество неправильно выявленных чанков еще на 67% по сравнению с вариантом, который использовал только эвристику, ограничивающую дистанцию до зависимого слова. Нам удалось, используя все более и более глубокий анализ каждого предложения, избавиться от все большего количества ложно выявленных чанков.

Разделим эвристики на две группы:

А) эвристики, которые в алгоритме частичного синтаксического анализатора должны выполняться на этапе построения набора чанков для каждого предложения:

Б) эвристики, которые в алгоритме частичного синтаксического анализатора должны выполняться после этапа построения предварительного набора чанков для каждого предложения, то есть из числа уже имеющихся чанков исключаются ложные чанки.

1 Лемма — нормализованная основная форма слова вместе с информацией о построении других форм.

Первая группа включает в себя следующие эвристики:

Эвристика А.1. Неверными являются чанки вида «Любое существительное (главное в чанко) — Существительное в именительном падеже».

Пример:

Предложение «Газ для доменной печи». Чанк «газ — печи» (Сущ.. И.П. — Сущ.. II.П.) неверный.

Эвристика А.2. Неверным считается чанк. где перед существительным в именительном падеже стоит любой предлог. Между существительным и предлогом также может стоять прилагательное.

Пример:

Предложение «В сталь добавляют молибден».

Чанк «сталь — добавляют» (Сущ.. И.П. — Глагол) неверный.

Эвристика А.З. В основу этой эвристики легло одно из правил согласования предлогов с именами существительными в русском языке, а именно тот факт. что. судя по предлогу, стоящему перед существительным, можно сделать вывод, в каком падеже может стоять это существительное. Эвристика работает следующим образом: для каждого анализируемого существительного (в составе чанка любого вида) программа пытается найти предлог, который относится к этому существительному: если предлог найден, то необходимо проанализировать, в каком падеже может стоять найденное существительное. Если существительное стоит в таком падеже. в котором оно не может стоять в паре с предлогом, то программный комплекс делает вывод, что найденный чанк является ложным.

Пример:

Предложение «В ходе процесса из руды получается чугун».

Чанк «ходе — руды» (Сущ.. Д.П. — Сущ.. Р.П.) неверный.

Слово «ходе» может стоять только в винительном или предложном падежах, так как перед ним стоит предлог «в».

Ниже приведен список предлогов и падежей, в которых могут стоять существительные. идущие после предлогов.

Предлоги, которые можно употреблять с существительным, имеющим один падеж:

с родительным: без. до. из. от. у. для. ради: с дательным: к:

с винительным: про. через, сквозь: с творительным: над. перед: с предложным: при.

Предлоги, которые можно употреблять с существительным, имеющим один из двух падежей:

с винительным и предложным: в. на. о: с родительным и творительным: между: с винительным и творительным: за. под.

Предлоги, которые можно употреблять с существительным, имеющим один из трех падежей:

с винительным, дательным, предложным: по: с родительным, винительным и творительным: с.

Эвристика А.4- Данная эвристика показывает хорошие результаты для удаления ложных чайков, но в то же время она является «опровергаемой» эвристикой, то есть существуют предложения, в которых эта эвристика будет удалять также и верно найденные чанки.

Идея эвристики заключается в ограничении, накладываемом на чанки вида «Существительное — Существительное». Согласно данной эвристики чанк из двух

существительных считается неверным, если между ними стоит еще одно существительное.

Пример правильной работы эвристики (таких примеров очень много):

«Здесь содержится железо в виде соли».

Правильный чанк «железо — в — виде», а неверный чанк «железо — соли» отсеивается.

Пример неверной работы эвристики:

«Повышение в чугуне количества соли».

«Повышение — в — чугуне» правильный чанк. а вот чанк «повышение — количества» отсеивается неверно.

Данная эвристика не гарантирует стопроцентной точности. Однако решение об ее использовании было принято из-за того, что соотношение неверно удаленных правильных чанков к правильно удаленным ложным чанкам составляет около 1/11.

Далее рассмотрим вторую группу эвристик. Отметим тот факт, что данные эвристики не могут применяться на этапе построения набора чанков. так как исходными данными для этих эвристик являются все чанки. выявленные в предложении. то есть принять решение о том. является тот или иной чанк ложным, можно только после того, как стали известны все результаты работы эвристик из группы А.

Вторая группа (Б) включает в себя следующие эвристики:

Эвристика Б.1. Направлена на удаление из набора обнаруженных в предложении чанков тех. которые являются полисемичиыми к друг другу за исключением первого из них. Речь идет о том. что не важно, в каком значении в чайке присутствует каждое слово, главное как структура чанка не содержит информацию о значении слов. Таким образом, нам удастся избавиться от большого количества чанков. которые не отличаются ни словами, которые составляют этот чанк. ни морфоформами этих слов.

Пример:

Предложение «У девочки есть коса».

Чанков «коса — есть» (Сущ.. II.П. — Глагол) может быть 3 штуки, в зависимости от того, в каком смысле употребляется слово коса. Но на данном этапе анализа для нас не важно, в каком значении употребляется слово коса. Результатом же работы всей поисковой системы должно явиться определение, в каком именно значении употребляется слово коса.

Эвристика Б.2. Направлена на удаление чанков типа «Существительное — Существительное» в том случае, если в предложении между этими словами стоит союз «и», так как в этом случае эти два слова являются однородными членами или относятся к двум разным однородным предложениям, разделенным союзом «н» без запятой перед ним.

Пример:

Предложение «Молибден и хром добавляют в сталь».

Чанк «молибден — хром» неверный.

Эвристика Б. 3. На первом этапе осуществляется поиск таких существительных. которые стоят в чанке в именительном падеже. Далее производится поиск по всем чанкам в том же простом предложении, которые содержат эти же слова, что н первоначально найденный чанк. Если таких чанков в исследуемом предложении не найдено или найденные чанки различаются формой слова, которое не является существительным, а существительное в этом случае во всех таких чайках находится в именительном падеже, это означает, что в простом предложении существует единственный кандидат на подлежащее. В этом случае все остальные

чанки в рамках простого предложения, в состав которых входят другие существительные в именительном падеже, точно являются неправильными и могут быть удалены из числа правильных чанков. Из этого правила существует исключение, хотя оно и маловероятно. Это исключение связано с тем, что, возможно, существуют два однородных предложения разделенных союзом «и» без запятой перед ним, в которых оба подлежащих подчиняются вышеописанным правилам, то есть оба этих подлежащих входят в чанки, для которых не существует омонимичных существительных не в именительном падеже. В этом случае возникает вопрос, какой из чанков оставлять, так как программный комплекс считает эти два однородных предложения одним простым предложением, что обусловлено тем, что в настоящем исследовании мы не разрабатываем и не применяем сложных методов разбиения сложного предложения на простые. Нами было решено, что в данном случае из этих двух «однородных» чанков оба будут оставаться в составе правильных чанков, что соответствует действительности.

Пример:

Предложение «По мере развития техники производства железа постепенно повышалась температура, при которой велся процесс».

Чанки «производства — железа (в смысле материал)» (Сущ., мн.ч., II.П. — Сущ., мн.ч., Р.П.), «железа (в смысле, орган) — повышалась» (Сущ., ед.ч., И.П. — Глагол) н т. д. неверные, так как в предложении только слово «температура» в чан-ке «температура — повышалась» стоит в именительном падеже.

Эвристика Б. 4- Эвристика работает следующим образом. Если в простом предложении есть подлежащее (на данном этапе подлежащее определяется только при наличии сказуемого), то остальные существительные в этом предложении могут стоять в любом падеже, кроме именительного, а, соответственно, это слово только в именительном падеже.

Пример:

Предложение «Зародился двухступенчатый способ производства железа из руды».

Чанк «зародился — способ» (Глагол — Сущ., В.П.) неверный, так как слово «способ» является подлежащим в данном предложении.

Эвристика Б.5. Идею пятой эвристики опишем по шагам (эти действия выполняются для каждого существительного в каждом чанке в простом предложении, в дальнейшем это существительное будем называть «эталонным существительным», а чанк, в который входит это существительное, «эталонным чанком»):

Шаг 1. Производится проверка наличия хотя бы еще одного чанка «двойника», в который входят оба слова из «эталонного чанка», но «эталонное существительное» имеет другие морфологические характеристики, чем существительное из чанка «двойника». Шаг 2 выполняется только в случае положительного результата.

Шаг 2. Производится проверка наличия хотя бы еще одного чанка «полудвойника», в который входит это же «эталонное существительное», а остальные слова в чанке отличаются от слов из «эталонного чанка». Шаг 3 выполняется только в случае положительного результата.

Шаг 3. В том случае, если среди всех существительных из чанков «полудвойников» пет существительного с морфологическими характеристиками, аналогичными «эталонному существительному», а среди существительных из чанков «двойников» имеется хотя бы одно существительное, соответствующее по морфологическим характеристикам хотя бы одному существительному из чанков «полудвойников», «эталонный чанк» считается некачественным и удаляется из числа правильных чанков.

Пример:

Предложение «Температура стали по сравнению с чугуном больше».

Чанк «стали — по — сравнению» (Глаг., соверш. вида, невозврат.. I спряж., прош. вр., mil всех лиц родов) — Предлог — Сущ.. Д.П.) неверный, так как во всех остальных чайках слово «стали» это существительное, но не глагол.

Эвристика Б. 6. Эвристика, которая позволяет распознавать чанки, включающие составные глаголы. Во-первых, она позволяет сократить число ложных чан-ков. так как удаляет чанки. в состав которых входит существительное и один из двух глаголов. Во-вторых, она увеличивает количество верных чайков. Пример:

Предложение «Чугун могут нагревать». Чанк «чугун — могут нагревать» верный.

Эвристика Б.7. Была реализована также одна эвристика, от применения которой мы пока отказались (в программном комплексе ее можно включать и отключать. ее нет в математической постановке задачи), так как чтобы она работала правильно, ее необходимо сильно доработать. Она основывалась на том факте, что в большинстве предложений подлежащее предшествует сказуемому. Но поскольку это утверждение выполняется для большинства, но не для всех предложений. н более того, в некоторых текстах, таких, как стихи, это утверждение может быть вообще неверным, использовать данную эвристику без дополнительных правил невозможно.

2. Математическая постановка задачи

Рассмотрим математическую постановку задачи.

а) Предложение можно представить в виде упорядоченного множества слов

S = {Wl, W2, W3, ..., wn} н заданного на этом множестве отношения порядка

Ni <N2 < N3 < ■■■ <Nn, (1)

где Ni - место слова wi в предложении.

б) Этап морфоанализа можно представить в следующем виде:

(w0, Gj) = MA(wj),

где w0 - нормальная форма слова; Gi - кортеж грамматических характеристик: Gi = (g1i,g2i,..., gni); MA(wi) - функция морфоанализа.

в) Теперь предложение может быть представлено в виде множества пар

T = {(w?,Gi), (w0, G2),..., (wn,Gn)}

и заданного на этом множестве отношения порядка (1).

г) Расстояние между словами в предложении определяется как

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Z = |i - j|

где i, j — позиции слов в предложении.

д) Поиск чайка (связанного словосочетания) сводится к перебору всех комбинаций пар в предложении и проверке выполнения условий

{True, если (Aij = True) Л (Bij = True) Л (Cij = True), False, если (Aij = False) V (Bij = False) V (Cij = False),

где Comp(Gj,Gj) - логическая функция сравнения; Z0 - область поиска чанков в предложении; Aij - условия для первоначального поиска чанков; Bij - условия, описывающие эвристики, работающие на этапе поиска каждого чанка; Cij - условия, описывающие эвристики, работающие после окончания поиска всех чанков в предложении.

е) Bj = (61 jj, b2 , b3 i}j, b4 i}j) - условия, описывающие эвристики, работающие на этапе поиска каждого чанка: Bij = True, если bkij = True, k = 1, 2, 3, 4.

Пусть изначально для каждого предложения:

bki,j = True, i,j = n, k = 1, 2, 3, 4.

A.l. Чаик неверный, earn он имеет вид «Любое существительное (главное в чапке) + Существительное в именительном падеже»:

Gi = Имя_Сущ.; wi — главное_слово_в_чапке ; > ^ b1 ijj- = False. Gj = ;

А.2. Чанк неверный, если перед существительным, в именительном падеже стоит любой предлог:

{Gi = Имя_Сущ. И.П.; i > 2;

Gi_i — предл or;

> 3;

Gi = ;

i > 3;

< Gi_i — ирилагател ьное;

Gi_ 2 — предл or;

> 4;

A.S. Судя no предлогу, стоящему перед существительным, можно сделать вывод, в каком падеже может стоять это существительное [11].

Данная эвристика подробно описана в Приложении Х- 1.

А.4- Чаик из двух существительных считается неверны,м, если между ними стоит еще одно существительное (опровергаемая эвристика):

Gi = Gj =

((i < j) Л (Gi+1 = Имя_Сущ. Л • • • Л Gj_1 = Имя_Сущ.)) ((i > j) Л (Gj+1 = Имя_Сущ. Л • • • Л Gi_1 = Имя_Сущ.))

ж) Cij = (c1 i,j, c2 i,j, c3 i,j, c4 i,j, c5 i,j, ее i,j) - условия, описывающие эвристики, работающие после окончания поиска всех чанков в предложении:

Cij = True, если cki,j = True, k = 1, 2,..., 6.

Пусть изначально для каждого предложения:

Cki,j = True, i,j = n, k = 1, 2,..., 6.

Б.1. Удаление из набора обнаруженных в предложении чанков тех, которые являются полисеммчными к друг другу, за исключением первого из них:

c1 i,j = True, тел и (w0, Gi) = (wj1, Gj);

b2 i j = False.

b4 i , j = False.

С1 ij = False, если (w0, Gj) = (w0, G j).

Б.2. Эвристика направлена на удаление чанков типа «Существительное + Существительное» в том случае, если в предложении между этими ашвами стоит союз «и»:

С2 i

С2 i

True,

False,

если

если

((i<j) A (w0+i = 'г

Л w0_i = 'и"))

L ((i>j) A (wj+i = V 'A •••A w0_i = 'и"))

((i < j) A (w0+i = V' V • • • V w0_i = 'и")) L ((i > j) A (wj+i = V' V • • • V w0_i = 'и"))

Б.З. Еаш в простом предложении существует только одно существительное в именительном падеже, то это существительное может присутствовать в составе чанков только в именительном падеже, а все остальные существительные должны стоять не в именительных падежах:

(Gi = Имя_Сущ. И.П.) (w? = Vw? n) Л (Gi = VGi..n) -3((i = h) Л (w? = Vw? n) Л (Gc = Имя_Сущ. И.П.))

((w? = w?) Л (Gk = Имя_Сущ. И.П.)) , , c =False

(Gj = Имя_Сущ. И.П.) ^ ^ c3k,1 ...n = False.

(w? = Vw? n) Л (Gj = VGi..n) n3((j = h) Л (w? = Vw? n) Л (Gc = Имя_Сущ. И.П.)) ((w? = w?) Л (Gfc = Имя_Сущ. И.П.))

Б.4- Earn в простом предложении есть подлежащее (на данном этапе подлежащее определяется только при наличии сказуемого), то остальные существительные в этом предложении могут стоять в любом падеже, кроме именительного, а, соответственно, это слово только в именительном падеже:

3(w0, Gj) = Подлежащее (Gj = Имя_Сущ. И.П.) ^ x (i = h) A (Gh = Имя_Сущ. И.П.) :

C4x j = False.

Б. 5. Эвристика, определяющая составные глаголы в предложении. Данная эвристика подробно описана в Приложении Х-'2. Б. 6. Эвристика, проверяющая «качество» чанков в предложении. Эта эвристика подробно описана в Приложении Х- 3.

Если Comp (Gi, Gj) = True, то пара слов (wi, wj) является чанком, в противном случае пара слов (wi, wj) не является чанком.

Для тестирования данного алгоритма был создан специальный программный комплекс «Chunk-Creator 4» [7, 8].

3. Анализ эффективности применяемой эвристики

Для анализа эффективности применяемой эвристики необходимо рассчитать:

N - число правильно выявленных чанков, то есть количество истинно выявленных чанков в тестируемой выборке (мнение эксперта совпало с результатом автоматической классификации, чанки были определены и экспертом, и программным комплексом):

N2 - число неправильно выявленных чанков, а именно количество ложно приписанных чанков в тестируемой выборке (эксперт не обнаружил чанк, а программный комплекс обнаружил):

N3 — число пропущенных чанков, то есть число ложно отклоненных чанков в тестируемой выборке (эксперт обнаружил чанк, а программный комплекс не обнаружил).

Эффективность работы алгоритма оценивается следующим образом. Рассчитывается Рг - показатель точности классификации, которая рассчитывается как отношение числа правильно выявленных чанков к сумме числа правильно выявленных чанков и числа пропущенных чанков:

Р = ^

Г т

N + N

Рассчитывается Де - показатель отказа классификации, которая рассчитывается как отношение числа правильно выявленных чанков к сумме числа правильно выявленных чанков и числа неправильно выявленных чанков:

7? = N

л»

N + N *

Далее рассчитывается результирующая мера по формуле

2 • Рг •

=

Рг + 7

В результате тестирования программного комплекса были получены следующие данные (табл. 1).

В табл. 2 приведены результаты, полученные без применения эвристик, описываемых в настоящей статье, но с применением эвристики, накладывающей ограничение на расстояние до зависимого слова, которая описана в статье [8].

Здесь для примера приведен анализ части одного предложения с применением эвристик с областью анализа ±3 слова (табл. 3).

В нашем примере видно, что произошло сокращение неправильно выявленных чанков с 99 до 24. При этом не было потеряно ни одного правильного чанка.

Теперь проанализируем полученные результаты из табл. 3, где представлены общие результаты анализа.

Видно, что ложных чанков осталось намного меньше, чем было раньше. Большинство оставшихся ложных чанков не удалось удалить вследствие того, что не удалось определить падеж каждого существительного со стопроцентной вероятностью.

В чанках вида «Глагол — Существительное» также не применяется эвристика, ограничивающая область анализа, так как многие правильные чанки именно этого вида могут неверно удаляться данной эвристикой. Поэтому у нас есть 2 новых ложных чанка «повышалось — углерода» и «повышалось — примесей».

Далее проанализируем данные, представленные в табл. 1 и 2.

Обратим внимание на то, что эти эвристики обладают преимуществом перед эвристикой, направленной на ограничение области анализа зависимого слова из-за того, что они никак не воздействуют на правильно выявленные морфоанализато-ром чанки (за исключением эвристики 1.4).

Отметим, что значение Рг возросло с 0.90 до 0.94 (при области анализа в 3 слова). Значение Де увеличилось для каждой области анализа в среднем на 0.220.26, а .Р! - на 0.28.

±

±±

чанков. Число неправильно выявленных чанков вследствие применения эвристик

Табл. 1

Апалго эффективности применяемых эвристик

Область анализа (± количество слов от существительного)

Все слова 7 6 5 4 3 2 1

N1 357 357 357 357 355 347 325 250

N2 628 597 581 552 503 432 344 201

N3 16 16 16 16 17 22 35 80

у ¿—/про г 985 954 937 909 858 779 669 450

V ^вруч 373 373 373 373 372 369 360 329

%прав 95.66 95.66 95.66 95.66 95.31 94.04 90.30 75.82

%проп 4.34 4.34 4.34 4.34 4.69 5.96 9.70 24.18

УСЛ. %непр 168.35 160.09 155.65 148.00 135.25 117.07 95.45 60.94

Потеря п ч 0.00 0.00 0.00 0.00 0.61 2.76 8.90 30.06

Потеря нч 0.00 4.91 7.55 12.09 19.85 31.21 45.27 68.06

Рг 0.96 0.96 0.96 0.96 0.95 0.94 0.90 0.76

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ке 0.36 0.37 0.38 0.39 0.41 0.45 0.49 0.55

Л 0.53 0.54 0.54 0.56 0.58 0.60 0.63 0.64

где Х]Прог = N1 + N2 - всего чанков (определил чанкер); Евруч = N1 + N3 - всего чанков (посчитано вручную); %прав = N1/^ уч •100% - процент правильно выявленных от Х]Вруч' %проп = Nз/^вpYЧ •100% - процент пропущенных от Х]Вруч >

Усл. %Непр = N2/^ уч ^100% - условный процент неправильно выявленных чанков от У :

ПотеряПшЧш = 100 — (Nl/Nl все олова • 100%) - процент потерянных правильных чанков вследствие примеиепия эвристики;

Потерян ч = 100 — (N3/^ все елоВА • 100%) — процент отсеянных неправильных чанков вследствие применения эвристики.

Табл. 2

Анализ эффективности с применением эвристики, связанной с ограничением расстояния до зависимого слова, и без применения эвристик, описываемых в настоящей статье

Область анализа (± количество слов от существительного)

Все слова 7 6 5 4 3 2 1

N1 326 326 326 326 324 317 297 228

N2 1923 1822 1761 1687 1555 1316 1002 585

N3 25 25 25 25 27 34 54 123

V ¿—/про г 2249 2148 2087 2013 1879 1633 1299 813

V 351 351 351 351 351 351 351 351

%прав 92.88 92.88 92.88 92.88 92.31 90.31 84.62 64.96

%проп 7.12 7.12 7.12 7.12 7.69 9.69 15.38 35.04

УСЛ. %непр 547.86 519.09 501.71 480.63 443.02 374.93 285.47 166.67

Потеря п ч 0.00 0.00 0.00 0.00 0.61 2.76 8.90 30.06

Потеря нч 0.00 5.25 8.42 12.27 19.14 31.57 47.89 69.58

Рг 0.93 0.93 0.93 0.93 0.92 0.90 0.85 0.65

Ке 0.14 0.15 0.16 0.16 0.17 0.19 0.23 0.28

Л 0.25 0.26 0.27 0.28 0.29 0.32 0.36 0.39

Табл. 3

Поиск чапков в предложении с использованием эвристик

Цепь Вид цепи N N2 n3 n4 п

Предложение: Шо мере развития техники производства железа постепенно повышалась температура, при которой велся процесс, но одновременно в металле повышалось содержание углерода и других примесей».

повышалась + по + мере Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц Ж род) + Предлог + Сущ. Ж.род. Неодуш. (Ед.ч. Д.П. ) 1 1

мере + развития Сущ. Ж.род. Неодуш. (Ед.ч. Д.П. ) + Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) 1 1

мере + развития Сущ. Ж.род. Неодуш. (Ед.ч. Д.П. ) + Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) 1

повышалась + по + мере Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц Ж род) + Предлог + Сущ. Ж.род. Неодуш. (Ед.ч. ПЛ. ) 1

мере + развития Сущ. Ж.род. Неодуш. (Ед.ч. ПЛ. ) + Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) 1

мере + развития Сущ. Ж.род. Неодуш. (Ед.ч. ПЛ. ) + Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) 1

развития + техники Сущ. Ср.род Неодуш. (Ед.ч. Р.П. ) + Сущ. Ж.род. Неодуш. (Ед.ч. Р.П. ) 1 1

развития + техники Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) + Сущ. Ж.род. Неодуш. (Мн.ч. В.П. ) 1

развития + техники Сущ. Ср.род Неодуш. (Мн.ч. В.П. ) + Сущ. Ж.род. Неодуш. (Ед.ч. Р.П. ) 1

развития + техники Сущ. Ср.род Неодуш. (Мн.ч. В.П. ) + Сущ. Ж.род. Неодуш. (Мн.ч. В.П. ) 1

техники + производства Сущ. Ж.род. Неодуш. (Ед.ч. Р.П. ) + Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) 1 1

техники + производства Сущ. Ж.род. Неодуш. (Ед.ч. Р.П. ) + Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) 1

техники + производства Сущ. Ж.род. Неодуш. (Мн.ч. В.П. ) + Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) 1

техники + производства Сущ. Ж.род. Неодуш. (Мн.ч. В.П. ) + Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) 1

производства + железа Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) + Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) 1 1

производства + железа Сущ. Ср.род Неодуш. (Ед.ч. Р.П. ) + Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) 1

производства + железа Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) + Сущ. Ср.род. Неодуш. (Ед.ч. Р.П. ) 1

производства + железа Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) + Сущ. Ср.род. Неодуш. (Мн.ч. В.П. ) 1

температура + повышалась Сущ. Ж.род. Неодуш. (Ед.ч. ИЛ. ) + Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц Ж род) 1 1

повышалось + в + металле Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц С род) + Предлог + Сущ. М.род. Неодуш. (Ед.ч. ПЛ. ) 1 1

содержание + повышалось Сущ. Ср.род. Неодуш. (Ед.ч. ИЛ. ) + Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц С род) 1 1

содержание + углерода Сущ. Ср.род Неодуш. (Ед.ч. ИЛ. ) + Сущ. М.род. Неодуш. (Ед.ч. Р.П. ) 1 1

повышалось + углерода Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц С род) + Сущ. М.род. Неодуш. (Ед.ч. Р.П. ) 1

повышалось + примесей Глаг. НСВ невозврат I спряж (Прош.вр Ед.всех лиц С род) + Сущ. Ж.род. Неодуш. (Мн.ч. Р.П. ) 1

Итого 9 15 0 0 1

Примечание: «I» - правильные чанки в предложении, определяется вручную; «N4» - неправильно выявленные чанки из-за ошибки морфоанализатора.

± ± ±

344 чанка), 55.46% (было 1316. стало 432 чанков) и 58.62% (было 1555. стало 503

чапков). В сродном количество неверно обнаруженных чанков сократилось втрое.

± ± ±

соответственно 8.90%. 2.76%. 0.61%. можно сделать вывод о том. что оптималь-

±

чанков будет составлять 2.76%, Рг = 0.94, Де = 0.45, Д = 0.60.

На рис. 1 представлены сравнительные графики значений Рг, Де, в зависимости от области анализа для случая с применением эвристик. На рис. 2 представлены Сравнительные графики значений Рг, Де, в зависимости от области анализа для случая без применения эвристик. На рис. 3 представлена сводная диаграмма значений Рг, Де, для случаев с применением всех эвристик, описанных в настоящей статье, и для случая применения только одной эвристики, ограничивающей область анализа.

4. Выводы и направления будущих исследований

Применение данных эвристик не влияет на количество правильно выявленных чанков (за исключением эвристики 1.4). Число неправильно выявленных чанков

1.20

1.00

0.80

0.60 0.40 0.20

0.00 -1-1-1-1-1-1-,-

Все ±7 ±6 ±5 ±4 ±3 ±2 ±1

слова

Область анализа слов

Рис. 1. Сравнительные графики значений Рг, Ке, р. в зависимости от области анализа для случая с применением всех эвристик

олова

Рис. 2. Сравнительные графики значений Рг, Ке, р в зависимости от области анализа для случая без применения эвристик

1.20

1.00

Рис. 3. Сводная диаграмма: Рг, Ке, Р1 — величины, полученные при применении всех эвристик, описанных в данной статье; _Рг, _Ке, _Р1 _ величины, полученные при применении только одной эвристики, ограничивающей область анализа

вследствие применения эвристик для разных областей анализа предложения примерно равно от 30% до 35% от первоначального количества (после применения эвристики, направленной на ограничение области анализа в предложении). При этом показатель Ее удалось увеличить па 0.22-0.27 (в абсолютном выражении).

Будущие исследования будут направлены на разработку новых синтаксических правил эвристик, которые позволят еще больше сократить число ложно выявленных чанков. а также на исследование эвристик, описывающих дополнительные правила, позволяющие производить поиск новых видов чайков.

Приложение 1. Эвристика, которая по предлогу перед существительным, делает вывод о допустимости чайка:

О, ФИмяСущ.И.П.; ' > 2;

Ог1 — предлог; х = г -1; Количество слов в _ предложении > 3;

О1 ФИмяСущ.И.П] => г > 3;

О—-1 —п^^ател ъное; I

Ог—2 —предл ог;; х = г — 2; Количество слов в _ предложении > 4;

О, = Имя Сущ.Р.П.; Ф" без" л" до" л" из" л" от" л" у"л" для" л" ради" л" между" л" с". О1 = Имя Сущ. Д.П. Ф"к"л"по";

О1 = Имя Сущ.В.П.; Ф" "л" "л" "л" "л" "л" "л" "л" "л" "л" " О1 = Имя Сущ.ТЛ wx Ф" над"л" перед"л" между"л" зер л" под"л" с":

О1 = ИмяСущ.П.П.; wx Ф" при"л" в"л" на"л" о"л" по" :

Приложение 2. Эвристика, определяющая составные глаголы в предложении:

О1 ФИмяСущ.И.П.; г > 2;

Ог—1 — предлог; х = г — 1; Количество слов в _ предложе нии > 3;

О1 ФИмяСущ.И.П.; ] =>

г > 3;

О^ —п^^ател ъное; I

Ог —2 — ; ; х = г — 2;

Количество слов в _ предложе нии > 4;

О, = ИмяСущ.Р.П.; wx Ф" без"л"до"л"из"л"от"л"у"л"для"л"ради"л" между"л"с": О1 = Имя Сущ. Д.П.; wx Ф"к"л"по";

О, = Имя Сущ.В.П:; Ф" "л" "л" "л" "л" "л" "л" "л" "л" "л" "

О1 = Имя _Сущ.Т Л.; wx Ф" над"л" перед"л" между"л" зс? л" под"л" с":

О1 = Имя Сущ.П.П.; wx Ф"^ри"л"в"л"на"л"о"л"по"; Ь3 = РаЬв.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Приложение 3. Эвристика, проверяющая «качество» чайков в предложении:

V(w

- + w , G , „ЗШ11Ю1",, G]"^mol/,) — этжонн ый _ чанк =С^цежвитеи ьное,

, = w,

„ G,

¡"денник" ' ]"двойних'

Существительное;

-, G ]"^юйма?', Gi "двойник" )'

G,"_„„„. * G,

Ч"ЭШ„ия" =С^ежвител ьное;

* W

G,"

=Gi"

=;

] " "

'иолцЭа."' G j"mipda.", Gi"№ipda."

, Wi",„„" * w,",„„,,.",G,",„„„„„" = G

III.

] " ."

G " " = ; V(wi"^Myda." + Wj"^мyda.", G¡"ямцЭa.", G j"wjyde." )'

¡"полуде." = 1..кал — во полуде.,¡"полуде." = 1..кал — во полуде.; w, = w, "^„."; Gi * Gi "™„i.."; V(w, "двойник" + , Gi, G]"deoiiH«K." )'

¡"двшнш? = 1. .кол — во _ двоил., /'дв^шик" = 1. .кал — во _^шнико&,

Wi"^^ник" Wi"^My<;ie." ; Gi"^^ник" Gi"nmydИ." ;

G,"^" = С^жвител ьное;

V(w]"

]" ."

wi"

в."'G /"^щчЭа."' Gi"rnm»de." ^

]"полуде."= 1..кал— во полуде.,,"полуде." = 1..кол — во полуде.;

. * G"

V(w,"<ja

]" ^от/лик"= 1. .кал — во _^<шн., i" дв^шик" = 1. .кал — во _ ^^ликов;

G™,' =с^™вителъное => с5,"Э„ Gf,3mmolt, = Существительное => с5 „^

r = False = False

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект Л*1' 09-07-97007-р-поволжьо_а).

Summary

V.A. Bushtult, V.N. Pulyakuv. A Partial Parser with Heuristics Reducing the Number of False Chunks in the Russian Clause.

The problem of partial parsing is considered in this paper. New heuristics are proposed to reduce the quantity of chunks falsely exposed at the first step of analysis. A very large influence is rendered by the phenomena of homonymy and polysemy 011 detection of chunks in Russian. Falsely exposed chunks are treated as ones which were found out by a partial parser, but are not actually correct. The method of search of chunks with the use of these heuristics got the name "Right-chunk 4". The formal task statement is carried out. Computer realization of method of search of chunks is executed as software "Chunk-creator 4". The estimation of quality is conducted.

Key words: artificial intelligence, computational linguistics, parsing, chunking.

Литература

1. Попов Э.В. Общение с ЭВМ па естественном языке. М.: Едиториал УРСС, 2004. 360 с.

2. Смирное Ю.М., Андреев A.M., Бе.резкмн Д.В., Брик A.B. Об одном способе построения синтаксического анализатора текстов па естественном языке // Изв. вузов. Приборостроение. 1997. Т. 40, 5. С. 34 42.

3. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: Труды Междупар. семинара Диалог'2002: в 2 т. М.: Наука, 2002, Т. 2. С. 180 185.

4. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Ипформ. техпол. 2000. 11. С. 37 40.

5. Ермаков А.Е., Плелико В.В. Ассоциативная модель порождения текста в задаче классификации // Ипформ. техпол. 2000. Л' 12. С. 34 37.

6. Андреев A.M., Березшп Д.В., Брик A.B., Кантонистов Ю.А. Вероятностный синтаксический анализатор для информационно-поисковой системы // Компьютерная хроника. 1999. 1. С. 3 4.

7. Буште.дт В.А., Поляков В.Н. Частичный синтаксический анализатор для корпоративной поисковой системы // Труды Казап. школы по компьютерной и когнитивной лингвистике (TEL-2006). Казань: Отечество, 2007. С. 4 15.

8. Bushtedt V., Pulyakuv V. Finding chunks with rest.ricrion of distance to dependent word // Когнитивное моделирование в лингвистике: Труды IX междупар. копф. Sofia, Bulgaria, 2007. С. 38 47.

9. Кузьмин Ю.Г., Поляков В.П., Шмагина Е.В. Метод лексико-сиптаксических портретов и задача разрешения лексической многозначности // Труды Казап. школы по компьютерной и когнитивной лингвистике (TEL-2006). Казань: Отечество, 2007. С. 139 147.

10. Hall К., Novak V. Corrective modeling for non-project.ive dependency parsing // CProceedings of the 9t.li International Workshop on Parsing Technologies (IWPT). 2005. P. 42 52.

11. Современный русский язык: Лексика и фразеология. Фонетика и орфоэпия. Графика и орфография. Словообразование. Морфология. Синтаксис: Учебник для вузов / Под ред. Д.Э. Розепталя. М.: Высш. шк., 1984. 735 с.

Поступила в редакцию 26.02.09

Поляков Владимир Николаевич кандидат технических паук, доцепт Московского государственного лингвистического университета и Московского института стали и

сплавов, старший научный сотрудник Института языкознания РАН, г. Москва.

E-mail: pvn-65email.ru

Вуштедт Владислав Андреевич аспирант Московского института стали и спла-

E-mail: с1щр_007втай.ги

i Надоели баннеры? Вы всегда можете отключить рекламу.