Научная статья на тему 'Метод и алгоритм распознавания глаголов в предложениях таджикского языка'

Метод и алгоритм распознавания глаголов в предложениях таджикского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
450
133
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
таджикский язык / глагольная конструкция / группа сказуемого / алгоритм / морфологический анализ / Тajik language / structural types of verbs / Algorithm / the morphological analysis

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гращенко Л. А., Собиров Д. Д.

В статье описывается метод и приводится модельный алгоритм распознавания глагольных конструкций в предложениях таджикского языка. Результаты основаны на ранее разработанных моделях глагольных парадигм и перечне структурных типов глаголов таджикского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In article the method and the algorithm of verbal constructions recognition to Tajik language is offers. Results are based on earlier developed models of verbal paradigms and the list of structural types of verbs of the Tajik language.

Текст научной работы на тему «Метод и алгоритм распознавания глаголов в предложениях таджикского языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2012, том 55, №2____________________________________

ИНФОРМАТИКА

УДК 004.414.32::655.24:811.222.8

Л.А.Гращенко, Д.Д.Собиров*

МЕТОД И АЛГОРИТМ РАСПОЗНАВАНИЯ ГЛАГОЛОВ В ПРЕДЛОЖЕНИЯХ ТАДЖИКСКОГО ЯЗЫКА

Институт математики АН Республики Таджикистан,

Таджикский национальный университет

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым)

В статье описывается метод и приводится модельный алгоритм распознавания глагольных конструкций в предложениях таджикского языка. Результаты основаны на ранее разработанных моделях глагольных парадигм и перечне структурных типов глаголов таджикского языка.

Ключевые слова: таджикский язык - глагольная конструкция - группа сказуемого - алгоритм -морфологический анализ.

В рамках решения задачи автоматического распознавания и анализа глаголов таджикского языка (ТЯ) [1] предметной области разработки русско-таджикско-русских систем машинного перевода [2] значимым этапом является моделирование и алгоритмизация процесса выделения в таджикских текстах глагольных конструкций (ГК) (группы сказуемого). Информационными основами для этого являются схема глагольных парадигм ТЯ и перечень структурных типов конструкций таджикских глаголов, приведённые в [1].

После этапа графематического анализа текста произвольное таджикское предложение S представляется в виде последовательности wШw2s2...wNsN словоформ wi, разделённых цепочками служебных символов si. Результатом процедуры автоматического распознавания группы сказуемого VR(S) является множество всех непересекающихся подпоследовательностей словоформ, представляющих глаголы или глагольные конструкции (ГК) ТЯ в данном предложении:

УЯ(8)= ((-^т.. 0 < _іт - іт < 5.

Пример. VR('Вахту соаташ буд шавад хеч ки хеч кор карда наметавонад.') = {(буд ша-вад),(кор карда наметавонад)}.

Отметим, что в качестве результата работы процедуры могут быть использованы интервалы индексов словоформ ГК в предложении.

Под глагольной конструкцией в ТЯ в дальнейшем будет пониматься семантически целостная (неделимая) последовательность словоформ, представляющая в предложении сказуемое -глагол (простой, сложно-именной, сложно-деепричастный и составной) или его сочетание с другими частями речи (конструкция). В данном исследовании мы ограничимся вопросом распозна-

Адрес для корреспонденции: Гращенко Леонид Александрович. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1, Институт математики АН РТ. E-mail: graschenko@mail.ru.

Собиров Джамшед Джалолович. Таджикский национальный университет, 734025, Республика Таджикистан, г. Душанбе, пр. Рудаки, д. 17. E-mail: jamshed_corp@mail.ru.

вания простых и сложных глаголов. Анализ перечня структурных типов конструкций таджикских глаголов позволил выдвинуть следующие утверждения [1]:

- в составе ГК могут быть словоформы, представляющие простые глаголы (V), причастия и деепричастия (Part), имена существительные, прилагательные и местоимения (N) и предлоги (Pr);

- длина ГК ограничена шестью словоформами;

- словоформы ГК не могут быть разделены знаками пунктуации;

- предлог в ГК ТЯ может быть только первой словоформой;

- последней словоформой ГК может быть только простой глагол.

Моделирование процедуры автоматического распознавания ГК производится в предположении, что существует процедура, разбивающая произвольную словоформу ТЯ на корни и аффиксы и ставящая ей в соответствие информацию о части речи, представленную данной словоформой (POS-tagger, частеречевой тэггер). В качестве такой процедуры может выступать детерминированный морфоанализатор, разработанный в работе [3], или вероятностный морфоа-нализатор, предложенный в [4].

Так как простые глаголы ТЯ состоят только из одного корня, представленного основой настоящего или прошедшего времени, к которому прибавляются известные префиксы и постфиксы, то распознавание простого глагола производится путём идентификации морфов по словарным базам. Для глаголов корнем будем считать основу прошедшего времени, так как от неё производится большее количество глагольных форм (19 против 3) и имеется некоторое количество глаголов (побудительных), имеющих разные формы основы прошедшего времени, но одинаковую основу настоящего времени. Аналогично производится распознавание отглагольных причастий и деепричастий. Для упрощения вычислений на этапе предморфологического анализа POS-tagger строится на основе конечного автомата (дерева решений).

В рамках предварительных эмпирических исследований была проведена автоматизированная фильтрация словаря [5, 6] (объём 80 тыс. словарных статей) с привлечением эксперта, в результате чего было выделено 746 простых глаголов ТЯ в форме инфинитива, из которых 398 -производные отыменные глаголы. Из 348 непроизводных глаголов за счёт исключения префиксов выделено 214 глагольных основ прошедшего времени.

На основе схемы парадигм глаголов [1] получен исчерпывающий перечень глагольных постфиксов. Для спряжения к глагольной основе настоящего или будущего времени может присоединяться цепочка из множества {-‘ ‘, -а, -агй, - агист}, а далее следовать личное окончание либо краткая глагольная связка, объединение множеств которых даёт множество {‘ ‘, -ам, -й, -ад, -ем, -ед, -анд, -аст}. Общее число комбинаций постфиксов, за исключением случая отсутствия такового, равно 31. Для производных отыменных глаголов, основа которых образована конкатенацией к имени постфиксов -ид или -онид, может рассматриваться расширенное множество постфиксов мощностью 95.

Перечень глагольных префиксов получен из работ [2, 7]: простых 13, сложных 35, всего

Распознавание глагольных конструкций сложнее и подчас носит вероятностный характер за счёт пересечения паттернов (их вложенности). Так как POS-tagger требует большого количества обращений к БД (словарям), то логично минимизировать количество случаев его применения, которое зависит от числа слов в предложении. Для этого предлагается применять сегментацию предложения за счёт учёта знаков препинания, имён собственных, аббревиатур, наречий, союзов и частиц (неизменяемых частей речи ТЯ), оформленных в виде короткого стоп-словаря, то есть на основе информации графематического анализатора. Внутри сегментов анализ глагольных конструкций (то есть поиск паттернов) осуществляется на длину, не превышающую минимум из значений длины сегмента и максимальной длины паттерна ГК (6).

Предлагаемый метод поиска ГК предполагает исключение заведомо непригодных к роли элементов ГК словоформ путём последовательного применения фильтрующих процедур, с поэтапным наращиванием их вычислительной сложности. Так, сначала используются правила, оперирующие уже имеющейся после графематического анализа информацией. Затем на основе первичного анализа частей речи производится поиск простых глаголов и идентификация предшествующих им словоформ. Последним и наиболее вычислительно затратным уровнем является применение правил, учитывающих соотношения морфологических характеристик анализируемых последовательностей словоформ.

Для процедур морфоанализа и распознавания нужны дополнительные информационные базы (стоп-лист, базы аффиксов, корней и шаблонов), которые будут уточняться по мере практического использования алгоритма.

Предлагается следующий алгоритм поиска ГК в предложении ТЯ, иллюстрация применения которого к анализу предложения «Халима метавонист хушбахт бошад, валекин хдма вакт барои бадбахтихои у барона меёфт» приведена на рис. 1:

1. Исходное предложение сегментируется цепочками служебных символов, содержащих разделители - знаки препинания. Полученные сегменты в свою очередь членятся на подпоследовательности словоформ путём исключения из рассмотрения слов с заглавной буквы, союзов, аббревиатур, наречий, местоимений, идиом (из специально сформированного стоп-листа) на основе разметки, полученной на этапе графематического анализа (этап 2 на рис. 1). В рассматриваемом примере исключаются из рассмотрения союз «валекин», предлог «барои» и местоимения «хдма», «у». Заметим, что словосочетание «бадбахтихо у» в ТЯ эквивалентно словоформе «бадбахтихояш», поэтому перед выполнением данного этапа предполагается так называемая внутриязыковая нормализация.

2. В каждом сегменте последовательно от конца к началу применяется процедура POS-тэггера на предмет нахождения простого глагола. Если простой глагол не найден, то сегмент не содержит ГК (этап З на рис. 1).

3. В сегменте, в котором найден простой глагол, на глубину, равную длине сегмента, но не более пяти, последовательно определяются части речи предшествующих простому глаголу словоформ (этап 4 рис. 1). При несоответствии части речи очередной словоформы дереву решений (рис. 2) происходит останов процедуры. В результате отработки данного этапа формируется список допустимых вложенных паттернов последовательности словоформ, упорядоченный по длине. Это - кандидаты на роль ГК.

4. Если список кандидатов ГК содержит более одной записи (случай простого глагола), то он прореживается путём применения дополнительных правил, основанных на списке запрещённых аффиксов и информации о вспомогательных глаголах (этап 5 рис. 1).

5. Результирующей ГК является запись максимальной длины, оставшаяся после процедуры прореживания.

ГХалима метавонист хушбахт бошад, валекин хама вакт барои бадбахтихо у бахона меёфтЛ 1. Графематический анализ

алима! метавонист]

г^хушбах^ бошад^Валеки^'|хам^ваУ^'|баро'^'|бадбахти^'|^''|бадон^|меёфТ'-]

2. Сегментация

(Халим^ ^етавонис^ (хушбахД (бошад) (валекишкама) (вакГ ^^аро^^адбахтих^(у)(бахон^^еёфт

Сегмент 1 \Сегмент у^^^І^Сетент 3 Сегмент 4 )

3. Поиск простых глаголов

(Халим^ (метавонис^ (хушбахт (бошаді

4 :=Шг

Ґ Не Л Ґ Не

I найдено ) I найдено

юахонашеёфт)

4------А

4. Определение частей речи (Р08-тэггинг)

N - V - N - V

N - V

5. Фильтрация возможных цепочек

V - N - V метавонист хушбахт бошад бах,°ш меёфт ^4 ”N - V

N - V ------------------------ ------------- V

V

Рис. 1. Порядок распознавания глаголов в предложении ТЯ.

Для рассматриваемого примера были найдены два глагола - это цепочки «метавонист хушбах,т бошад» и «бахона меёфт», что говорит о том, что предложение сложносочиненное.

Приведённый алгоритм предполагается реализовать в виде проблемноориентированного программного стенда, предназначенного для определения встречаемости различных типов глагольных конструкций ТЯ, уточнения системы правил фильтрации ложных ГК. После выполнения указанного этапа разработанный алгоритм и информационные базы к нему станут доступны для практического применения в перспективных системах автоматической обработки текстов на таджикском языке, в том числе в системе таджикско-русского машинного перевода [2].

Поступило 12.12.2011 г.

ЛИТЕРАТУРА

1. Собиров Д.Д, Гращенко Л.А., Усманов З.Д. - Изв. АН РТ. Отд. физ.-мат., хим., геол. и техн. Н., 2011, №3, с. 41-46.

2. Гращенко Л.А., Клышинский Э.С., Тумковский С.Р., Усманов З.Д. - ДАН РТ, 2011, т. 54, №4, с. 279-285.

3. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2010, т. 53, № 4, с. 257-262.

4. Гращенко Л.А. Математические основы автоматизированной таджикско-персидской конверсии графических систем письма: Автореф. ... дис. к.физ.-мат.н. - Душанбе: ИМ АН РТ, 2010, 19 с.

5. Таджикско-русский словарь, т.1 /Под ред. С.Д.Холматовой, С. Солехова, С. Каримова. - Душанбе: Дониш, 2004, 388 с.

6. Таджикско-русский словарь, т.2 /Под ред. Д. Саймиддинова, С.Д. Холматовой, С. Каримова. -Душанбе: Дониш, 2005, 461 с.

7. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2009, т. 52, № 6, с. 431-436.

Л.А.Грашенко, Ч,>Ч,>Собиров*

УСУЛ ВА АЛГОРИТМИ БОЗШИНОСИИ СИНФИ ХАБАР ДАР ЧУМЛА^ОИ ЗАБОНИ ТОЧИКЙ

Институти математикаи Академияи илмх;ои Цум^урии Тоцикистон,

*Донишго%и миллии Тоцикистон

Дар макола усул ва модели алгоритми бозшиносии сохторхои феълй дар чумлахои забо-ни точикй ифода шудааст. Натичахо дар моделхои чадвали тасрифи феълхо ва фехристи таркибхои феълии забони точикй, ки каблан сохта шудаанд асос ёфтаанд.

Калима^ои калиди: забони тоцикй - сохтори феълй - синфи хабар - алгоритм - таулили морфологи.

L.A.Graschenko, D.D.Sobirov*

METHOD AND ALGORITHM OF VERBS RECOGNITION IN TAJIK

SENTENCES

Institute of Mathematics, Academy of Sciences of Republic Tajikistan,

Tajik National University

In article the method and the algorithm of verbal constructions recognition to Tajik language is offers. Results are based on earlier developed models of verbal paradigms and the list of structural types of verbs of the Tajik language.

Key words: Tajik language - structural types of verbs - algorithm - the morphological analysis.

i Надоели баннеры? Вы всегда можете отключить рекламу.