Научная статья на тему 'Концептуальная модель автоматического морфологического анализа таджикских словоформ'

Концептуальная модель автоматического морфологического анализа таджикских словоформ Текст научной статьи по специальности «Математика»

CC BY
333
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / СЛОВОФОРМА / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / TAJIK LANGUAGE / WORD FORM / MORPHOLOGICAL ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Усманов З. Д., Довудов Г. М.

Морфологический анализ словоформы представлен в виде блок-схемы, отражающей концепцию функционирования отдельных частных подсистем и системы в целом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Conceptual model of automatic morphological analysis of tajik word forms

Morphological analysis of tajik word forms is presented in a block-scheme form describing the concept of functioning parts of subsystems as well as the system in whole.

Текст научной работы на тему «Концептуальная модель автоматического морфологического анализа таджикских словоформ»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2014, том 57, №3_

ИНФОРМАТИКА

УДК 81'322::811.222.8::519.25

Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов

КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ АВТОМАТИЧЕСКОГО МОРФОЛОГИЧЕСКОГО АНАЛИЗА ТАДЖИКСКИХ СЛОВОФОРМ

Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета

им. акад. М.С.Осими

Морфологический анализ словоформы представлен в виде блок-схемы, отражающей концепцию функционирования отдельных частных подсистем и системы в целом.

Ключевые слова: таджикский язык - словоформа - морфологический анализ.

Известно, что однокорневые словоформы таджикского языка могут принадлежать одной из четырёх возможных структур - Я , РЯ 0 Я , РЯ 0 Я 0 РЯ , Я Ф РЯ, обозначающих, что слово может состоять, соответственно, из одного корня R; из префикса PR и корня R ; префикса PR, корня R и постфикса PS и, наконец, из корня R и постфикса PS. Данные о частотах таких структур среди словоформ и словоупотреблений приведены в таблице (см.[1]).

Таблица

Распределение частот встречаемости словоформных структур (в %)

R PR Ф R PR Ф R Ф PS RФ PS Всего

среди словоформ 16.19 1.58 8.66 73.57 100

среди словоупотреблений 46.06 1.18 4.82 47.94 100

В соответствии со спецификой таджикского языка и определениями, сформулированными в [2], будем различать три типа словоформ, именно - словоизменительные, словообразовательные и словосочетательные. Структуры вида R и PR Ф Я с нулевым (пустым) постфиксом будем относить к словоизменительным ^овоформам.

Под задачей морфологического анализа таджикских однокоренных словоформ будем понимать выполнение следующих 4-х процедур:

1 - разложение словоформы WF на морфы, которое в общем случае представляется в виде

WF = РЯ Ф Я Ф PS1 Ф PS2,

где суффикс PS1 и окончание PS2 выступают в качестве парадигмообразующего и парадигмофор-мирующего постфиксов;

2 - распознавание части речи и граммем корня R;

3 - определение типа заданной словоформы;

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

4.1 - определение основы, части речи и граммем словоформы, если она является словоизменительной или словообразовательной;

4.2 - представление словоформы в виде сочетания словоформ, если она является словосочета-тельной, и определение основы, части речи и граммем каждой словоформы.

Для целей морфоанализа будем различать 16 частей речи - исм (имя существительное), сифат (имя прилагательное), шумора (имя числительное), цонишин (местоимение), феъл (глагол), масдар (инфинитив), сифати феълй (причастие), феъли цол (деепричастие), зарф (наречие), пешо-янд (предлог), пасоянд (послелог), пайвандак (союз), уиссача (частица), нидо (междометие), кали-маи тацлиди овози (звукоподражательное слово), нумератив1. Среди них предлог, послелог, союз, частица и междометие являются неизменяемыми.

Для решения рассматриваемой задачи разработан компьютерный морфоанализатор в составе морфораспознавателя и 16 частных подсистем, предназначенных для морфологического анализа словоформ, корни которых принадлежат той или иной части речи.

1. Агрегированная модель морфоанализа таджикских словоформ представлена на рисунке. Её агрегированность выражается в том, что в ней одновременно заключены концепции функционирования, с одной стороны, каждой из 16 частных подсистем и, с другой стороны, системы в целом.

^ НАЧАЛО^

шр ^{ря © ЯШРБ1 © РБ2, О(Я)}

0)

{ря © Я, О(Я), 1п( {бш(РЯ © Я), О(БШ), Т(РЯ © Я), О(РЯ © я)}

®

(8)

®

^ КОНЕЦ

шр, о(шр),т (шр) бш (шр), о(бш )

БШ (ря©я©рб1) о(БШ), РБ, О{РБ ), Т (цр^

Р1©Я©Р5'1.

1О(РЯ © Я © рБ1),рБ \бш (ря © Я © рб 1), 1о(ВШ ), рб ,о(рб ),т (шр )

{ря © Я © РБ1, о(я), 1п/}~ {бш(ря © Я © РБ1) 0(бш), Т(ря © Я © РБ1),о(ря © Я © РБ1)}

Рис. Принципиальная блок-схема морфологического анализа.

На этом рисунке приняты следующие обозначения: WF - словоформа, РЯ - префикс, Я -корень, РБ1 - суффикс (парадигмообразующий), РБ2 - окончание (парадигмоформирующее), BW -

1 Использование 16-и частей речи вместо общепринятых 10-и обусловлено объективными потребно-

стями процесса морфоанализа

основа словоформы, FS - словосочетание, эквивалентое по смыслу сочетанию словоформ (фрагмент предложения); О(/) , БЖ (/), Т(/) - функции для определения соответственно граммем, основы и типа (словоизменительный, словообразовательный или словосочетательный) аргумента /, причём / может принимать значения РЯ 0 Я , Я , РЯ 0 Я 0 РЯ1, Я 0 РЯ1. Кроме того, тип префикса (постфикса) обозначен через . Если морф - словоизменительный, то = 1, иначе = 0.

2. Последовательность выполнения процедур морфологического анализа. Согласно рисунку, морфоанализ начинается с ввода словоформы WF. На этом этапе морфораспознаватель [3] выполняет две первые процедуры задачи морфоанализа:

- раскладывает WF на морфы,

- определяет часть речи и список граммем корня R .

Далее решается вопрос, содержит ли анализируемая словоформа префикс. Если ответ - положительный, то выполняется операция пункта 1, если - отрицательный, то пункта 2.

В п.1 в зависимости от того, является ли префикс словоизменительным или нет, символу присваивается значение 1 или 0. После чего происходит переход к п.3, в котором по фрагменту РЯ 0 Я словоформы WF, граммемам корня Я и информации о типе префикса определяются основа БЖ (РЯ 0 Я) фрагмента РЯ 0 Я , её граммемы О (БЖ), тип Т (РЯ 0 Я) и граммемы

О (РЯ 0 Я) фрагмента РЯ 0 Я . Отметим, что фрагмент РЯ 0 Я вовсе не обязан совпадать с

основой. Если РЯ - словоизменительный, то БЖ(РЯ 0 Я) = Я . Например, в словоформе "мерафт"

РЯ =" ме" является словоизменительным. Следовательно, БЖ(ме 0 рафт) ="рафт".

Если РЯ - словообразовательный, то БЖ (РЯ 0 Я) = РЯ 0 Я . Например, в словоформе

"боодоб" РЯ = " бо" является словообразовательным. Следовательно, БЖ (бо 0 одоб) =" боодоб", то есть основа совпадает с фрагментом.

В п.2 проверяется наличие постфикса РЯ1. Если да, то переход к п.4, иначе в п.5. В п.4 в зависимости от того, является ли постфикс словоизменительным или нет, символу 1пГ присваивается значение 1 или 0. После чего происходит переход к п.6, в котором по фрагменту РЯ 0 Я 0 РЯ1 словоформы WF, граммемам корня Я и информации о типе постфикса определяются основа БЖ (РЯ 0 Я 0 РЯ1) фрагмента РЯ 0 Я 0 РЯ1, её граммемы О (БЖ), тип

Т (РЯ 0 Я 0 РЯ1) и граммемы О (РЯ 0 Я 0 РЯ1) фрагмента РЯ 0 Я 0 РЯ1. Отметим, что фрагмент РЯ 0 Я 0 РЯ1 вовсе не обязан совпадать с основой. Если РЯ1 - словоизменительный, то БЖ (РЯ 0 Я 0 РЯ1) = (РЯ 0 Я) А Я (символ л обозначает логическое "или"). Например, в

словоформе "хдмпешагон" постфикс РЯ1 = " гон" является словоизменительным. Следовательно, БЖ (хам 0 пеша 0 гон) =" хампеша".

Если РЯ1 - словообразовательный, то БЖ (РЯ 0 Я 0 РЯ1 )= РЯ 0 Я 0 РЯ1 л Я 0 РЯ1.

Например, в словоформе "хдмпешаги" постфикс РЯ1 =" ги" является словообразовательным. Следовательно, БЖ (хам 0 пеша 0 ги) = " хампешаги", то есть основа совпадает с фрагментом.

В п.5 проверяется наличие постфикса РЯ2. Если постфикс есть, то переход к п.7, иначе к п.8. В п.8. по фрагменту РЯ 0 Я 0 РЯ словоформы WF, граммемам О (РЯ 0 Я 0 РЯ1),

фрагменту РЯ 0 Я 0 РЯ и постфиксу РЯ определяются основа БЖ (РЯ 0 Я 0 РЯ1) фрагмента

РЯ 0 Я 0 РЯ1, её граммемы О(БЖ) , тип Т (ЖР) и граммемы О(РЯ 0 Я 0 РЯ1) фрагмента

РЯ 0 Я 0 РЯ1. Далее с помощью специального алгоритма, который приведён в [2], словосочета-тельная словоформа разворачивается в виде сочетания словоформ РЯ с присоединением граммем каждой словоформы О (РЯ) .

В п.8 и п.9 представлены окончательные итоги морфоанализа словоформы.

Поступило 23.12.2013 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Довудов Г.М. Частотный морфемный словарь таджикского литературного языка . -Доклады Академии наук Республики Таджикистан, 2010, т.53, № 4, с. 257- 262.

2. Усманов З.Д., Довудов Г.М. Алгоритм представления таджикских словосочетательных словоформ фрагментами предложений. - Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2013, №. 4 (153), с.69-76.

3. Усманов З.Д., Довудов Г.М.Формирование базы морфов таджикского языка - Душанбе: Дониш, 2014, 109 с.

3.Ч,.Усмонов, Г.М.Довудов*

МОДЕЛИ КОНСЕПТУАЛИИ ТА^ЛИЛИ АВТОМАТИИ МОРФОЛОГИИ

КАЛИМА^ОИ ЗАБОНИ ТОЧ,ИКЙ

Институтиматематика ба номи А.Цураев, Академияи илмх;ои Цум^урии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд

Тахлили морфологии калима дар намуди блок-схема, ки консепсияи пешрафти зерсистемахои хусусии алохида ва системаро дар пуррагй инъикос мекунад, оварда шудааст. Калима^ои калиди: забони тоцикй - калима - таулили морфологи.

Z.D.Usmanov, G.M. Dovudov

CONCEPTUAL MODEL OF AUTOMATIC MORPHOLOGICAL ANALYSIS OF

TAJIK WORD FORMS

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University

Morphological analysis of tajik word forms is presented in a block-scheme form describing the concept of functioning parts of subsystems as well as the system in whole. Key words: Tajik language - word form - morphological analysis.

i Надоели баннеры? Вы всегда можете отключить рекламу.