О статистических закономерностях морфемной базы таджикского языка

Усманов З.Д.; Довудов Г.М.

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _____________________________________2010, том 53, №3___________________________________

ИНФОРМАТИКА

УДК 410:51+414.7+491.550

Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов

О СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЯХ МОРФЕМНОЙ БАЗЫ ТАДЖИКСКОГО ЯЗЫКА

Институт математики АН Республики Таджикистан,

*Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими

В статье предпринимается попытка оценить мощности баз префиксов, корней и постфиксов, предоставляющих возможность с наперед заданной частотой осуществлять автоматический морфологический анализ однокоренных слов таджикского литературного языка.

Ключевые слова: таджикский язык - однокоренное слово - автоматический морфологический анализ - база морфем - префикс - корень - постфикс - частота встречаемости - полнота.

1. Введение. Известно, что плодотворность автоматического морфологического анализа слов естественных языков определяется полнотой описания морфемных баз - корней и аффиксов. В работе [1] комбинаторно-статистическими методами построена достаточно представительная база префиксов, содержащая 66 элементов, а в работе [2] сформирована база из 2533 постфиксов таджикского языка путем применения предложенных авторами так называемых итерационных процедур для пошагового расширения многообразия постфиксов. Что касается базы корней слов, то она так же, как и база постфиксов, создавалась с помощью итерационных процедур. Суть этого метода заключалась в следующем.

С помощью компьютерного морфоанализатора - программы, осуществляющей морфологический анализ таджикских слов, и небольшой начальной базы корней (около 1 000 элементов) в совокупности с ранее упомянутыми базами префиксов и постфиксов осуществлена обработка 3800 страниц текстов на таджикском языке, заимствованных из [3], с общим количеством в 1540019 слов, каждое из которых подвергалось автоматическому мофоанализу.

Морфоанализатор сумел часть слов автоматически разделить на морфы, на другую часть слов был получен отказ. В последнем случае слова оправлялись на анализ эксперту, который выполнял разделение слов «вручную», и получаемые при этом префиксы, корни и постфиксы, если они не содержались в соответствующих базах, в качестве новых элементов добавлялись в уже имеющиеся базы.

Таким образом, был получен “усовершенствованный” компьютерный морфоанализатор, морфемная база которого содержала 66 префиксов, 26 479 корней и 2 533 постфиксов. Морфоанализатор с такими характеристиками обозначим через МА (66, 26 479, 2 533).

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, Душанбе, ул. Ай-ни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

2. Постановка задачи о полноте базы морфем. Вполне понятно, что эффективность компьютерного морфоанализатора (в смысле способности разделения произвольного слова на морфы) тем выше, чем больше элементов содержится в его морфемных базах. Очевидно, что элементные базы префиксов и постфиксов после обработки больших массивов текстовой информации могут быть охарактеризованы с определенной степенью полноты. Иными словами, это значит, что по мере обработки дополнительных текстов частота появления новых аффиксов будет уменьшаться, и их общие количества будут сходиться к конкретным числам. Относительно базы корней можно высказать лишь следующее предположение: если и существует исчерпывающая база корней, то для её описания потребуется, вероятно, обработка текстовой информации на несколько порядков большего объема, чем для формирования базы аффиксов.

Настоящая статья посвящена изучению вопросов, связанных с понятием полноты базы морфов, обеспечивающей определенный количественный уровень осуществления морфологического анализа таджикских слов.

Определение 1. База префиксов обладает р% -м уровнем полноты (0 < р <100), если при обработке произвольного “репрезентативного” текста процент различных слов, в которых обнаруживаются новые префиксы, не превосходит (100 - р)% от общего количества всех различных слов текста.

Определение 2. База постфиксов обладает р% -м уровнем полноты (0 < р <100), если при обработке произвольного “репрезентативного” текста процент различных слов, в которых появляются новые постфиксы, не превосходит (100 - р)% от общего количества всех различных слов текста

Определение 3. База корней обладает р% -м уровнем полноты, если при обработке произвольного “репрезентативного” текста процент различных слов, в которых появляются новые корни, не превосходит (100 - р)% от общего количества всех различных слов текста.

В этих определениях предполагается, что выявление новых морфов производится, вообще говоря, экспертом. Другая важная предпосылка состоит в том, что мы ограничиваемся рассмотрением только однокорневых слов, для которых база аффиксов представляется словарями префиксов и постфиксов, а база корней формируется из однокорневых элементов.

В настоящей статье предпринимаются первые шаги в изучении следующей проблемы: каковыми должны быть мощности словарей префиксов, корней и постфиксов таджикского языка, соответствующие тому или иному процентному уровню их полноты?

3. Первоначальное представление о специфике проблемы получено нами путем статистической обработки случайной выборки, представленной 12 извлеченными из газетных статей текстовыми файлами объемами около 85 000 - 110 000 слов. Обработка выборки производилась следующим образом.

Случайным образом выбранный первый из 12 файлов обрабатывался морфоанализатором МА (66, 26 479, 2 533). Вновь обнаруженные морфы — корни, префиксы и постфиксы — в качестве новых элементов добавлялись в уже имеющиеся базы исходного морфоанализатора, который, тем самым, преобразовывался в новую, более усовершенствованную версию. Далее вновь полученный морфоа-

нализатор применялся для обработки следующего случайно выбранного одного из 11 оставшихся файлов, и опять таки новые морфы использовались для создания следующей версии морфоанализа-тора. Результаты обработки всех 12 файлов показаны в табл.

Таблица

Частота появления новых морфем

№ Количество слов н0 д 3 а х и и 00 к Число отказов Число новых корней однокорневые многокорневые Число новых префиксов Число новых Постфиксов в о сок и ■е е & 0х % корней % постфиксов

1 2 3 4 5 6 7 8 9 10 11 12

1 96696 17911 1194 638 186 452 0 36 0,000 3,562 0,201

2 108074 19686 1120 639 182 457 0 59 0,000 3,246 0,300

3 111096 19877 1022 593 137 456 0 34 0,000 2,983 0,171

4 117599 19563 829 552 117 435 1 35 0,005 2,822 0,179

5 107042 18645 601 378 40 338 0 39 0,000 2,027 0,209

6 87321 14906 438 292 49 243 0 25 0,000 1,959 0,168

7 84218 14280 437 279 35 244 0 28 0,000 1,954 0,196

8 87593 16130 407 260 39 221 0 22 0,000 1,612 0,136

9 84996 15659 439 269 29 240 0 26 0,000 1,718 0,166

10 85542 14546 261 174 18 156 1 24 0,007 1,196 0,165

11 85373 14846 254 176 20 156 0 20 0,000 1,186 0,135

12 84242 15105 306 193 27 166 0 12 0,000 1,278 0,079

1139792 7308 4443 879 3564 2 360

В этой таблице в 1-м столбце даются порядковые номера обработанных файлов; во 2-м столбце указывается количество слов, содержавшихся в файле; в 3-м столбце — число различных слов среди общего количества проанализированных слов; в 4-м столбце приводятся данные о числе отказов, т.е. о тех случаях, в которых морфоанализатору не удается разложить слово на морфы. Это может происходить по причине того, слово содержит новый морф (префикс, корень или постфикс) или же является многокорневым, на анализ которого изначально не настроен морфоанализатор. Именно такие слова передаются на анализ эксперту-лингвисту, который, разделяя слова на морфы, заполняет столбцы 5-9 результатами своей работы. В столбцах 10-12 приводятся выраженные в процентах доли вновь выявленных морфов по отношению к числу различных слов, содержавшихся в тестовом файле.

Последняя, 13-я строка таблицы информирует об окончательных результатах обработки случайной выборки общим объемом в 1 139 792 слов. Из этого количества слов удалось извлечь 2 новых префикса, 4443 новых корней и 360 новых постфиксов. В итоге нами получена новая, более совершенная версия морфоанализатора МА (68, 30 992, 2 893).

Итак, первоначальная база из 66 постфиксов дополнилась только двумя новыми — бидар и хдмедар. В этой связи можно сделать предположение о том, что база префиксов достаточно полная,

и, если есть какие-то другие префиксы, то их появление в тексте - исключительно редкое событие.

Что касается вновь выявляемых корней и постфиксов, то, как показывают данные столбцов 5 и 9, по мере увеличения объема обрабатываемых текстов их числа проявляют выраженную тенденция

к уменьшению. Однако этого еще не достаточно для того, чтобы получить хотя бы приближенную оценку мощностей словарей корней и постфиксов, обеспечивающих полноту автоматического мор-фоанализа таджикских слов.

Полученные результаты указывают, что соответствующую работу по выявлению новых морфов и созданию новых версий морфоанализатора следует продолжить.

Поступило 11.02.2010 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2009, т. 52, № 6, с.431-436.

2. Усманов З.Д., Солиев О.М., Довудов Г.М. - ДАН РТ, 2010, т. 53, № 2, с. 99-103

З.Ч,.Усмонов, Г.М.Довудов*

ОИДИ ЦОНУНИЯТ^ОИ ОМОРИИ БАЗАИ МОРФЕМА^ОИ ЗАБОНИ ТОНИКИ

Институти математикаи Академияи илм^ои Чум^урии Тоцикистон,

*Донишкадаи политехникии Хуцанд дар назди Донишго^и техникии Тоцикистон ба номи М.С.Осими

Дар макола кушиши баходихди иктидори базаи префиксхо, асосхо ва постфиксхо, ки имконияти тахлили автоматии морфологии калимах,ои соддаи забони адабии точикиро аз руи басомади пештармуайяншуда вогузор мекунанд, амалй карда шудааст.

Калимахои калиди: забони тоцикй - калимахои содда - таулили автоматии морфологи - базаи морфема^о - префикс - асос - постфикс - басомад - мукаммали.

Z.D.Usmanov, G.M.Dovudov*,

ON STATISTICAL REGULARITIES OF TAJIK MORPHEME BASIS

Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan,

Khujand’s Polytechnic Institute of the S.Osimi Tajik Technical University In the article an attempt to estimating the database powers of Tajik roots, prefixes and postfixes, allowing a possibility with a preassigned level to realize automatic morphological analysis for single-root words of literature tajik, is undertaken.

Key words: Tajik - single-root word - automatic morphological analysis - morpheme basis - prefix- root -postfix - frequency of meeting - completeness.

О статистических закономерностях морфемной базы таджикского языка Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З. Д., Довудов Г. М.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Усманов З. Д., Довудов Г. М.

Текст научной работы на тему «О статистических закономерностях морфемной базы таджикского языка»