ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2010, том 53, №2____________________________________
ИНФОРМАТИКА
УДК 410:51+414.7+491.550
Академик АН Республики Таджикистан З.Д.Усманов, О.М.Солиев*, Г.М.Довудов*
О МНОЖЕСТВЕ ПОСТФИКСОВ ТАДЖИКСКОГО ЛИТЕРАТУРНОГО ЯЗЫКА
Институт математики АН Республики Таджикистан,
Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
Статья посвящена пошаговому расширению базы постфиксов таджикского литературного языка на основе итерационных процедур, применяемых к репрезентативным текстам. Сформирована база из 2533 постфиксов с их частотами встречаемости.
Ключевые слова: таджикский язык - математическая статистика - репрезентативная выборка -итерация - база постфиксов - частота встречаемости.
1. Введение. В работе [1] предпринята попытка исчерпывающего описания множества префиксов таджикского языка. В настоящем исследовании аналогичная попытка предпринимается для описания всего многообразия постфиксов и выявления свойственных ему статистических закономерностей.
Напомним ряд определений относительно составных частей слова, применимых к таджикскому языку и используемых нами в дальнейшем [2].
Определение 1. Корень - основная значимая часть слова.
Корень является обязательной частью любого слова, которое, в свою очередь, не существует без корня.
Определение 2. Аффикс - вспомогательная часть слова, присоединяемая к корню и служащая для словообразования и выражения грамматических значений.
Аффиксы лишь в сочетании с корнями образуют слово.
Определение 3. Постфикс - часть слова, следующая непосредственно после корня и состоящая, вообще говоря, из суффикса и окончания.
Определение 4. Суффикс - разновидность аффикса, морфема, следующая за корнем и предшествующая окончанию.
Определение 5. Основа - часть слова, остающаяся после отсечения окончания.
Основа может равняться корню, включать приставки, суффиксы.
2. Итерационные процедуры для расширения множества постфиксов. В работе [1] множество префиксов таджикского языка (простых, двойных и тройных) выявлялось путем применения комбинаторно - статистических методов. Для этих целей предполагалось, что нам известны все простые префиксы и, кроме того, любой двойной или тройной префикс образуется конкатенацией соответствующего числа простых префиксов.
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, Душанбе, ул. Ай-ни, 299/1, Институт математики АН РТ. E-mail: [email protected]
Для множества постфиксов имеет место аналогичная ситуация. Перечень простых постфиксов, сформированных на основе лингвистических источников, собственных исследований, а также [3], в настоящее время насчитывает не менее 113: а, ад, ак, ам, ан, анд, андар, аст, ат, аш, бон, бор, вй, ванд, вар, ваш, ви, вода, вон, вор, вот, ву, вум,., я, яд, як, ям, ян, янд, яст, ят, яш.
Так же как и для префиксов, среди постфиксов различаются простые, двойные, тройные и т.д., даже восьмерные. Если составить всевозможные комбинации из двух, трех, ...и восьми простых
постфиксов, то общее число виртуальных постфиксов будет оцениваться величиной 2.0829 -1016. Если положить, что для хранения простого постфикса требуется 2.5 байта компьютерной памяти, то для всей базы постфиксов понадобится порядка 4.16-108 Гб памяти. Такой грандиозный объем данных не позволяет применить комбинаторно-статистический метод анализа для определения всех постфиксов таджикского литературного языка по подобию тому, как это было сделано для случая префиксов. Именно по этой причине мы воспользовались итерационными процедурами для пошагового расширения многообразия постфиксов. Суть этого подхода состоит в следующем.
Создается программа, которая по заданным базам корней, префиксов и постфиксов осуществляет автоматический морфологический анализ слова, и формируется репрезентативная база текстов таджикского литературного языка, в нашем случае - объёмом в 3800 страниц с общим количеством 1540019 слов, заимствованная из [4].
Шаг 1. Из уже имеющихся множеств корней, префиксов и постфиксов формируются соответствующие базы данных. Обработка этих данных с помощью программы морфоанализа выявляет множество слов, не поддающихся разделению на морфы. Такие слова анализируются «вручную» и полученные корни и постфиксы, если они не содержатся в базе, в качестве новых элементов добавляются в уже имеющиеся базы.
Шаг N. Повторяет шаг 1.
3. Вычислительные эксперименты стартовали с баз данных, содержавших 66 префиксов, 270 постфиксов и 6 000 корней. Было выполнено N = 10 итераций (шагов), в результате которых число постфиксов возросло до 2533 и число корней - до 25 323. Число префиксов не изменилось.
4. Результаты экспериментов
4.1. Среди 1540019 обработанных слов оказалось различными 90 920. Первая информация о полученных результатах представлена в табл. 1.
В этой таблице в первом столбце показаны девять уровней сложности постфиксов. Простой постфикс отмечен цифрой 1, цифрами 2,3,...,8 представлены сложные постфиксы, составленные соответственно из 2,3,.,8-и простых постфиксов; цифра 0 применяется для обозначения пустого постфикса (постфикса нет). Во втором столбце приводятся абсолютные значения количества постфиксов соответствующих уровней сложности, встретившихся среди 1540019 слов. В третьем столбце указано количество слов, в которых выявлены постфиксы соответствующих уровней сложности. В четвертом столбце приводится выраженная в процентах частота встречаемости постфиксов того или иного уровня сложности по отношению к общему числу обработанных слов.
Таблица 1
Частота встречаемости постфиксов различных уровней сложности
Уровень сложности Количество постфиксов Количество слов Частота встречаемости
0 0 722215 46.89649933
1 113 604481 39.25152871
2 755 171315 11.1242134
3 1017 36330 2.359061804
4 540 5478 0.355709897
5 86 176 0.01142843
6 17 20 0.001298685
7 3 3 0.000194803
8 2 2 6.49343Е-05
Из табл. 1 следует, что около половины слов, используемых в литературных текстах, обходятся без использования постфиксов, и наиболее часто встречающимися являются слова с простыми постфиксами (39.25%), за ними - слова с двойными постфиксами (11.12%). Слова с постфиксами не менее шестого уровня сложности встречаются в текстах чрезвычайно редко, не чаще одного раза среди 100 000 слов. Отметим, что к восьмому уровню сложности отнесены нами постфиксы типа ият-ноктаринатонро с учетом его разложения в виде и-ят-нок-тар-ин-ат-он-ро.
4.2. Установлены частоты встречаемости 113 простых постфиксов (табл. 2).
Таблица 2
Частота встречаемости простых постфиксов
№ Р« X № Р« X № Р« X
1 и 16.6254 39 яш 0.0395 77 ви 0.0018
2 й 3.0197 40 ак 0.0371 78 вон 0.0018
3 а 2.7856 41 ик 0.0332 79 овна 0.0016
4 ад 2.2497 42 ванд 0.0318 80 када 0.0013
5 р° 1.7377 43 гох 0.0315 81 монанд 0.0011
6 анд 1.6786 44 нок 0.0315 82 изм 0.0008
7 у 1.5426 45 гон 0.0309 83 осо 0.0008
8 хо 1.1248 46 гор 0.0278 84 гах 0.0007
9 е 1.0900 47 онд 0.0263 85 тоб 0.0007
10 ам 1.0083 48 ча 0.0224 86 вум 0.0006
11 ан 0.7390 49 ор 0.0209 87 як 0.0006
12 он 0.7235 50 я 0.0200 88 етон 0.0006
13 ем 0.5482 51 гар 0.0186 89 навард 0.0006
14 аш 0.4170 52 ок 0.0162 90 ваш 0.0005
15 ин 0.3894 53 хон 0.0144 91 ино 0.0005
16 ов 0.3294 54 дон 0.0138 92 ч,от 0.0005
17 ед 0.3253 55 ят 0.0134 93 андар 0.0004
18 яд 0.2562 56 ович 0.0134 94 д 0.0003
19 тар 0.2338 57 вор 0.0121 95 евна 0.0003
20 ат 0.1533 58 чй 0.0096 96 нгй 0.0003
21 от 0.1519 59 бон 0.0094 97 стон 0.0003
22 ид 0.1455 60 зор 0.0090 98 нгар 0.0002
23 янд 0.1445 61 аст 0.0076 99 у 0.0001
24 иш 0.1377 62 гин 0.0060 100 лох 0.0001
25 ву 0.1311 63 гун 0.0059 101 м 0.0001
26 о 0.1244 64 вот 0.0055 102 пона 0.0001
27 ю 0.1079 65 то 0.0049 103 шан 0.0001
28 ст 0.1026 66 вар 0.0047 104 ум 0.0001
№ Р« X № Р« X № Р« X
29 гй 0.0901 67 вода 0.0047 105 ёнд 0.0001
30 ч,он 0.0867 68 сор 0.0047 106 нги 0.0001
31 ев 0.0753 69 чи 0.0045 107 нда 0.0001
32 ён 0.0731 70 ё 0.0045 108 но 0.0001
33 ова 0.0701 71 ёт 0.0043 109 фом 0.0001
34 вй 0.0663 72 бор 0.0037 110 хак 0.0001
35 ям 0.0649 73 сон 0.0024 111 чак 0.0001
36 манд 0.0482 74 ги 0.0023 112 юш 0.0001
37 ум 0.0434 75 евич 0.0023 113 яст 0.0001
38 юм 0.0400 76 ян 0.0021
В этой таблице в первом столбце дана нумерация постфиксов, во втором - список самих постфиксов, в третьем - частота их встречаемости в % к общему количеству слов.
4.3. В этом пункте обсуждаются результаты статических исследований полноты баз данных корней, префиксов и постфиксов, то есть рассматривается вопрос о том, насколько полноценно используемые базы корней (25 323), префиксов (66) и постфиксов (2533) способны обеспечить морфологический анализ произвольного таджикского литературного текста.
Для этих целей была извлечена дополнительная выборка объемом в 540 страниц из газет и журналов, содержавшая 333679 слов, из которых различных - 145516. Выборка была подвергнута компьютерной обработке. Оказалось, что 6351 слово (из них различных - 5393) не поддалось автоматическому морфоанализу, т.е. зарегистрировано 1.9033% (3.70612%) отказов к общему числу подвергнутых анализу слов.
Основная причина отказов обуславливалась присутствием в текстах слов иностранного происхождения, собственных имен и орфографических ошибок в написаниях слов. Появление новых корней и постфиксов составляло незначительную долю от общего числа отказов.
В заключение отметим, что полученное в статье множество постфиксов совместно с известным ранее множеством префиксов образуют достаточно представительную базу аффиксов, которая послужит основой для решения фундаментальной проблемы информатизации таджикского языка -создания компьютерной системы для реализации автоматического морфологического анализа таджикских слов.
Поступило 13.01.2010 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2009, т. 52, № 6, с.431-436.
2. Столярова Л.П., Пристайко Т.С., Попко Л.П. Базовый словарь лингвистических терминов, Морфема - Википедия.
3. Исмаилов М.А. - Основы автоматизированного морфологического анализа слов таджикского языка - Душанбе: Институт математики АН РТ, 1994, 156 с.
4. Худойбердиев Х.А. - Комплекс программ синтезирования таджикской речи по тексту. Автореф. дисс. к. физ.-мат. н. - Душанбе, 2009, 18 с.
З.Ч,.Усмонов, О.М.Солиев*, Г.М.Довудов*
ОИДИ МАЧ,МУИ ПОСТФИКС^О ДАР ЗАБОНИ АДАБИИ ТО^ИК
Институти математикаи Академияи илмх;ои Цум^урии Тоцикистон,
Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд
Макола барои мyкаммал намyдани базаи постфиксх,ои забони адабии точик бахшида шyдааст. Дар он бо истифодаи протседyраи иттератсиони, ки барои мачмуи матнх,о татбик карда мешавад, базаи постфиксх,о, ки аз 2533 постфикс иборат аст бо зуддии вохуриашон сохта дода шудааст.
Калима^ои калиди: забони тоцикй - математикаи статистики - матн - итерация - мацмуи постфиксуо - зуддии вохурй.
Z.D.Usmanov, O.M.Soliev*, G.M.Dovudov*
ON A SET OF POSTFIXES OF TAJIK LITERATURE LANGUAGE
Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan,
Khujand’s Politecnic Institute of the M.S.Osimi Tajik Technical University The article is dedicated to constructing a base of Tajik language literature postfixes. For this purpose step by step iteration procedures to implementing representative literature texts in Tajik are used. The base is formed out of 2533 postfixes with theirs frequency of meeting.
Key words: Tajik - mathematical statistics - representative sample - iteration - postfixes data - frequency of meeting.