ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ____________________________________2010, том 53, №4_________________________________
ИНФОРМАТИКА
УДК 410:51+414.7+491.550
Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов
ЧАСТОТНЫЙ МОРФЕМНЫЙ СЛОВАРЬ ТАДЖИКСКОГО ЛИТЕРАТУРНОГО ЯЗЫКА
Институт математики АН Республики Таджикистан,
*Худжандский политехнический институт Таджикского технического университета им. М.С.Осими
В статье путем применения последней авторской версии таджикского морфоанализатора к обработке тестовой информации достаточно большого объема устанавливается частота встречаемости морфемных структур однокоренных словоформ, а также состав и частота встречаемости наиболее употребительных морфов.
Ключевые слова: таджикский язык - однокоренное слово - морфемная структура - морфоанали-затор - префикс - корень - постфикс - частота встречаемости - уровень покрытия.
В статье [1] путем применения итерационных процедур для статистической обработки тестовой информации объемом в 6 300 страниц получена наиболее усовершенствованная версия компьютерного морфоанализатора МА (68, 30 992, 2 893) таджикских слов, морфемный словарь которого включает 68 префиксов, 30 992 корней и 2 893 постфиксов. В настоящей статье излагаются результаты применения полученного морфоанализатора к нахождению статистического распределения частот встречаемости морфов в упомянутой ранее текстовой информации.
1. Предварительные результаты, излагаемые далее, относятся прежде всего к однокорневым словам, которые могут принадлежать одной из четырех возможных структур - R, Pr 0 R, Pr 0 R 0 Ps, R 0 Ps, обозначающих, что слово состоит соответственно из: одного корня R; префикса Pr и корня R; префикса Pr, корня R и постфикса Ps и, наконец, корня R и постфикса Ps.
Таблица 1
Распределение частот встречаемости структур слов в абсолютных значениях
Частота встречаемости R Pr 0 R Pr 0 R 0 Ps R 0 Ps Всего
среди общего количества слов 1227113 31353 128333 1277173 2663972
среди различных слов 19304 1893 10332 87779 119308
В этой таблице в соответствующих ячейках приведены данные о том, сколько раз встретились слова той или иной структуры среди общего количества словоформ (2 663 972), а также среди различных словформ (119308), содержавшихся в обработанной выборке таджикских текстов. Эти же данные, выраженные в процентах, показаны в табл. 2.
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, Душанбе, ул. Ай-ни, 299/1, Институт математики АН РТ. E-mail: [email protected]
Таблица 2
Распределение частот встречаемости словных структур, (в %)
Частота встречаемости R Pr 0 R Pr 0 R 0 Ps R 0 Ps Всего
среди общего количества слов 46.06 1.18 4.82 47.94 100
среди различных слов 16.19 1.58 8.66 73.57 100
Из этой таблицы следует, что подавляющая масса таджикских словоформ (94% - среди общего числа и 89.76% - среди различных) имеет беспрефиксную структуру, что является отличительным признаком тюркских и финно-угорских языков.
Последующие результаты касаются состава морфов таджикского языка и их частот встречаемости.
2. Частоты встречаемости префиксов. Как отмечалось во введении, использованный нами в качестве инструмента исследования МА (68, 30 992, 2 893)-морфоанализатор содержал 68 префиксов. В табл. 3 приводится список только из 30 наиболее употребительных префиксов, список прочих префиксов с номерами от 31 до 68 без указания частот можно найти в статьях [1], [2].
Таблица 3
Распределение частот встречаемости префиксов
№ наименование префикса количество слов с данным префиксом % от общего количества слов % от общего количество слов с префиксами № - е ерп е еи а § I нф е м ан количество слов с данным префиксом % от общего количество слов % от общего количества слов с префиксами
1 ме 83835 3.14699 52.49925 16 ма 596 0.02237 0.37323
2 на 17175 0.64471 10.75535 17 барме 515 0.01933 0.32250
3 хам 10968 0.41172 6.86839 18 бу 396 0.01487 0.24798
4 бе 8277 0.31070 5.18323 19 бино 371 0.01393 0.23233
5 наме 7830 0.29392 4.90331 20 фар 233 0.00875 0.14591
6 бар 6485 0.24343 4.06104 21 то 226 0.00848 0.14153
7 но 6191 0.23240 3.87694 22 медар 201 0.00755 0.12587
8 би 4479 0.16813 2.80484 23 набар 163 0.00612 0.10207
9 бо 2759 0.10357 1.72774 24 воме 133 0.00499 0.08329
10 дар 2471 0.09276 1.54739 25 намебар 90 0.00338 0.05636
11 ба 1776 0.06667 1.11217 26 ноба 61 0.00229 0.03820
12 во 1104 0.04144 0.69135 27 барна 59 0.00221 0.03695
13 боз 1095 0.04110 0.68571 28 фур 59 0.00221 0.03695
14 хар 890 0.03341 0.55734 29 бозме 45 0.00169 0.02818
15 мебар 826 0.03101 0.51726 30 хаме 39 0.00146 0.02442
Итого 5.981594 99.78708
В этой таблице в первом и втором столбцах даны порядковые номера и перечень префиксов, расположенных в порядке убывания частоты (столбец 3). В четвертом столбце указывается выраженная в процентах доля слов с соответствующим префиксом по отношению к общему количеству слов. В пятом столбце такая же доля представлена по отношению к количеству слов с префиксами. Как
видно, префикс ме - самый популярный, с частотой 52.49925% среди других префиксов. Кроме того, 15 первых префиксов, начиная с ме и заканчивая мебар, по отношению ко всей совокупности префиксов встречаются в 97.79131% случаев.
3. Частота встречаемости постфиксов. Из 2 893 постфиксов, включенных в морфоанализа-тор, в табл. 4 выписаны всего лишь 21 наиболее употребительных.
Таблица 4
Распределение частот встречаемости постфиксов, в %
№ наименование количество слов % от общего % от общего количества
постфикса с постфиксами количества слов слов с постфиксами
1 и 429186 16.11075 30.53644
2 к 78330 2.94034 5.57315
3 а 72598 2.72517 5.16532
4 ад 60284 2.26293 4.28919
5 хои 53470 2.00715 3.80437
6 анд 45156 1.69506 3.21283
7 р° 43784 1.64356 3.11522
8 ии 42803 1.60673 3.04542
9 у 40112 1.50572 2.85396
10 хо 28356 1.06442 2.01752
11 е 26422 0.99182 1.87992
12 ам 23916 0.89775 1.70162
13 он 20678 0.77621 1.47123
14 ан 18315 0.68750 1.30311
15 ани 16849 0.63247 1.19880
16 они 15750 0.59122 1.12061
17 ем 14020 0.52628 0.99752
18 ин 11715 0.43975 0.83352
19 ааст 11508 0.43198 0.81879
20 аш 11231 0.42159 0.79908
21 ед 10824 0.40631 0.77012
Итого 40.3647 76.50773
В этой таблице в первом и втором столбцах даны порядковые номера и перечень постфиксов, расположенных в порядке убывания частоты (столбец 3). В четвертом столбце указывается выраженная в процентах доля слов с соответствующим постфиксом по отношению к общему количеству слов, а в пятом столбце такая же доля показана по отношению к количеству слов с постфиксами. Как видно, постфикс и - самый распространенный, с частотой 30.53644% среди других постфиксов. Кроме того, 21 первых постфиксов, начиная с и и заканчивая ед, по отношению ко всей совокупности постфиксов встречаются в 76.50773% случаев.
4. Частота встречаемости корней показана в табл. 5, однако не по всем 30 992 корням, включенным в базу морфоанализатора, а всего лишь по 182 наиболее употребительным, покрывающим свыше 50% текста.
Таблица 5
Распределение частот встречаемости корней в процентах к общему количеству слов
№ корень % № корень % № корень %
1 ба 3.382 62 даст 0.203 123 хон 0.110
2 ва 2.478 63 чй 0.194 124 цаст 0.110
3 аз 2.460 64 овард 0.193 125 беш 0.110
4 ки 2.030 65 бояд 0.189 126 кам 0.109
5 ин 1.308 66 фаъол 0.186 127 бурд 0.109
6 дар 1.263 67 вакд 0.186 128 падар 0.109
7 кард 1.245 68 пеш 0.184 129 гузашт 0.108
8 он 1.239 69 ту 0.182 130 сухан 0.107
9 шуд 0.972 70 хона 0.181 131 инсон 0.107
10 аст 0.775 71 баъд 0.179 132 бисёр 0.105
11 буд 0.734 72 нафар 0.179 133 хучанд 0.105
12 кУн 0.718 73 о(ой) 0.178 134 дуст 0.104
13 кор 0.677 74 шумо 0.176 135 бахш 0.104
14 сол 0.644 75 гу 0.175 136 танцо 0.101
15 худ 0.617 76 бемор 0.174 137 аммо 0.101
16 як 0.600 77 зер 0.172 138 китоб 0.100
17 бош 0.594 78 т 0.171 139 цамин 0.099
18 шав 0.548 79 об 0.167 140 маълум 0.098
19 дор 0.522 80 дил 0.165 141 мард 0.098
20 намуд 0.505 81 цол 0.164 142 духтар 0.098
21 бо 0.499 82 гашт 0.163 143 хур 0.097
22 точик 0.484 83 ташкил 0.161 144 халк, 0.097
23 ман 0.480 84 дид 0.157 145 соца 0.097
24 чун 0.451 85 рав 0.157 146 тамом 0.095
25 мо 0.448 86 модар 0.157 147 сабаб 0.095
26 дод 0.400 87 нест 0.156 148 6узург 0.095
27 дигар 0.366 88 назд 0.155 149 ичро 0.095
28 шацр 0.357 89 мардум 0.155 150 миён 0.095
29 дошт 0.347 90 аввал 0.150 151 на 0.094
30 руз 0.343 91 забон 0.149 152 кудак 0.094
31 роц 0.338 92 амал 0.149 153 соз 0.094
32 омад 0.321 93 асос 0.148 154 гузар 0.093
33 гуфт 0.315 94 кас 0.147 155 байн 0.093
34 рас 0.314 95 нав 0.147 156 цисоб 0.093
35 дон 0.312 96 кишвар 0.142 157 тараф 0.093
36 то 0.311 97 имруз 0.141 158 мецнат 0.092
37 цама 0.308 98 гир 0.135 159 цам 0.092
38 хар 0.297 99 вале 0.135 160 сомон 0.092
39 гард 0.291 100 мактаб 0.131 161 маврид 0.091
40 гирифт 0.286 101 илм 0.131 162 чацон 0.090
41 намо 0.254 102 чавон 0.130 163 каш 0.090
42 бар 0.249 103 шахс 0.129 164 масъала 0.089
43 ду 0.245 104 раис 0.128 165 тавр 0.089
44 давлат 0.239 105 пас 0.128 166 боло 0.089
45 низ 0.239 106 истифода 0.127 167 чашм 0.089
46 чо 0.238 107 назар 0.126 168 пайдо 0.089
47 зан 0.234 108 монд 0.125 169 цазор 0.088
48 диц 0.230 109 чанд 0.124 170 вай 0.088
49 барои 0.225 110 хуб 0.122 171 таърих 0.088
50 чумцур 0.222 111 марказ 0.121 172 фарцанг 0.087
51 У 0.218 112 одам 0.121 173 худо 0.087
52 сар 0.216 113 замон 0.120 174 цаёт 0.086
53 зиёд 0.212 114 омуз 0.118 175 нишон 0.086
54 вилоят 0.210 115 оила 0.117 176 баробар 0.084
55 хоц 0.210 116 хеле 0.116 177 президент 0.084
56 ном 0.209 117 баланд 0.116 178 зад 0.084
57 агар 0.207 118 охир 0.116 179 замин 0.083
58 тавон 0.206 119 фарзанд 0.115 180 оид 0.082
59 ноция 0.206 120 бор 0.115 181 устод 0.082
60 РУ 0.205 121 к,арор 0.114 182 пул 0.082
61 рафт 0.203 122 моц 0.110 Итого: 50.057
Отметим, что в состав корней входят существительные, основы глаголов настоящего и прошедшего времени, местоимения, количественные и порядковые числительные, наречия, предлоги, союзы и т.д. Кроме того, следует указать, что среди элементов табл. 5 встречаются такие, которые могут иметь различные смыслы или одновременно принадлежать нескольким частям речи. Например, корень пул может использоваться в смысле «деньги» или «мост»; корень кор можно понимать как существительное «работа», а с другой стороны, как основа настоящего времени глагола коридан, означающего «сеять». Однако указанные различия учтены нами путем присоединения к корням дополнительных атрибутов.
Поступило 10.03.2010 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Довудов ГМ. - ДАН РТ, 2010, т. 53, №3, с.188-191.
2. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2009, т. 52, № 6, с.431-436.
З.Ч,.Усмонов, Г.М.Довудов*
ЛУГАТИ БАСОМАДИИ МОРФЕМА^ОИ ЗАБОНИ АДАБИИ ТО^ИК
Институти математикаи Академияи илм^ои Цум^урии Тоцикистон,
*Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи акад.М.С.Осими, Хуцанд
Дар макола бо истифодабарии охирин версияи муаллифии морфоанализатори калимах,ои точикй, маълумоти тестии хдчман калон коркард карда шуда, басомади вохурии структурами морфемии калимах,ои сода, инчунин таркиб ва басомади вохурии морфх,ои нисба-тан бисёристифодашаванда муайян карда шудааст.
Калима^ои калиди: забони тоцикй - калимаи содда - структураи морфемавй - морфоанализатор -префикс - реша - постфикс - басомади вохурй - сатуи шинохташавии матн.
Z.D.Usmanov, G.M.Dovudov*
A FREQUENCY MORPHEMIC DICTIONARY OF LITERARY TAJIK
Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan,
*Khujand’s Polytechnic Institute of M.S.Osimy Tajik Technical University In the article the last author's version of Tajik morphemic analyzer for processing of vast test information is applied. We defined frequency of morphemic structures of single-root words, and also list and frequency of the most commonly used morphs.
Key words: Tajik - single-root word- morphemic structure - morphemic analyzer - prefix- root - postfix -frequency of meeting - level of text covering.