Научная статья на тему 'Частотный морфемный словарь таджикского литературного языка'

Частотный морфемный словарь таджикского литературного языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
241
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
таджикский язык / однокоренное слово / морфемная структура / морфоанализатор / префикс / корень / постфикс / ЧАСТОТА ВСТРЕЧАЕМОСТИ / уровень покрытия / Tajik / single-root word / morphemic structure / morphemic analyzer / Prefix / Root / postfix / frequency of meeting / level of text covering

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З. Д., Довудов Г. М.

В статье путем применения последней авторской версии таджикского морфоанализатора к обработке тестовой информации достаточно большого объема устанавливается частота встречаемости морфемных структур однокоренных словоформ, а также состав и частота встречаемости наиболее употребительных морфов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article the last author's version of Tajik morphemic analyzer for processing of vast test information is applied. We defined frequency of morphemic structures of single-root words, and also list and frequency of the most commonly used morphs.

Текст научной работы на тему «Частотный морфемный словарь таджикского литературного языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ____________________________________2010, том 53, №4_________________________________

ИНФОРМАТИКА

УДК 410:51+414.7+491.550

Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов

ЧАСТОТНЫЙ МОРФЕМНЫЙ СЛОВАРЬ ТАДЖИКСКОГО ЛИТЕРАТУРНОГО ЯЗЫКА

Институт математики АН Республики Таджикистан,

*Худжандский политехнический институт Таджикского технического университета им. М.С.Осими

В статье путем применения последней авторской версии таджикского морфоанализатора к обработке тестовой информации достаточно большого объема устанавливается частота встречаемости морфемных структур однокоренных словоформ, а также состав и частота встречаемости наиболее употребительных морфов.

Ключевые слова: таджикский язык - однокоренное слово - морфемная структура - морфоанали-затор - префикс - корень - постфикс - частота встречаемости - уровень покрытия.

В статье [1] путем применения итерационных процедур для статистической обработки тестовой информации объемом в 6 300 страниц получена наиболее усовершенствованная версия компьютерного морфоанализатора МА (68, 30 992, 2 893) таджикских слов, морфемный словарь которого включает 68 префиксов, 30 992 корней и 2 893 постфиксов. В настоящей статье излагаются результаты применения полученного морфоанализатора к нахождению статистического распределения частот встречаемости морфов в упомянутой ранее текстовой информации.

1. Предварительные результаты, излагаемые далее, относятся прежде всего к однокорневым словам, которые могут принадлежать одной из четырех возможных структур - R, Pr 0 R, Pr 0 R 0 Ps, R 0 Ps, обозначающих, что слово состоит соответственно из: одного корня R; префикса Pr и корня R; префикса Pr, корня R и постфикса Ps и, наконец, корня R и постфикса Ps.

Таблица 1

Распределение частот встречаемости структур слов в абсолютных значениях

Частота встречаемости R Pr 0 R Pr 0 R 0 Ps R 0 Ps Всего

среди общего количества слов 1227113 31353 128333 1277173 2663972

среди различных слов 19304 1893 10332 87779 119308

В этой таблице в соответствующих ячейках приведены данные о том, сколько раз встретились слова той или иной структуры среди общего количества словоформ (2 663 972), а также среди различных словформ (119308), содержавшихся в обработанной выборке таджикских текстов. Эти же данные, выраженные в процентах, показаны в табл. 2.

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, Душанбе, ул. Ай-ни, 299/1, Институт математики АН РТ. E-mail: [email protected]

Таблица 2

Распределение частот встречаемости словных структур, (в %)

Частота встречаемости R Pr 0 R Pr 0 R 0 Ps R 0 Ps Всего

среди общего количества слов 46.06 1.18 4.82 47.94 100

среди различных слов 16.19 1.58 8.66 73.57 100

Из этой таблицы следует, что подавляющая масса таджикских словоформ (94% - среди общего числа и 89.76% - среди различных) имеет беспрефиксную структуру, что является отличительным признаком тюркских и финно-угорских языков.

Последующие результаты касаются состава морфов таджикского языка и их частот встречаемости.

2. Частоты встречаемости префиксов. Как отмечалось во введении, использованный нами в качестве инструмента исследования МА (68, 30 992, 2 893)-морфоанализатор содержал 68 префиксов. В табл. 3 приводится список только из 30 наиболее употребительных префиксов, список прочих префиксов с номерами от 31 до 68 без указания частот можно найти в статьях [1], [2].

Таблица 3

Распределение частот встречаемости префиксов

№ наименование префикса количество слов с данным префиксом % от общего количества слов % от общего количество слов с префиксами № - е ерп е еи а § I нф е м ан количество слов с данным префиксом % от общего количество слов % от общего количества слов с префиксами

1 ме 83835 3.14699 52.49925 16 ма 596 0.02237 0.37323

2 на 17175 0.64471 10.75535 17 барме 515 0.01933 0.32250

3 хам 10968 0.41172 6.86839 18 бу 396 0.01487 0.24798

4 бе 8277 0.31070 5.18323 19 бино 371 0.01393 0.23233

5 наме 7830 0.29392 4.90331 20 фар 233 0.00875 0.14591

6 бар 6485 0.24343 4.06104 21 то 226 0.00848 0.14153

7 но 6191 0.23240 3.87694 22 медар 201 0.00755 0.12587

8 би 4479 0.16813 2.80484 23 набар 163 0.00612 0.10207

9 бо 2759 0.10357 1.72774 24 воме 133 0.00499 0.08329

10 дар 2471 0.09276 1.54739 25 намебар 90 0.00338 0.05636

11 ба 1776 0.06667 1.11217 26 ноба 61 0.00229 0.03820

12 во 1104 0.04144 0.69135 27 барна 59 0.00221 0.03695

13 боз 1095 0.04110 0.68571 28 фур 59 0.00221 0.03695

14 хар 890 0.03341 0.55734 29 бозме 45 0.00169 0.02818

15 мебар 826 0.03101 0.51726 30 хаме 39 0.00146 0.02442

Итого 5.981594 99.78708

В этой таблице в первом и втором столбцах даны порядковые номера и перечень префиксов, расположенных в порядке убывания частоты (столбец 3). В четвертом столбце указывается выраженная в процентах доля слов с соответствующим префиксом по отношению к общему количеству слов. В пятом столбце такая же доля представлена по отношению к количеству слов с префиксами. Как

видно, префикс ме - самый популярный, с частотой 52.49925% среди других префиксов. Кроме того, 15 первых префиксов, начиная с ме и заканчивая мебар, по отношению ко всей совокупности префиксов встречаются в 97.79131% случаев.

3. Частота встречаемости постфиксов. Из 2 893 постфиксов, включенных в морфоанализа-тор, в табл. 4 выписаны всего лишь 21 наиболее употребительных.

Таблица 4

Распределение частот встречаемости постфиксов, в %

№ наименование количество слов % от общего % от общего количества

постфикса с постфиксами количества слов слов с постфиксами

1 и 429186 16.11075 30.53644

2 к 78330 2.94034 5.57315

3 а 72598 2.72517 5.16532

4 ад 60284 2.26293 4.28919

5 хои 53470 2.00715 3.80437

6 анд 45156 1.69506 3.21283

7 р° 43784 1.64356 3.11522

8 ии 42803 1.60673 3.04542

9 у 40112 1.50572 2.85396

10 хо 28356 1.06442 2.01752

11 е 26422 0.99182 1.87992

12 ам 23916 0.89775 1.70162

13 он 20678 0.77621 1.47123

14 ан 18315 0.68750 1.30311

15 ани 16849 0.63247 1.19880

16 они 15750 0.59122 1.12061

17 ем 14020 0.52628 0.99752

18 ин 11715 0.43975 0.83352

19 ааст 11508 0.43198 0.81879

20 аш 11231 0.42159 0.79908

21 ед 10824 0.40631 0.77012

Итого 40.3647 76.50773

В этой таблице в первом и втором столбцах даны порядковые номера и перечень постфиксов, расположенных в порядке убывания частоты (столбец 3). В четвертом столбце указывается выраженная в процентах доля слов с соответствующим постфиксом по отношению к общему количеству слов, а в пятом столбце такая же доля показана по отношению к количеству слов с постфиксами. Как видно, постфикс и - самый распространенный, с частотой 30.53644% среди других постфиксов. Кроме того, 21 первых постфиксов, начиная с и и заканчивая ед, по отношению ко всей совокупности постфиксов встречаются в 76.50773% случаев.

4. Частота встречаемости корней показана в табл. 5, однако не по всем 30 992 корням, включенным в базу морфоанализатора, а всего лишь по 182 наиболее употребительным, покрывающим свыше 50% текста.

Таблица 5

Распределение частот встречаемости корней в процентах к общему количеству слов

№ корень % № корень % № корень %

1 ба 3.382 62 даст 0.203 123 хон 0.110

2 ва 2.478 63 чй 0.194 124 цаст 0.110

3 аз 2.460 64 овард 0.193 125 беш 0.110

4 ки 2.030 65 бояд 0.189 126 кам 0.109

5 ин 1.308 66 фаъол 0.186 127 бурд 0.109

6 дар 1.263 67 вакд 0.186 128 падар 0.109

7 кард 1.245 68 пеш 0.184 129 гузашт 0.108

8 он 1.239 69 ту 0.182 130 сухан 0.107

9 шуд 0.972 70 хона 0.181 131 инсон 0.107

10 аст 0.775 71 баъд 0.179 132 бисёр 0.105

11 буд 0.734 72 нафар 0.179 133 хучанд 0.105

12 кУн 0.718 73 о(ой) 0.178 134 дуст 0.104

13 кор 0.677 74 шумо 0.176 135 бахш 0.104

14 сол 0.644 75 гу 0.175 136 танцо 0.101

15 худ 0.617 76 бемор 0.174 137 аммо 0.101

16 як 0.600 77 зер 0.172 138 китоб 0.100

17 бош 0.594 78 т 0.171 139 цамин 0.099

18 шав 0.548 79 об 0.167 140 маълум 0.098

19 дор 0.522 80 дил 0.165 141 мард 0.098

20 намуд 0.505 81 цол 0.164 142 духтар 0.098

21 бо 0.499 82 гашт 0.163 143 хур 0.097

22 точик 0.484 83 ташкил 0.161 144 халк, 0.097

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

23 ман 0.480 84 дид 0.157 145 соца 0.097

24 чун 0.451 85 рав 0.157 146 тамом 0.095

25 мо 0.448 86 модар 0.157 147 сабаб 0.095

26 дод 0.400 87 нест 0.156 148 6узург 0.095

27 дигар 0.366 88 назд 0.155 149 ичро 0.095

28 шацр 0.357 89 мардум 0.155 150 миён 0.095

29 дошт 0.347 90 аввал 0.150 151 на 0.094

30 руз 0.343 91 забон 0.149 152 кудак 0.094

31 роц 0.338 92 амал 0.149 153 соз 0.094

32 омад 0.321 93 асос 0.148 154 гузар 0.093

33 гуфт 0.315 94 кас 0.147 155 байн 0.093

34 рас 0.314 95 нав 0.147 156 цисоб 0.093

35 дон 0.312 96 кишвар 0.142 157 тараф 0.093

36 то 0.311 97 имруз 0.141 158 мецнат 0.092

37 цама 0.308 98 гир 0.135 159 цам 0.092

38 хар 0.297 99 вале 0.135 160 сомон 0.092

39 гард 0.291 100 мактаб 0.131 161 маврид 0.091

40 гирифт 0.286 101 илм 0.131 162 чацон 0.090

41 намо 0.254 102 чавон 0.130 163 каш 0.090

42 бар 0.249 103 шахс 0.129 164 масъала 0.089

43 ду 0.245 104 раис 0.128 165 тавр 0.089

44 давлат 0.239 105 пас 0.128 166 боло 0.089

45 низ 0.239 106 истифода 0.127 167 чашм 0.089

46 чо 0.238 107 назар 0.126 168 пайдо 0.089

47 зан 0.234 108 монд 0.125 169 цазор 0.088

48 диц 0.230 109 чанд 0.124 170 вай 0.088

49 барои 0.225 110 хуб 0.122 171 таърих 0.088

50 чумцур 0.222 111 марказ 0.121 172 фарцанг 0.087

51 У 0.218 112 одам 0.121 173 худо 0.087

52 сар 0.216 113 замон 0.120 174 цаёт 0.086

53 зиёд 0.212 114 омуз 0.118 175 нишон 0.086

54 вилоят 0.210 115 оила 0.117 176 баробар 0.084

55 хоц 0.210 116 хеле 0.116 177 президент 0.084

56 ном 0.209 117 баланд 0.116 178 зад 0.084

57 агар 0.207 118 охир 0.116 179 замин 0.083

58 тавон 0.206 119 фарзанд 0.115 180 оид 0.082

59 ноция 0.206 120 бор 0.115 181 устод 0.082

60 РУ 0.205 121 к,арор 0.114 182 пул 0.082

61 рафт 0.203 122 моц 0.110 Итого: 50.057

Отметим, что в состав корней входят существительные, основы глаголов настоящего и прошедшего времени, местоимения, количественные и порядковые числительные, наречия, предлоги, союзы и т.д. Кроме того, следует указать, что среди элементов табл. 5 встречаются такие, которые могут иметь различные смыслы или одновременно принадлежать нескольким частям речи. Например, корень пул может использоваться в смысле «деньги» или «мост»; корень кор можно понимать как существительное «работа», а с другой стороны, как основа настоящего времени глагола коридан, означающего «сеять». Однако указанные различия учтены нами путем присоединения к корням дополнительных атрибутов.

Поступило 10.03.2010 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Довудов ГМ. - ДАН РТ, 2010, т. 53, №3, с.188-191.

2. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2009, т. 52, № 6, с.431-436.

З.Ч,.Усмонов, Г.М.Довудов*

ЛУГАТИ БАСОМАДИИ МОРФЕМА^ОИ ЗАБОНИ АДАБИИ ТО^ИК

Институти математикаи Академияи илм^ои Цум^урии Тоцикистон,

*Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи акад.М.С.Осими, Хуцанд

Дар макола бо истифодабарии охирин версияи муаллифии морфоанализатори калимах,ои точикй, маълумоти тестии хдчман калон коркард карда шуда, басомади вохурии структурами морфемии калимах,ои сода, инчунин таркиб ва басомади вохурии морфх,ои нисба-тан бисёристифодашаванда муайян карда шудааст.

Калима^ои калиди: забони тоцикй - калимаи содда - структураи морфемавй - морфоанализатор -префикс - реша - постфикс - басомади вохурй - сатуи шинохташавии матн.

Z.D.Usmanov, G.M.Dovudov*

A FREQUENCY MORPHEMIC DICTIONARY OF LITERARY TAJIK

Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan,

*Khujand’s Polytechnic Institute of M.S.Osimy Tajik Technical University In the article the last author's version of Tajik morphemic analyzer for processing of vast test information is applied. We defined frequency of morphemic structures of single-root words, and also list and frequency of the most commonly used morphs.

Key words: Tajik - single-root word- morphemic structure - morphemic analyzer - prefix- root - postfix -frequency of meeting - level of text covering.

i Надоели баннеры? Вы всегда можете отключить рекламу.