Информативность слога в словоформе и словоупотреблении
З.Д.Усманов,
Институт математики им. А.Джураева АНРТ, zafar-usmanov@rambler.ru
Х.А.Худойбердиев
Политехнический институт Таджикского технического университета им. акад. М.С.Осими, tajlingvo@gmail.com
Аннотация. На основе формулы КШенона определяется информативность слога в словоформах и словоупотреблениях на примере коллекции таджикских текстов объёмом свыше 50 миллионов слов.
Ключевые слова: слово, слог, информативность.
Пусть X = {х1,...,хп}~ конечное множество взаимно несовместимых событий, вероятности р1,...,рп появления которых подчинены условию /?! + ... + рп = 1. Тогда формула К.Шенона
п
Н(р1,...,рп) = -^рг\оё2р1 (1)
1 =1
определяет среднее количество информации, приходящейся на одно событие, [Файнстейн, 1960].
В настоящей работе эта формула применяется для вычисления информативности слогов в пределах слова, причём в качестве примера выбран таджикский язык.
1. В согласии с [Усманов и др., 2006] и [Худойбердиев, 2007] в таджикском языке выявлено 3259 различных слогов. Данные об их частотности, используемые нами в дальнейших вычислениях, получены при обработке коллекции текстов из 54162492 словоупотреблений, среди которых было выявлено 64458 различных словоформ, [Эоуиёоу е1 а1., 2011].
В качестве иллюстрации в таблице 1 приводится список всего лишь 148 высокочастотных слогов, расположенных в порядке убывания их относительных частот встречаемости в коллекции текстов.
В этой таблице в столбце 1 отмечены номера таджикских слогов, которые в столбце 2 располагаются в порядке убывания их относительных частот. Значения последних приводятся в столбце 3. Итоговая строка таблицы показывает, что рассматриваемые слоги покрывают почти 75 % текста, между тем, как 41 первых слогов осуществляют 50 % покрытие.
Таблица 1. Частота встречаемости таджикских слогов
№ слог Л
1 и 0,042
2 да 0,025
3 ро 0,024
4 ба 0,022
5 ХО 0,020
6 ни 0,018
7 на 0,018
8 ти 0,017
9 ри 0,016
10 та 0,016
11 ме 0,015
12 ва 0,015
13 бо 0,014
14 дар 0,013
15 ди 0,013
16 ки 0,012
17 О 0,012
18 МО 0,012
19 до 0,011
20 ра 0,011
21 ма 0,011
22 аз 0,010
23 му 0,010
24 ли 0,010
25 а 0,009
26 со 0,008
27 си 0,008
28 но 0,008
29 ми 0,008
30 би 0,007
31 то 0,007
32 я 0,007
33 ин 0,007
34 х,а 0,007
35 са 0,007
36 за 0,006
37 ло 0,006
38 во 0,006
39 ла 0,006
40 ё 0,006
41 хо 0,005
42 зи 0,005
43 ХИ 0,005
44 аст 0,005
45 он 0,005
№ слог Л
51 гар 0,005
52 ка 0,005
53 кар 0,004
54 ши 0,004
55 хам 0,004
56 гу 0,004
57 бу 0,004
58 бе 0,003
59 ко 0,003
60 фа 0,003
61 к;а 0,003
62 бар 0,003
63 Ча 0,003
64 НО 0,003
65 ман 0,003
66 30 0,003
67 Чи 0,003
68 су 0,003
69 РУ 0,003
70 0,003
71 ки 0,003
72 ис 0,003
73 рй 0,003
74 фи 0,003
75 ту 0,002
76 шо 0,002
77 ви 0,002
78 мон 0,002
79 тон 0,002
80 го 0,002
81 РУ 0,002
82 ху 0,002
83 нй 0,002
84 данд 0,002
85 тар 0,002
86 як 0,002
87 фар 0,002
88 кор 0,002
89 худ 0,002
90 к;о 0,002
91 ЯД 0,002
92 над 0,002
93 сар 0,002
94 дан 0,002
95 хар 0,002
№ слог Л
101 вад 0,002
102 ле 0,002
103 У 0,002
104 тан 0,002
105 вар 0,002
106 шад 0,002
107 ят 0,002
108 таъ 0,002
109 дам 0,002
110 ну 0,002
111 ву 0,002
112 га 0,002
113 мин 0,002
114 лй 0,002
115 кис 0,002
116 де 0,002
117 рон 0,002
118 не 0,002
119 зе 0,002
120 буд 0,001
121 ан 0,001
122 ре 0,001
123 чу 0,001
124 шон 0,001
125 дав 0,001
126 ю 0,001
127 ХИ 0,001
128 тй 0,001
129 те 0,001
130 маъ 0,001
131 э 0,001
132 ча 0,001
133 Чум 0,001
134 РУЗ 0,001
135 риф 0,001
136 лу 0,001
137 ку 0,001
138 дй 0,001
139 У 0,001
140 шуд 0,001
141 ДОШ 0,001
142 по 0,001
143 се 0,001
144 НИН 0,001
145 кард 0,001
№ слог Л
1 и 0,042
2 да 0,025
3 ро 0,024
4 ба 0,022
46 ку 0,005
47 ДУ 0,005
48 шу 0,005
49 ша 0,005
50 ги 0,005
№ слог Л
51 гар 0,005
52 ка 0,005
53 кар 0,004
54 ши 0,004
96 па 0,002
97 фо 0,002
98 рад 0,002
99 ха 0,002
100 мар 0,002
№ слог Л
101 вад 0,002
102 ле 0,002
103 У 0,002
104 тан 0,002
146 гй 0,001
147 ам 0,001
148 рам 0,001
Итого 0,745
Добавим к сказанному, что 90 % - е, 95 % - е и, наконец, 100% - е покрытия коллекции текстов осуществляются соответственно 418, 683 и 3259 слогами.
Отметим также, что под относительной частотой встречаемости слога в текстовой коллекции понимается отношение частоты его встречаемости к общему количеству слогов в тексте.
2. Результаты предварительных исследований слогового состава коллекции представлены в таблице 2.
Таблица 2. Распределения словоформ и словоупотреблений по числу слогов
1 2 3 4 5
Число Число Доля Число Доля в
слогов Словоформ в % словоупотр. %
1 1389 2,15 15310456 28,27
2 10751 16,68 14673494 27,09
3 22160 34,38 14510438 26,79
4 18880 29,29 7109273 13,13
5 8313 12,90 2000983 3,69
6 2344 3,64 475889 0,88
7 522 0,81 70825 0,13
8 99 0,15 11134 0,02
итого 64458 100 54162492 100
В этой таблице столбец 1 указывает числа слогов, из которых состоят таджикские словоформы. В столбцах 2 и 4 отмечаются количества словоформ и словоупотреблений с тем или иным числом слогов. Эти данные в столбцах 3 и 5 выражены в процентах по отношению к общему числу словоформ и словоупотреблений.
Из таблицы следует, что трехслоговые и четырехслоговые слова -наиболее частое явление среди словоформ, а в словоупотреблениях таковыми являются однослоговые, двух- и трехслоговые слова.
3. В настоящем пункте описывается последовательность процедур, используемых при вычислении информативности слога в зависимости от занимаемой им позиции в словоформе. Иными словами, речь идёт об
информативности первого, второго, ... и, наконец, последнего слога в структуре словоформы.
Необходимо отметим, что рассматриваемый вопрос решается по отдельности для подмножеств, состоящих из словоформ с одинаковым количеством слогов. Таких подмножеств в таджикском языке - восемь: подмножества однослоговых, двухслоговых, ... и, наконец, восьмислого-вых словоформ.
Пусть ШРа)- подмножество словоформ, содержащих I слогов, I = 1,8, и пусть га - порядковый номер слога в словоформе с / слогами, 1 < т < I . Информативность га -го слога вычисляется в двух вариантах: 1) на множестве различных словоформ (без учёта их частоты встречаемости) и 2) на множестве всех словоупотреблений (иначе говоря, на множестве тех же самых словоформ, но уже с учётом их частоты встречаемости). Для этих целей
■ путём обработки упомянутой коллекции текстов строится список словоформ с их частотами;
■ каждая словоформа представляется в виде конкатенации слогов;
■ из списка всех слогов поочередно извлекается каждый слог и под-считывается его относительная частота появления на т -ой позиции слога в подмножестве словоформ;
■ по формуле
3259
я(ЯГ,...Д£59) = -£ЛГ-1ОЕ2;1: (2)
г =1
вычисляется информативность га-го слога на подмножестве I-слоговых словоформ ; индекс г используется для указания номера слога в списке из 3259 слогов, упорядоченных по убыванию частот их встречаемости в коллекции текстов, а 1" - относительная частота /-го
слога в га-й позиции /-слоговых словоформ подмножества \¥Р а}.
4. Результаты вычисления информативности по формуле (2) представлены в таблицах 3 и 4.
Таблица 3. Информативность т-го слога на множестве
словоформ размером в 1 слогов
Порядковый номер т слога
1 2 3 4 5 6 7 8
1 10,25
§ съ 2 9,21 9,41
о -©н 3 8,46 7,76 7,83
о и о 4 7,88 7,86 6,87 6,45
5 7,26 7,55 6,97 5,99 5,12
& 6 7,16 7,55 7,26 6,55 5,59 4,27
й 7 6,59 6,72 6,84 6,21 5,61 4,67 3,55
Рч 8 5,46 5,32 5,86 5,82 5,09 4,56 4,19 3,48
Таблица 4. Информативность ш-го слога на множестве словоупотреблений размером в 1 слогов
1орядковый номер слога
1 2 3 4 5 6 7 8
и и 1 7,26
2 6,15 5,20
3 5,67 5,43 4,03
размер словоупотре! 4 5,32 5,49 4,87 3,03
5 5,23 5,39 5,30 4,43 2,41
6 5,04 5,28 5,47 5,05 4,19 1,81
7 4,93 5,01 5,29 5,14 4,81 3,59 1,46
8 4,38 3,91 4,90 4,82 4,42 3,61 3,24 1,65
Обе таблицы показывают, что информативность первого слога достигает максимального значения для однослоговых словоформ и однослоговых словоупотреблений и затем строго монотонно убывает по мере увеличения числа слогов, достигая минимального значений в восьмислоговых словоформах и словоупотреблениях. Кроме того обнаруживается общая тенденция понижения информативности слога по мере увеличения его порядкового номера.
Приводимые далее графики по отдельности для однослоговых и вплоть до восьмислоговых слов показывают, что кривая информативности слогов в словоформах (отмечена синим цветом) располагается выше аналогичной кривой для словоупотреблений (отмечена красным цветом).
Слово 1-слоговое
15
10
5 ■
0
1
Слово 2-слоговое
10 8
--♦
6 4 я
---
2
0
1 2
Слово 3-слоговое
10
*-
-*- 4
5 0 ■----
1 2 3
Слово 8-слоговое
В этих графиках по оси абсцисс отмечаются порядковые номера слогов, а по оси ординат - значения информативности слогов.
Список литературы
[Усманов и др., 2006] Усманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского языка // Доклады Академии наук Республики Таджикистан. - 2006. - т.49, № 6. - С. 489-492.
[Файнстейн, 1960] Файнстейн А. Теория информации. М.: Издательство иностранной литературы, 1960.
[Худойбердиев, 2007] Худойбердиев Х.А. О многообразии слогов таджикского языка // Известия Академии наук Республики Таджикистан. Отделение физ.-мат., хим., геол. и техн. наук. - 2007. - № 2(127). - С. 31-34.
[Dovudov et al., 2011] Dovudov G, Pomikalek J., Suchomel V., Smerk P. Building a 50M Corpus of Tajik Language. In Proceedings of the Fifth Workshop on Recent Advances in Slavonic Natural Language Processing, RUSLAN 2011. Masaryk University, Brno 2011, pp. 89-95.