Научная статья на тему 'Информативность слога в словоформе и словоупотреблении'

Информативность слога в словоформе и словоупотреблении Текст научной статьи по специальности «Математика»

CC BY
163
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛОВО / СЛОГ / ИНФОРМАТИВНОСТЬ

Аннотация научной статьи по математике, автор научной работы — Усманов З. Д., Худойбердиев Х. А.

На основе формулы К.Шенона определяется информативность слога в словоформах и словоупотреблениях на примере коллекции таджикских текстов объёмом свыше 50 миллионов слов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информативность слога в словоформе и словоупотреблении»

Информативность слога в словоформе и словоупотреблении

З.Д.Усманов,

Институт математики им. А.Джураева АНРТ, zafar-usmanov@rambler.ru

Х.А.Худойбердиев

Политехнический институт Таджикского технического университета им. акад. М.С.Осими, tajlingvo@gmail.com

Аннотация. На основе формулы КШенона определяется информативность слога в словоформах и словоупотреблениях на примере коллекции таджикских текстов объёмом свыше 50 миллионов слов.

Ключевые слова: слово, слог, информативность.

Пусть X = {х1,...,хп}~ конечное множество взаимно несовместимых событий, вероятности р1,...,рп появления которых подчинены условию /?! + ... + рп = 1. Тогда формула К.Шенона

п

Н(р1,...,рп) = -^рг\оё2р1 (1)

1 =1

определяет среднее количество информации, приходящейся на одно событие, [Файнстейн, 1960].

В настоящей работе эта формула применяется для вычисления информативности слогов в пределах слова, причём в качестве примера выбран таджикский язык.

1. В согласии с [Усманов и др., 2006] и [Худойбердиев, 2007] в таджикском языке выявлено 3259 различных слогов. Данные об их частотности, используемые нами в дальнейших вычислениях, получены при обработке коллекции текстов из 54162492 словоупотреблений, среди которых было выявлено 64458 различных словоформ, [Эоуиёоу е1 а1., 2011].

В качестве иллюстрации в таблице 1 приводится список всего лишь 148 высокочастотных слогов, расположенных в порядке убывания их относительных частот встречаемости в коллекции текстов.

В этой таблице в столбце 1 отмечены номера таджикских слогов, которые в столбце 2 располагаются в порядке убывания их относительных частот. Значения последних приводятся в столбце 3. Итоговая строка таблицы показывает, что рассматриваемые слоги покрывают почти 75 % текста, между тем, как 41 первых слогов осуществляют 50 % покрытие.

Таблица 1. Частота встречаемости таджикских слогов

№ слог Л

1 и 0,042

2 да 0,025

3 ро 0,024

4 ба 0,022

5 ХО 0,020

6 ни 0,018

7 на 0,018

8 ти 0,017

9 ри 0,016

10 та 0,016

11 ме 0,015

12 ва 0,015

13 бо 0,014

14 дар 0,013

15 ди 0,013

16 ки 0,012

17 О 0,012

18 МО 0,012

19 до 0,011

20 ра 0,011

21 ма 0,011

22 аз 0,010

23 му 0,010

24 ли 0,010

25 а 0,009

26 со 0,008

27 си 0,008

28 но 0,008

29 ми 0,008

30 би 0,007

31 то 0,007

32 я 0,007

33 ин 0,007

34 х,а 0,007

35 са 0,007

36 за 0,006

37 ло 0,006

38 во 0,006

39 ла 0,006

40 ё 0,006

41 хо 0,005

42 зи 0,005

43 ХИ 0,005

44 аст 0,005

45 он 0,005

№ слог Л

51 гар 0,005

52 ка 0,005

53 кар 0,004

54 ши 0,004

55 хам 0,004

56 гу 0,004

57 бу 0,004

58 бе 0,003

59 ко 0,003

60 фа 0,003

61 к;а 0,003

62 бар 0,003

63 Ча 0,003

64 НО 0,003

65 ман 0,003

66 30 0,003

67 Чи 0,003

68 су 0,003

69 РУ 0,003

70 0,003

71 ки 0,003

72 ис 0,003

73 рй 0,003

74 фи 0,003

75 ту 0,002

76 шо 0,002

77 ви 0,002

78 мон 0,002

79 тон 0,002

80 го 0,002

81 РУ 0,002

82 ху 0,002

83 нй 0,002

84 данд 0,002

85 тар 0,002

86 як 0,002

87 фар 0,002

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

88 кор 0,002

89 худ 0,002

90 к;о 0,002

91 ЯД 0,002

92 над 0,002

93 сар 0,002

94 дан 0,002

95 хар 0,002

№ слог Л

101 вад 0,002

102 ле 0,002

103 У 0,002

104 тан 0,002

105 вар 0,002

106 шад 0,002

107 ят 0,002

108 таъ 0,002

109 дам 0,002

110 ну 0,002

111 ву 0,002

112 га 0,002

113 мин 0,002

114 лй 0,002

115 кис 0,002

116 де 0,002

117 рон 0,002

118 не 0,002

119 зе 0,002

120 буд 0,001

121 ан 0,001

122 ре 0,001

123 чу 0,001

124 шон 0,001

125 дав 0,001

126 ю 0,001

127 ХИ 0,001

128 тй 0,001

129 те 0,001

130 маъ 0,001

131 э 0,001

132 ча 0,001

133 Чум 0,001

134 РУЗ 0,001

135 риф 0,001

136 лу 0,001

137 ку 0,001

138 дй 0,001

139 У 0,001

140 шуд 0,001

141 ДОШ 0,001

142 по 0,001

143 се 0,001

144 НИН 0,001

145 кард 0,001

№ слог Л

1 и 0,042

2 да 0,025

3 ро 0,024

4 ба 0,022

46 ку 0,005

47 ДУ 0,005

48 шу 0,005

49 ша 0,005

50 ги 0,005

№ слог Л

51 гар 0,005

52 ка 0,005

53 кар 0,004

54 ши 0,004

96 па 0,002

97 фо 0,002

98 рад 0,002

99 ха 0,002

100 мар 0,002

№ слог Л

101 вад 0,002

102 ле 0,002

103 У 0,002

104 тан 0,002

146 гй 0,001

147 ам 0,001

148 рам 0,001

Итого 0,745

Добавим к сказанному, что 90 % - е, 95 % - е и, наконец, 100% - е покрытия коллекции текстов осуществляются соответственно 418, 683 и 3259 слогами.

Отметим также, что под относительной частотой встречаемости слога в текстовой коллекции понимается отношение частоты его встречаемости к общему количеству слогов в тексте.

2. Результаты предварительных исследований слогового состава коллекции представлены в таблице 2.

Таблица 2. Распределения словоформ и словоупотреблений по числу слогов

1 2 3 4 5

Число Число Доля Число Доля в

слогов Словоформ в % словоупотр. %

1 1389 2,15 15310456 28,27

2 10751 16,68 14673494 27,09

3 22160 34,38 14510438 26,79

4 18880 29,29 7109273 13,13

5 8313 12,90 2000983 3,69

6 2344 3,64 475889 0,88

7 522 0,81 70825 0,13

8 99 0,15 11134 0,02

итого 64458 100 54162492 100

В этой таблице столбец 1 указывает числа слогов, из которых состоят таджикские словоформы. В столбцах 2 и 4 отмечаются количества словоформ и словоупотреблений с тем или иным числом слогов. Эти данные в столбцах 3 и 5 выражены в процентах по отношению к общему числу словоформ и словоупотреблений.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Из таблицы следует, что трехслоговые и четырехслоговые слова -наиболее частое явление среди словоформ, а в словоупотреблениях таковыми являются однослоговые, двух- и трехслоговые слова.

3. В настоящем пункте описывается последовательность процедур, используемых при вычислении информативности слога в зависимости от занимаемой им позиции в словоформе. Иными словами, речь идёт об

информативности первого, второго, ... и, наконец, последнего слога в структуре словоформы.

Необходимо отметим, что рассматриваемый вопрос решается по отдельности для подмножеств, состоящих из словоформ с одинаковым количеством слогов. Таких подмножеств в таджикском языке - восемь: подмножества однослоговых, двухслоговых, ... и, наконец, восьмислого-вых словоформ.

Пусть ШРа)- подмножество словоформ, содержащих I слогов, I = 1,8, и пусть га - порядковый номер слога в словоформе с / слогами, 1 < т < I . Информативность га -го слога вычисляется в двух вариантах: 1) на множестве различных словоформ (без учёта их частоты встречаемости) и 2) на множестве всех словоупотреблений (иначе говоря, на множестве тех же самых словоформ, но уже с учётом их частоты встречаемости). Для этих целей

■ путём обработки упомянутой коллекции текстов строится список словоформ с их частотами;

■ каждая словоформа представляется в виде конкатенации слогов;

■ из списка всех слогов поочередно извлекается каждый слог и под-считывается его относительная частота появления на т -ой позиции слога в подмножестве словоформ;

■ по формуле

3259

я(ЯГ,...Д£59) = -£ЛГ-1ОЕ2;1: (2)

г =1

вычисляется информативность га-го слога на подмножестве I-слоговых словоформ ; индекс г используется для указания номера слога в списке из 3259 слогов, упорядоченных по убыванию частот их встречаемости в коллекции текстов, а 1" - относительная частота /-го

слога в га-й позиции /-слоговых словоформ подмножества \¥Р а}.

4. Результаты вычисления информативности по формуле (2) представлены в таблицах 3 и 4.

Таблица 3. Информативность т-го слога на множестве

словоформ размером в 1 слогов

Порядковый номер т слога

1 2 3 4 5 6 7 8

1 10,25

§ съ 2 9,21 9,41

о -©н 3 8,46 7,76 7,83

о и о 4 7,88 7,86 6,87 6,45

5 7,26 7,55 6,97 5,99 5,12

& 6 7,16 7,55 7,26 6,55 5,59 4,27

й 7 6,59 6,72 6,84 6,21 5,61 4,67 3,55

Рч 8 5,46 5,32 5,86 5,82 5,09 4,56 4,19 3,48

Таблица 4. Информативность ш-го слога на множестве словоупотреблений размером в 1 слогов

1орядковый номер слога

1 2 3 4 5 6 7 8

и и 1 7,26

2 6,15 5,20

3 5,67 5,43 4,03

размер словоупотре! 4 5,32 5,49 4,87 3,03

5 5,23 5,39 5,30 4,43 2,41

6 5,04 5,28 5,47 5,05 4,19 1,81

7 4,93 5,01 5,29 5,14 4,81 3,59 1,46

8 4,38 3,91 4,90 4,82 4,42 3,61 3,24 1,65

Обе таблицы показывают, что информативность первого слога достигает максимального значения для однослоговых словоформ и однослоговых словоупотреблений и затем строго монотонно убывает по мере увеличения числа слогов, достигая минимального значений в восьмислоговых словоформах и словоупотреблениях. Кроме того обнаруживается общая тенденция понижения информативности слога по мере увеличения его порядкового номера.

Приводимые далее графики по отдельности для однослоговых и вплоть до восьмислоговых слов показывают, что кривая информативности слогов в словоформах (отмечена синим цветом) располагается выше аналогичной кривой для словоупотреблений (отмечена красным цветом).

Слово 1-слоговое

15

10

5 ■

0

1

Слово 2-слоговое

10 8

--♦

6 4 я

---

2

0

1 2

Слово 3-слоговое

10

*-

-*- 4

5 0 ■----

1 2 3

Слово 8-слоговое

В этих графиках по оси абсцисс отмечаются порядковые номера слогов, а по оси ординат - значения информативности слогов.

Список литературы

[Усманов и др., 2006] Усманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского языка // Доклады Академии наук Республики Таджикистан. - 2006. - т.49, № 6. - С. 489-492.

[Файнстейн, 1960] Файнстейн А. Теория информации. М.: Издательство иностранной литературы, 1960.

[Худойбердиев, 2007] Худойбердиев Х.А. О многообразии слогов таджикского языка // Известия Академии наук Республики Таджикистан. Отделение физ.-мат., хим., геол. и техн. наук. - 2007. - № 2(127). - С. 31-34.

[Dovudov et al., 2011] Dovudov G, Pomikalek J., Suchomel V., Smerk P. Building a 50M Corpus of Tajik Language. In Proceedings of the Fifth Workshop on Recent Advances in Slavonic Natural Language Processing, RUSLAN 2011. Masaryk University, Brno 2011, pp. 89-95.

i Надоели баннеры? Вы всегда можете отключить рекламу.