ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2016, том 59, №1-2_
ИНФОРМАТИКА
УДК 81'322::811.222.8::519.25
Академик АН Республики Таджикистан З.Д.Усманов, А.А.Косимов
ЧАСТОТНОСТЬ БИГРАММ В ТАДЖИКСКОЙ ЛИТЕРАТУРЕ
Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
Устанавлено, что распределения частотности биграмм в произведениях классической и современной поэзии, а также в современной прозе таджикского языка статистически не различимы. Приводится список биграмм с наибольшей частотой встречаемости.
Ключевые слова: таджикский язык, биграмма, частотность.
По своему содержанию настоящая статья примыкает к исследованиям [1, 2] частотности букв в таджикском языке. В ней на основе статистической обработки отдельных произведений поэтов и писателей, сведённых в единую текстовую коллекцию, сформирована общая картина частотности биграмм в таджикской литературе.
1. Информация о коллекции текстов. Репрезентативная выборка, предназначенная для исследовательских целей, была представлена поэмами А.Фирдауси "Бежан ва Манижа" и "Рустам ва Сухроб" [3], произведениями Дж.Руми [4,5], поэмами М.Турсунзода "Садои Осиё" и "Хдсани ароба-каш" из [6], произведениями Л.Шерали "Катибахо" и "Суханреза" из [7], прозой С.Айни [8,9].
2. Обработка литературных данных основывалась на учёте биграмм, используемых в качестве единицы измерения текста. Таджикский алфавит А состоит из 35 букв, двухбуквенные комбинации которых определяют множество различных биграмм в количестве 1225 = 352 (часть из них грамматически бессмысленна). Одновременно с A используется расширенный алфавит A* (к A в качестве формальной буквы присоединяется "пробел", обозначаемый в дальнейшем символом " * "). Ему соответствует расширенный набор из 1296 = 362 биграмм, который позволяет владеть дополнительной информацией как о самом произведении, так и его биграммах.
Процесс обработки данных осуществлялся в 3 этапа.
Этап 1. Вычисление частот встречаемости биграмм в двух вариантах:
- по отдельности для всех упомянутых в п.1 произведений;
- по совокупности двух произведений каждого автора.
На основе полученных данных строились функции распределения Fin (Я) частотности Я биграмм (с учётом и без учёта пробела) n для произведений, помеченных символом i (/ = 1,...,10), и для творчества каждого автора, различаемых символом i (/ = 1,...,5), по совокупности двух произведений.
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: [email protected]
Этап 2. Вычисление по формуле
= 8ир|^„ (Я) — ¥]п (Я)| (1)
л
максимального значения взаимного отклонения функций распределения частотности биграмм / - го и 7 -го произведений (также / - го и 7 - го авторов), а по ним и статистики Н.В.Смирнова, см. [10]:
^) = ^ ^) . (2)
Этап 3. Проверка нулевой гипотезы Н0 о том, что пара произведений (авторов), помеченных символами / и 7, является выборками из одной и той же генеральной совокупности. Если речь идёт о произведениях, то они считаются однородными и могут принадлежать одному и тому же автору. Если же речь идёт об авторах, то их однородность понимается в смысле неразличимости соответствующих функций распределений частотностей биграмм.
Утверждение Н0 проверяется путём тестирования неравенства
> Ка, (3)
в котором Ка - квантиль А.Н.Колмогорова уровня значимости а ( = 0.05, 0.01, 0.001 ).
Если (3) выполняется для заданного уровня значимости а , то гипотеза Н0 об "однородности " / и 7 -объектов отвергается. Справедливой, с уровнем значимости 1 — а , становится конкурирующая (альтернативная) гипотеза Н, противоречащая Н0: / и 7 - объекты "не однородны". Если имеет место неравенство
Я'7) < Ка, (4)
то принимается гипотеза Н0 об "однородности" I и 7 - объектов.
Результаты 1-го этапа о распределениях частотности биграмм отдельных произведений и их авторов здесь не приводятся. По причине того, что они оказываются статистически неразличимыми, в конце статьи даётся список высокочастотных биграмм, свойственный таджикской литературе в целом.
Результаты 2-го этапа для произведений и авторов показаны в табл. 1 и 2. Представленные в них соответственно 25 и 10 чисел подсчитаны по формулам (1) и (2) после подстановки в них данных о функциях распределений частотностей биграмм тех произведений (авторов), на пересечениях строк и столбцов которых эти числа располагаются.
Таблица 1
Значения статистик 8(' 7) Н.В.Смирнова для пар произведений
Фирдауси Беж.ва Ман. Руми Дафтари Аввал Турсунзода Садои Осиё Шерали Катиба^о Айни А^мади Девбанд
Фирдауси Рустам ва Сугроб 0.1255 0.5185 1.4122 0.5098 0.9859
Руми Дафтари Дуввум 0.5163 0.1244 1.6699 0.6515 1.0217
Турсунзода Х,асани Аробакаш 0.8002 0.8770 0.8440 0.4407 0.4813
Л.Шерали Суханреза 0.7832 0.6633 1.0274 0.3784 0.7843
Айни Одина 0.8448 0.7294 0.9987 0.5117 0.4958
Таблица 2
Значения статистик 8(' 7) Н.В.Смирнова для авторских пар
Авторы Фирдауси Руми Турсунзода Шерали Айни
Фирдауси
Руми 0.5220
Турсунзода 0.8037 0.9642
Л.Шерали 0.6221 0.6568 0.3603
Айни 0.8398 0.7967 0.4102 0.4810
Результаты 3-го этапа связаны с проверкой нулевой гипотезы для уровня значимости а = 0.001, которому соответствует квантиль А.Н.Колмогорова со значением К = 195 . В этом
случае для всех статистик Н.В.Смирнова из табл. 1 и 2 выполняется неравенство (4), что эквивалентно утверждению об однородности каждой из 25 пар произведений и каждой из 10 пар авторов.
ЗАМЕЧАНИЕ. Отметим, что таблицы 1 и 2 рассчитаны для случая применения расширенного таджикского алфавита, то есть с учётом пробела в качестве дополнительной буквы. Однако и без учета пробела имеют место аналогичные результаты. Разумеется, статистики табл. 1 и 2 изменяются (в сторону увеличения своих значений), тем не менее неравенство (4) остаётся в силе.
3. Частотность биграмм таджикской литературы. Таким образом, функции распределений частотностей биграмм и произведений и их авторов оказались статистически неразличимыми. Это позволяет объединить в один файл все произведения и подсчитать распределение частот встречаемости биграмм в таджикской литературе (см. табл. 3 и 4).
Таблица 3
Относительная частотность таджикских биграмм с учётом пробела
и* 0.0271
ар 0.0271
*б 0.0232
н* 0.0217
д* 0.0191
он 0.0166
да 0.0165
р* 0.0160
а* 0.0142
ан 0.0137
ба 0.0135
о* 0.0132
*к 0.0128
*д 0.0128
*м 0.0128
*а 0.0127
р° 0.0106
0.0104
ам 0.0102
на 0.0099
ад 0.0099
ма 0.0095
у* 0.0093
*н 0.0087
та 0.0082
ст 0.0080
*о 0.0080
*х 0.0080
ин 0.0080
ха 0.0078
ас 0.0077
*т 0.0077
ра 0.0077
*г 0.0076
з* 0.0075
аз 0.0072
*х 0.0072
*с 0.0071
м* 0.0070
Й* 0.0068
нд 0.0067
уд 0.0065
°р 0.0064
*ш 0.0060
ун 0.0059
В пояснение табл. 3 напомним, что в рассматриваемом случае число различных биграмм - не более 1296. Из них в текстах встретилось 1073, не встретилось - 223. Уровень 75.027% покрытия исходной текстовой коллекции осуществляется 107 биграммами, а 50.454% - 45, список которых представлен в табл. 3. Общее число обработанных биграмм - 940409.
Таблица 4
Относительная частотность таджикских биграмм без учёта пробела
ар 0.0426
он 0.0262
да 0.0259
ан 0.0216
ба 0.0212
р° 0.0166
ам 0.0160
на 0.0156
ад 0.0155
ма 0.0150
та 0.0129
ст 0.0126
ин 0.0125
ха 0.0123
ас 0.0122
ра 0.0121
аз 0.0114
нд 0.0106
уд 0.0102
°р 0.0101
ун 0.0093
ка 0.0092
ва 0.0091
бо 0.0089
ни 0.0088
ди 0.0086
рд 0.0085
ри 0.0084
ки 0.0084
би 0.0081
аш 0.0080
ах 0.0079
до 0.0078
мо 0.0077
ур 0.0076
са 0.0076
хо 0.0071
га 0.0071
ав 0.0070
ша 0.0065
гу 0.0065
В пояснение табл. 4 напомним, что в этом случае число различных биграмм - не более 1225. Из них в текстах встретилось 1004, не встретилось - 221. Уровень 75.187% покрытия исходной текстовой коллекции осуществляется 104 биграммами, а 50.108 % - 41, список которых представлен в таблице 3. Общее число обработанных биграмм -597843.
Поступило 02.12.2015 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре.-Душанбе: Ирфон, 2010, 104 с.
2. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы. - Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112-115.
3. Фирдавсй А. Шоднома. - Душанбе: Адиб, 2007/2008/2009/2010, чилд 1-10, 4736 с.
4. Румй Ч,. Маснавии Маънавй (Дафтари Аввал). - Душанбе, 2015, 233 с.
5. Румй Ч. Маснавии Маънавй (Дафтари Дуввум). - Душанбе, 2015, 216 с.
6. Турсунзода М. Мунтахаби осор. - Душанбе, 2011, 145 с.
7. Шералй Л. Куллиёт, чилди 1. - Душанбе: Адиб, 2008, 564 с.
8. Айнй С. Адмади Девбанд (Куллиёт). - Душанбе: 1963, с. 5-36.
9. Айнй С. Одина (Асардои мунтахаб). - Сталинобод: Нашриёти давлатии Точикистон, 1949, с. 277-422.
10. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, Гл. ред. физ-мат. литературы, 1983, 416 с.
З.Ч,.Усмонов, А.АДосимов*
БАСОМАДИ ВОХУРИИ БИГРАММА^О ДАР АДАБИЁТИ ТО^ИК
Институти математика ба номи А. Цураев, Академияи илм^ои Цумхурии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд
Мукаррар карда шудааст, ки басомади вохурии биграммадои (чуфти дарфдо) забони точикй дар ашъори классикон ва мойрони муосир ва наср аз руи мушодидадои оморй фаркнакунанда аст. Маълумотдо оид ба басомади вохурии биграммадо оварда шудааст. Калима^ои калиди: забони тоцики, биграмма, басомади вохури.
Z.D.Usmanov, A.A.Kosimov* THE BIGRAM FREQUENCIES IN TAJIK LITERATURE
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University
It was established that frequencies of Tajik bigrams in classical and contemporary poetry and prose are statistically indistinguishable. The bigram data with the most frequencies are presented. Key words: Tajik language, bigram, frequency.