ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2015, том 58, №2_
ИНФОРМАТИКА
УДК 81'322::811.222.8::519.25
Академик АН Республики Таджикистан З.Д.Усманов, А.А.Косимов
ЧАСТОТНОСТЬ БУКВ ТАДЖИКСКОЙ ЛИТЕРАТУРЫ
Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
Устанавливается, что частотность букв таджикского языка в классической и современной поэзии и прозе статистически не различимы. Приводятся данные о частотности букв и средней информации на один знак таджикского алфавита.
Ключевые слова: таджикский язык - буквы - частотность.
Первые исследования по частоте встречаемости букв в таджикском языке были предприняты в [1] и связывались с определениями "наилучшей" раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. В настоящей работе на основе статистической обработки произведений отдельных поэтов и писателей
сформирована общая картина частотности букв в классической и современной таджикской литературе.
1. Материал. Наша выборка для исследования частоты встречаемости букв в таджикской литературе была представлена одиннадцатью поэмами из "Шахнаме" А.Фирдауси [2], двумя произведениями из поэзии Н.Хисрава [3,4], поэмами М.Турсунзаде [5] и М.Каноата [6,7], фрагментами из полного собрания сочинений Л.Шерали [8] и художественной прозой С.Айни [9,10] и Дж.Икроми [11].
2. Количественное описание выборки. Объёмы статистической информации, измеренные в килобайтах (Кб), а для стихотворений также и в количестве байтов (двустиший или пар строк) и подвергнутые обработке, распределялись следующим образом:
- поэмы А.Фирдауси: "Тадмурас" (5.58 Кб, 50 байт), "Ч,амшед" (24.1 Кб, 216 байт), "Заддок" (60.3 Кб, 541 байт), "Фаридун" (127 Кб, 1151 байт), "Манучедр" (226 Кб, 2028 байт), "Нузар" (68.2Кб, 611 байт), "Кайковус" (110 Кб, 992 байт), "Судроб" (164 Кб, 1459 байт), "Сиёвуш" (313 Кб, 2764 байт). "Достони чанги Рустам бо Аквондев" (26.1 Кб, 232 байт), Достони Бежан бо "Манижа" (149 Кб, 1335 байт);
- произведения Н.Хисрава: "Саодатнома" (33.4 Кб, 300 байт), "Маснавидо" (17.1 Кб, 151
байт);
- М.Турсунзаде: "Садои Осиё" (9.89 Кб, 67 байт);
- М.Каноат: "Масъуднома" (11.3 Кб, 89 байт), "Суруши якум" (36 Кб, 323 байт);
- Л.Шерали: "Куллиёт" (129.8 Кб, 1131 байт);
- проза С.Айни: "Адмади Девбанд" (86.2 Кб), "Гуломон" (383 Кб);
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1, Институт математики АН РТ. E-mail: [email protected]
- проза Дж.Икроми: "Ман гунах,корам" (666 Кб).
3. Обработка статистического материала включала в себя 3 этапа.
Этап 1. Вычисления частот встречаемости букв (с учётом и без учёта пробелов) по отдельности для всех упомянутых в п.2 произведений.
Этап 2. Подсчёт коэффициентов корреляции между частотностями букв всевозможных пар произведений.
Этап 3. Проверка гипотезы о значимости полученных коэффициентов корреляции.
4. Результаты обработки статистических данных показали высокую степень коррелируемо-сти частотностей букв всевозможных пар произведений. Среди них минимальные значения коэффициентов корреляции, равные 0.900 и 0.967, установлены соответственно между "Маснавих,о" Н.Хисрава и "Масъуднома" М.Каноата (с учётом пробелов) и между "Масъуднома" М.Каноата и "Манучехр" А.Фирдауси (без учёта пробелов) а= 0.001.
При уровне значимости и числах степеней свободы к = 34 (с учётом пробелов) и к = 33 (без учёта пробелов) критическая точка распределения Стьюдента ^ (а, к) принимает одно и то же значение 3.65. Что касается наблюдаемого значения Тнабл, то в первом случае оно равно 12.01, а во втором - 18.72. В обоих случаях Тнабл > tkp(а,к). Это значит, что даже при самых "малых" значениях коэффициентов корреляции нулевая гипотеза (Н0 : г = 0) о равенстве нулю генерального коэффициента корреляции должна быть отвергнута [12]. Следовательно, и в рассматриваемой ситуации имеет место значимая коррелируемость частотностей букв отмеченных произведений. Очевидно также, что для всех прочих пар произведений справедливы аналогичные утверждения.
Заключение. Из полученных результатов извлекается следующее статистическое
Утверждение. Частотности знаков таджикского алфавита (букв с пробелами и без них) в произведениях поэтов классической таджикско-персидской литературы, а также различных авторов современной таджикской поэзии и прозы статистически не различимы.
Высказанное утверждение опирается на результаты обработки ограниченного по объёму материала, который, тем не менее, как по составу авторов, так и по списку использованных произведений представляет собой репрезентативную выборку из генеральной совокупности изучаемой предметной области. Этот факт подтверждается тем, что вычисленные для других случайно выбранных произведений - А.Фирдауси "Озармдухт" (1.13 Кб, 10 байт), У.Хайём "Рубоих,о" (26 Кб, 202 байт) и С.Айни: Шеърх,о (11.5 Кб, 102 байт) - частотности букв совпадают между собой и их корреляции с прежде полученными частотами являются статистически значимыми.
Далее в двух таблицах приводятся средневзвешенные данные об относительных частотах встречаемости букв (с учётом и без учёта пробелов) в таджикской литературе, вычисленные по всем обработанным в настоящей статье текстам.
Доклады Академии наук Республики Таджикистан 2015, том 58, №2
Таблица 1
Относительная частота X таджикских букв (с учётом пробела)
Буквы X
пробел 0.183
а 0.135
о 0.069
р 0.060
и 0.060
н 0.056
д 0.055
у 0.038
б 0.036
м 0.034
т 0.029
с 0.022
Буквы X
к 0.022
ш 0.021
X 0.021
з 0.020
е 0.017
г 0.015
в 0.013
х 0.013
л 0.010
У 0.010
ф 0.009
п 0.009
Буквы X
ч 0.007
Ч 0.006
й 0.006
й 0.005
я 0.005
ё 0.004
К 0.003
г 0.002
э 0.001
ъ 0.001
ж 0.001
ю 0.0004
Интересно отметить, что даже "небольшие" произведения, каковыми являются случайно выбранные, а также им подобные из репрезентативной выборки ("Тахмурас", "Садои Осиё", "Масъуд-нома"), выдают "почти" одинаковые частоты встречаемости букв таджикского алфавита.
Таблица 2
Относительная частота X таджикских букв (без учёта пробелов)
Буквы X
а 0.165
о 0.084
р 0.074
и 0.073
н 0.068
д 0.068
у 0.047
б 0.045
м 0.042
т 0.036
с 0.027
к 0.027
Буквы X
ш 0.026
X 0.025
з 0.024
е 0.021
г 0.019
в 0.016
х 0.015
л 0.012
У 0.012
ф 0.011
п 0.010
ч 0.008
Буквы X
Ч 0.007
й 0.007
й 0.007
я 0.006
ё 0.005
К 0.004
г 0.002
э 0.001
ъ 0.001
ж 0.001
ю 0.0005
Формула К.Шеннона
п
1 = 10§2 Х >
1=1
в которой Xi 0 = п) - частоты встречаемости букв, позволяет подсчитать среднее количество
информации, приходящейся на одну букву. По данным табл. 1 получаем 1[г> = 4.25 бит (с учётом пробела) , а из другой таблицы следует 1[(> = 4.36 бит (без учёта пробелов).
Поступило 26.12.2014 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре - Душанбе: Ирфон, 2010, 104 с.
2. Фирдавсй А. Шохнома - Душанбе: Адиб, 2007/2008.
3. Хисрав Н. Саодатнома (Мунтахаби осор, Куллиёт, чилди 1). - Душанбе: Ирфон, 1991, с. 551-568.
4. Хисрав Н. Аз маснавих,о (Гулшани Адаб, чилди 1). - Душанбе: Ирфон, 1975, с. 168-175.
5. Турсунзаде М. Садои Осиё (Мунтахаби осор). - Душанбе, 2011, с.103-121.
6. Каноат М. Масъуднома. - http://www.cit.tj/mumin.
7. Каноат М. Суруши якум. - http://www.cit.tj/mumin.
8. Шерали Л. Куллиёт, чилди 1. - Душанбе: Адиб, 2008, 564 с.
9. Айни С. Ах,мади Девбанд (Куллиёт). - Душанбе: 1963, с. 5-36.
10. Айни С. Гуломон.- Сталинобод: Нашриёти давлатии Точикистон, 1950, 493 с.
11. Икроми Дж. Ман гунахкорам (Асархои мунтахаб, чилди 1). - Душанбе: Адиб, 1987, с. 161-348.
12. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2005, 480 с.
3.Ч,.Усмонов, А.А.Косимов
БАСОМАДИ ВОХУРИИ ^АРФ^ОИ АДАБИЁТИ ТО^ИК
Институтиматематика ба номи А.Цураев, Академияи илмх;ои Цум^урии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Точикистон ба номи М.С.Осими дар ш. Хуцанд
Мукаррар карда шуд, ки басомади вохурии харфхои забони точикй дар ашъори класси-кон ва шоирони муосир ва наср аз мушохидаи оморй фаркнакунандааст. Маълумотхо оид ба басомади вохурй ва хисоби миёнаи маълумот ба як харфи алифбои точикй оварда шудааст. Калима^ои калиди: забони тоцикй - %арф%о - басомади вохурй.
Z.D.Usmanov, A.A.Kosimov* FREQUENCIES OF THE LETTERS IN TAJIK LITERATURE
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, *Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University Established that frequencies of Tajik letters in classical and contemporary poetry and prose are statistically indistinguishable. The data of the letter frequencies and an average information per the symbol of Tajik alphabet are presented.
Key words: Tajik language - letter - frequency.