Научная статья на тему 'Частотность биграмм в таджикской литературе'

Частотность биграмм в таджикской литературе Текст научной статьи по специальности «Математика»

CC BY
126
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / БИГРАММА / ЧАСТОТНОСТЬ / TAJIK LANGUAGE / BIGRAM / FREQUENCY

Аннотация научной статьи по математике, автор научной работы — Усманов З.Д., Косимов А.А.

Установлено, что распределения частотности биграмм в произведениях классической и современной поэзии, а также в современной прозе таджикского языка статистически не различимы. Приводится список биграмм с наибольшей частотой встречаемости.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The bigram frequencies in tajik literature

It was established that frequencies of Tajik bigrams in classical and contemporary poetry and prose are statistically indistinguishable. The bigram data with the most frequencies are presented.

Текст научной работы на тему «Частотность биграмм в таджикской литературе»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2016, том 59, №1-2_

ИНФОРМАТИКА

УДК 81'322::811.222.8::519.25

Академик АН Республики Таджикистан З.Д.Усманов, А.А.Косимов

ЧАСТОТНОСТЬ БИГРАММ В ТАДЖИКСКОЙ ЛИТЕРАТУРЕ

Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими

Устанавлено, что распределения частотности биграмм в произведениях классической и современной поэзии, а также в современной прозе таджикского языка статистически не различимы. Приводится список биграмм с наибольшей частотой встречаемости.

Ключевые слова: таджикский язык, биграмма, частотность.

По своему содержанию настоящая статья примыкает к исследованиям [1, 2] частотности букв в таджикском языке. В ней на основе статистической обработки отдельных произведений поэтов и писателей, сведённых в единую текстовую коллекцию, сформирована общая картина частотности биграмм в таджикской литературе.

1. Информация о коллекции текстов. Репрезентативная выборка, предназначенная для исследовательских целей, была представлена поэмами А.Фирдауси "Бежан ва Манижа" и "Рустам ва Сухроб" [3], произведениями Дж.Руми [4,5], поэмами М.Турсунзода "Садои Осиё" и "Хдсани ароба-каш" из [6], произведениями Л.Шерали "Катибахо" и "Суханреза" из [7], прозой С.Айни [8,9].

2. Обработка литературных данных основывалась на учёте биграмм, используемых в качестве единицы измерения текста. Таджикский алфавит А состоит из 35 букв, двухбуквенные комбинации которых определяют множество различных биграмм в количестве 1225 = 352 (часть из них грамматически бессмысленна). Одновременно с A используется расширенный алфавит A* (к A в качестве формальной буквы присоединяется "пробел", обозначаемый в дальнейшем символом " * "). Ему соответствует расширенный набор из 1296 = 362 биграмм, который позволяет владеть дополнительной информацией как о самом произведении, так и его биграммах.

Процесс обработки данных осуществлялся в 3 этапа.

Этап 1. Вычисление частот встречаемости биграмм в двух вариантах:

- по отдельности для всех упомянутых в п.1 произведений;

- по совокупности двух произведений каждого автора.

На основе полученных данных строились функции распределения Fin (Я) частотности Я биграмм (с учётом и без учёта пробела) n для произведений, помеченных символом i (/ = 1,...,10), и для творчества каждого автора, различаемых символом i (/ = 1,...,5), по совокупности двух произведений.

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

Этап 2. Вычисление по формуле

= 8ир|^„ (Я) — ¥]п (Я)| (1)

л

максимального значения взаимного отклонения функций распределения частотности биграмм / - го и 7 -го произведений (также / - го и 7 - го авторов), а по ним и статистики Н.В.Смирнова, см. [10]:

^) = ^ ^) . (2)

Этап 3. Проверка нулевой гипотезы Н0 о том, что пара произведений (авторов), помеченных символами / и 7, является выборками из одной и той же генеральной совокупности. Если речь идёт о произведениях, то они считаются однородными и могут принадлежать одному и тому же автору. Если же речь идёт об авторах, то их однородность понимается в смысле неразличимости соответствующих функций распределений частотностей биграмм.

Утверждение Н0 проверяется путём тестирования неравенства

> Ка, (3)

в котором Ка - квантиль А.Н.Колмогорова уровня значимости а ( = 0.05, 0.01, 0.001 ).

Если (3) выполняется для заданного уровня значимости а , то гипотеза Н0 об "однородности " / и 7 -объектов отвергается. Справедливой, с уровнем значимости 1 — а , становится конкурирующая (альтернативная) гипотеза Н, противоречащая Н0: / и 7 - объекты "не однородны". Если имеет место неравенство

Я'7) < Ка, (4)

то принимается гипотеза Н0 об "однородности" I и 7 - объектов.

Результаты 1-го этапа о распределениях частотности биграмм отдельных произведений и их авторов здесь не приводятся. По причине того, что они оказываются статистически неразличимыми, в конце статьи даётся список высокочастотных биграмм, свойственный таджикской литературе в целом.

Результаты 2-го этапа для произведений и авторов показаны в табл. 1 и 2. Представленные в них соответственно 25 и 10 чисел подсчитаны по формулам (1) и (2) после подстановки в них данных о функциях распределений частотностей биграмм тех произведений (авторов), на пересечениях строк и столбцов которых эти числа располагаются.

Таблица 1

Значения статистик 8(' 7) Н.В.Смирнова для пар произведений

Фирдауси Беж.ва Ман. Руми Дафтари Аввал Турсунзода Садои Осиё Шерали Катиба^о Айни А^мади Девбанд

Фирдауси Рустам ва Сугроб 0.1255 0.5185 1.4122 0.5098 0.9859

Руми Дафтари Дуввум 0.5163 0.1244 1.6699 0.6515 1.0217

Турсунзода Х,асани Аробакаш 0.8002 0.8770 0.8440 0.4407 0.4813

Л.Шерали Суханреза 0.7832 0.6633 1.0274 0.3784 0.7843

Айни Одина 0.8448 0.7294 0.9987 0.5117 0.4958

Таблица 2

Значения статистик 8(' 7) Н.В.Смирнова для авторских пар

Авторы Фирдауси Руми Турсунзода Шерали Айни

Фирдауси

Руми 0.5220

Турсунзода 0.8037 0.9642

Л.Шерали 0.6221 0.6568 0.3603

Айни 0.8398 0.7967 0.4102 0.4810

Результаты 3-го этапа связаны с проверкой нулевой гипотезы для уровня значимости а = 0.001, которому соответствует квантиль А.Н.Колмогорова со значением К = 195 . В этом

случае для всех статистик Н.В.Смирнова из табл. 1 и 2 выполняется неравенство (4), что эквивалентно утверждению об однородности каждой из 25 пар произведений и каждой из 10 пар авторов.

ЗАМЕЧАНИЕ. Отметим, что таблицы 1 и 2 рассчитаны для случая применения расширенного таджикского алфавита, то есть с учётом пробела в качестве дополнительной буквы. Однако и без учета пробела имеют место аналогичные результаты. Разумеется, статистики табл. 1 и 2 изменяются (в сторону увеличения своих значений), тем не менее неравенство (4) остаётся в силе.

3. Частотность биграмм таджикской литературы. Таким образом, функции распределений частотностей биграмм и произведений и их авторов оказались статистически неразличимыми. Это позволяет объединить в один файл все произведения и подсчитать распределение частот встречаемости биграмм в таджикской литературе (см. табл. 3 и 4).

Таблица 3

Относительная частотность таджикских биграмм с учётом пробела

и* 0.0271

ар 0.0271

*б 0.0232

н* 0.0217

д* 0.0191

он 0.0166

да 0.0165

р* 0.0160

а* 0.0142

ан 0.0137

ба 0.0135

о* 0.0132

*к 0.0128

*д 0.0128

*м 0.0128

*а 0.0127

р° 0.0106

0.0104

ам 0.0102

на 0.0099

ад 0.0099

ма 0.0095

у* 0.0093

*н 0.0087

та 0.0082

ст 0.0080

*о 0.0080

*х 0.0080

ин 0.0080

ха 0.0078

ас 0.0077

*т 0.0077

ра 0.0077

*г 0.0076

з* 0.0075

аз 0.0072

*х 0.0072

*с 0.0071

м* 0.0070

Й* 0.0068

нд 0.0067

уд 0.0065

°р 0.0064

*ш 0.0060

ун 0.0059

В пояснение табл. 3 напомним, что в рассматриваемом случае число различных биграмм - не более 1296. Из них в текстах встретилось 1073, не встретилось - 223. Уровень 75.027% покрытия исходной текстовой коллекции осуществляется 107 биграммами, а 50.454% - 45, список которых представлен в табл. 3. Общее число обработанных биграмм - 940409.

Таблица 4

Относительная частотность таджикских биграмм без учёта пробела

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ар 0.0426

он 0.0262

да 0.0259

ан 0.0216

ба 0.0212

р° 0.0166

ам 0.0160

на 0.0156

ад 0.0155

ма 0.0150

та 0.0129

ст 0.0126

ин 0.0125

ха 0.0123

ас 0.0122

ра 0.0121

аз 0.0114

нд 0.0106

уд 0.0102

°р 0.0101

ун 0.0093

ка 0.0092

ва 0.0091

бо 0.0089

ни 0.0088

ди 0.0086

рд 0.0085

ри 0.0084

ки 0.0084

би 0.0081

аш 0.0080

ах 0.0079

до 0.0078

мо 0.0077

ур 0.0076

са 0.0076

хо 0.0071

га 0.0071

ав 0.0070

ша 0.0065

гу 0.0065

В пояснение табл. 4 напомним, что в этом случае число различных биграмм - не более 1225. Из них в текстах встретилось 1004, не встретилось - 221. Уровень 75.187% покрытия исходной текстовой коллекции осуществляется 104 биграммами, а 50.108 % - 41, список которых представлен в таблице 3. Общее число обработанных биграмм -597843.

Поступило 02.12.2015 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре.-Душанбе: Ирфон, 2010, 104 с.

2. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы. - Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112-115.

3. Фирдавсй А. Шоднома. - Душанбе: Адиб, 2007/2008/2009/2010, чилд 1-10, 4736 с.

4. Румй Ч,. Маснавии Маънавй (Дафтари Аввал). - Душанбе, 2015, 233 с.

5. Румй Ч. Маснавии Маънавй (Дафтари Дуввум). - Душанбе, 2015, 216 с.

6. Турсунзода М. Мунтахаби осор. - Душанбе, 2011, 145 с.

7. Шералй Л. Куллиёт, чилди 1. - Душанбе: Адиб, 2008, 564 с.

8. Айнй С. Адмади Девбанд (Куллиёт). - Душанбе: 1963, с. 5-36.

9. Айнй С. Одина (Асардои мунтахаб). - Сталинобод: Нашриёти давлатии Точикистон, 1949, с. 277-422.

10. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, Гл. ред. физ-мат. литературы, 1983, 416 с.

З.Ч,.Усмонов, А.АДосимов*

БАСОМАДИ ВОХУРИИ БИГРАММА^О ДАР АДАБИЁТИ ТО^ИК

Институти математика ба номи А. Цураев, Академияи илм^ои Цумхурии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд

Мукаррар карда шудааст, ки басомади вохурии биграммадои (чуфти дарфдо) забони точикй дар ашъори классикон ва мойрони муосир ва наср аз руи мушодидадои оморй фаркнакунанда аст. Маълумотдо оид ба басомади вохурии биграммадо оварда шудааст. Калима^ои калиди: забони тоцики, биграмма, басомади вохури.

Z.D.Usmanov, A.A.Kosimov* THE BIGRAM FREQUENCIES IN TAJIK LITERATURE

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University

It was established that frequencies of Tajik bigrams in classical and contemporary poetry and prose are statistically indistinguishable. The bigram data with the most frequencies are presented. Key words: Tajik language, bigram, frequency.

i Надоели баннеры? Вы всегда можете отключить рекламу.