ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2016, том 59, №3-4_
ИНФОРМАТИКА
УДК 81'322::811.222.8::519.25
Академик АН Республики Таджикистан З.Д.Усманов, А.А.Косимов
О РАСПОЗНАВАНИИ АВТОРСТВА ТАДЖИКСКОГО ТЕКСТА
Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
Устанавливается, что распределение частотности триграмм в произведениях классической и современной поэзии, а также в современной прозе таджикского языка является идентификатором авторства. Формируется приближённое представление о распределении частот встречаемости триграмм в современном литературном таджикском языке.
Ключевые слова: таджикский язык, триграмма, частотность.
В настоящей статье мы продолжаем тестирование количественных характеристик на предмет их пригодности для идентификации авторов текстов. В качестве таковых в [1, 2] рассматривались буквы таджикского алфавита, в [3] - буквенные биграммы, в [4] - набор из пяти натуральных единиц измерения текста. Теперь мы обращаемся к ещё одному количественному показателю текста - распределению частот встречаемости буквенных триграмм, с помощью которого удаётся устанавливать статистически достоверные различия как между произведениями, так и между творчеством различных авторов.
1. Информация о коллекции текстов. Репрезентативная выборка, исчисляемая в килобайтах (Кб) и предназначенная для исследовательских целей, представляется поэмами А.Фирдоуси "Бежан ва Манижа" (149 Кб) и "Рустам ва Судроб" (164 Кб) из [5]; произведениями Дж.Руми [6,7] "Дафтари Аввал" (486 Кб) и "Дафтари Дуввум" (414 Кб); поэмами М.Турсунзода "Садои Осиё" (102 Кб) и "Х,асани аробакаш" (92 Кб) из [8], произведениями Л.Шерали "Катибадо" (34.2 Кб) и "Суханреза" (41.3 Кб) из [9], прозой С.Айни [10,11] "Одина" (271 Кб) и 'Туломон" (383 Кб).
2. Обработка литературных данных производится на основе буквенных триграмм, применяемых в качестве единицы анализа текста. В этой связи напомним, что таджикский алфавит А состоит из 35 букв, трёхбуквенные комбинации которых определяют множество различных триграмм в
количестве 353 = 42875 (часть из них грамматически бессмысленна). Одновременно с A использует*
ся также и расширенный алфавит А (в качестве формальной буквы к A присоединяется "пробел", обозначаемый в дальнейшем символом " * "). Ему соответствует расширенный набор из 363 =46656 триграмм, который позволяет иметь дело с дополнительной информацией как относительно произведений, так и самих триграммах.
Процесс обработки литературных данных реализуется в 3 этапа.
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: [email protected]
Этап 1. Вычисление частот встречаемости триграмм в двух вариантах:
- по отдельности для всех упомянутых в п.1 произведений;
- по совокупности двух произведений каждого автора.
На основе полученных данных строятся функции распределения (X) частотности X триграмм (с учётом и без учёта пробела) как для произведений, помечаемых символом / (/ = 1, ...,10), так и для творчества каждого автора, различаемых символом /(/ = 1,...,5), по совокупности двух произведений.
Этап 2. Вычисление по формуле
^ = 8ир|^„ (X) - ¥]п (Х)| (1)
X
максимального значения взаимного отклонения функций распределения частотности триграмм / - го и у -го произведений (также I - го и у - го авторов), а по ним и статистики 1) Н.В.Смирнова (см. [12]) по формуле:
1) = ^ ^) • (2)
Этап 3. Проверка нулевой гипотезы Н0 о том, что пара произведений (авторов), помеченных символами / и у , являются выборками из одной и той же генеральной совокупности. Если речь идёт о произведениях, то они считаются однородными и могут принадлежать одному и тому же автору. Если же речь идёт об авторах, то их однородность понимается в смысле неразличимости соответствующих функций распределений частотностей триграмм.
Утверждение Н0 проверяется путём тестирования неравенства
^ > Ка, (3)
в котором Ка - квантиль А.Н.Колмогорова уровня значимости а (= 0.05, 0.01, 0.001).
Если (3) выполняется для заданного уровня значимости а , то гипотеза Н0 об "однородности" I и у - объектов отвергается. Справедливой, с уровнем значимости 1 — а , становится конкурирующая (альтернативная) гипотеза Н, противоречащая Н0: / и у - объекты "не однородны".
Если имеет место неравенство
^) < Ка, (4)
то принимается гипотеза Н0 об "однородности" I и у - объектов.
Результаты 1-го этапа о распределениях частотности триграмм отдельных произведений и их авторов здесь не приводятся по причине того, что соответствующие данные слишком большого объёма. Вместо них в конце статьи даётся список высокочастотных триграмм всей рассматриваемой кол-
лекции текстов, что формирует представление о частотности триграмм таджикской литературы в целом.
Результаты 2-го этапа для произведений и авторов показаны в табл. 1 и 2. Представленные в них соответственно 25 и 10 чисел подсчитаны по формулам (1) и (2) после подстановки в них данных о функциях распределений частотностей триграмм тех произведений (авторов), на пересечениях строк и столбцов которых эти числа располагаются.
Таблица 1
Значения статистик '1 1 Н.В.Смирнова для пар произведений
Произведения Фирдоуси Беж.&Ман. Руми Дафтари Аввал Турсунзода Садои Осиё Шерали Катиба^о Айни Fуломон
Фирдауси Рустам ва Сугроб 0.7664 3.1488 8.6722 3.2537 4.6268
Руми Дафтари Дуввум 3.1742 0.7478 10.0302 4.0365 5.1865
Турсунзода Х,асани Аробакаш 4.8512 5.2132 0.4871 2.7118 2.3275
Шерали Суханреза 4.7030 4.0793 6.2155 1.0670 2.7367
Айни Одина 5.1310 4.4203 6.0906 3.1281 1.5694
Отметим, что в этой таблице числа, расположенные на главной диагонали, являются статистиками Н.В.Смирнова для пар произведений одного и того же автора, а вне главной диагонали - для пар произведений различных авторов.
Таблица 2
Значения статистик '1 ^ Н.В.Смирнова для авторских пар
Авторы Фирдоуси Руми Турсунзода Шерали Айни
Фирдауси 0
Руми 3.1652 0
Турсунзода 4.8687 3.1652 0
Шерали 3.7541 4.8687 2.2443 0
Айни 5.1082 3.7541 2.6437 2.8863 0
По отношению к этой таблице следует напомнить, что каждый из пяти авторов представляется в ней двумя произведениями, совокупность которых рассматривается как одно целое. Таблица -симметричная, поэтому полученные данные приведены в клетках только ниже главной диагонали.
Результаты 3-го этапа связаны с проверкой нулевой гипотезы для уровня значимости а = 0.001, которому соответствует квантиль А.Н.Колмогорова со значением Ка = 1.95 . В этом случае
для всех статистик Н.В.Смирнова из табл. 1 и 2, расположенных на главной диагонали, выполняется неравенство (4). Согласно критерию однородности Н.В.Смирнова, это эквивалентно утверждению о том, что произведения одного и того же автора однородны, то есть подчиняются одному и тому же распределению частотностей триграмм.
Что касается статистик Н.В.Смирнова, расположенных вне главной диагонали табл. 1 и 2, то для них выполняется неравенство (3). Последнее эквивалентно утверждению о том, что произведения разных авторов не однородны, то есть принадлежат различным распределениям частот встречаемости триграмм.
Таким образом, установлено, что буквенные триграммы можно использовать в качестве одного из информативных признаков в решении задачи идентификации автора печатного текста на таджикском языке. Сделанный вывод согласуется с аналогичными результатами для других языков [13].
Замечание. Отметим, что табл. 1 и 2 рассчитаны для случая применения расширенного тад-
*
жикского алфавита А , то есть с учётом пробела в качестве дополнительной буквы. Однако и без учета пробела имеют место аналогичные результаты. Разумеется, статистики табл. 1 и 2 изменяются (в сторону увеличения своих значений), тем не менее неравенства (3) и (4) остаются в силе.
3. О частотности триграмм в таджикской литературе. Основной вывод, сделанный в предыдущем пункте, подсказывает, что о частотах буквенных триграмм можно говорить лишь в применении к отдельным текстам, произведениям и даже к творчеству конкретных писателей и поэтов. Вместе с тем статистически достоверные различия обнаруживаются как между произведениями, так и между творчеством различных авторов. Следовательно, приводимые далее в табл. 3 и 4 распределения частот встречаемости триграмм могут быть полезны для формирования хотя бы приближённого представления о том, что имеет место для генеральной совокупности - современного литературного таджикского языка.
Таблица 3
Относительная частотность таджикских триграмм с учётом пробела
ар* 0.0114
*ба 0.0112
он* 0.0098
*да 0.0065
ад* 0.0065
дар 0.0063
*ха 0.0062
ро* 0.0057
аз* 0.0057
анд 0.0054
*ма 0.0054
*аз 0.0053
ба* 0.0051
ин* 0.0049
ст* 0.0049
*на 0.0048
ам* 0.0044
аст 0.0042
*ки 0.0042
*ка 0.0042
ард 0.0042
ки* 0.0041
*бо 0.0040
бар 0.0039
ан* 0.0036
уд* 0.0036
*са 0.0035
*би 0.0034
*гу 0.0033
ри* 0.0033
*он 0.0032
нд* 0.0030
ни* 0.0030
аро 0.0029
*ва 0.0029
н*б 0.0029
хам 0.0029
гар 0.0029
*ин 0.0028
*ме 0.0028
*бу 0.0028
ун* 0.0028
*чу 0.0027
*ху 0.0027
и*м 0.0026
*ра 0.0026
*ту 0.0026
*та 0.0026
да* 0.0026
ту* 0.0025
д*б 0.0025
*зи 0.0024
*ди 0.0024
*га 0.0024
о*б 0.0023
кар 0.0023
а*б 0.0022
*шу 0.0022
ман 0.0022
*ас 0.0022
и*х 0.0022
уфт 0.0022
чун 0.0021
*па 0.0021
рда 0.0021
дан 0.0021
Напомним, что в рассматриваемом случае число различных триграмм - не более 46656. Из них в текстах встретилось 9916, не встретилось - 36740. Уровень 75.001% покрытия исходной текстовой коллекции осуществлялся 904 триграммами, а 50.006% - 280 и 25.062% - 66 , список которых представлен в табл. 3. Общее число обработанных триграмм - 940408.
Таблица 4
Относительная частотность таджикских триграмм без учёта пробела
дар 0.0139
анд 0.0119
аст 0.0093
ард 0.0092
бар 0.0086
аро 0.0065
хам 0.0063
гар 0.0063
кар 0.0050
ман 0.0048
уфт 0.0047
чун 0.0047
рда 0.0046
дан 0.0046
нда 0.0046
они 0.0042
гуф 0.0042
шуд 0.0042
она 0.0041
мон 0.0041
буд 0.0037
тан 0.0037
ара 0.0035
над 0.0035
мар 0.0035
сар 0.0034
хар 0.0034
мад 0.0033
худ 0.0033
дон 0.0033
рон 0.0033
кун 0.0033
ома 0.0032
нам 0.0031
уда 0.0031
ари 0.0030
ида 0.0029
тар 0.0029
ахо 0.0029
ста 0.0027
анг 0.0027
ора 0.0027
вад 0.0026
аво 0.0026
дам 0.0026
фта 0.0026
амо 0.0026
ада 0.0025
ода 0.0025
дид 0.0025
дор 0.0025
вар 0.0024
ори 0.0024
бад 0.0022
дил 0.0022
вон 0.0022
ама 0.0022
уна 0.0022
ани 0.0021
фар 0.0021
дас 0.0021
ист 0.0021
хон 0.0021
шон 0.0020
оро 0.0020
кор 0.0020
В пояснение табл. 4 напомним, что в этом случае число различных триграмм - не более 42875. Из них в текстах встретилось 7902, не встретилось - 34973. Уровень 75.012% покрытия исходной текстовой коллекции осуществляется 892 триграммами, а 50.002 % - 284 и 25.147 % - 66 , список которых представлен в табл. 4. Общее число обработанных триграмм - 428843.
Поступило 24.01.2016 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре.-Душанбе: Ирфон, 2010, 104 с.
2. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы - Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112-115.
3. Усманов З.Д., Косимов А.А. Частотность биграмм таджикской литературы - Доклады Академии наук Республики Таджикистан, 2016, т.59, № 1-2, с. -.
4. Усманов З.Д., Косимов А.А. Цифровой образ "Шахнаме" ("Книги царей") А.Фирдоуси -Доклады Академии наук Республики Таджикистан, 2014, т.57, № 6, с. 471- 476.
5. Фирдавсй А. Шоднома.- Душанбе: Адиб, 2007/2008/2009/2010, чилд 1-10, 4736 с.
6. Румй Ч,. Маснавии Маънавй (Дафтари Аввал).- Душанбе: 2015, 233 с.
7. Румй Ч,. Маснавии Маънавй (Дафтари Дуввум).- Душанбе: 2015, 216 с.
8. Турсунзода М. Мунтахаби осор.- Душанбе: 2011, 145 с.
9. Шералй Л. Куллиёт, чилди 1.- Душанбе: Адиб, 2008, 564 с.
10. Айнй С. Ахмади Девбанд (Куллиёт).- Душанбе: 1963, с. 5 - 36.
11. Айнй С. Одина (Асархои мунтахаб).- Сталинобод: Нашриёти давлатии Точикистон, 1949, с. 277-422.
12. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики.- Москва: Наука, Гл. ред. физ-мат. литературы, 1983, 416 с.
13. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. - Томск: В-Спектр, 2011, 188 с.
З.Ч,.Усмонов, А.А.Косимов*
ОИДИ ШИНОХТАНИ МУАЛЛИФИ МАТНИ ТОНИКИ
Институти математика ба номи А. Цураев, Академияи илм^ои Цумхурии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд
Мукаррар карда шудааст, ки басомади вохурии триграммами (пайдарпайии се дарф) забони точикй дар ашъори классикон ва муосир ва наср ин муайянкунандаи муаллиф аст. На-моиши такриби оид ба басомади вохурии триграммах,о дар адабиёти муосири забони точикй ташаккул дода шудааст.
Калима^ои калиди: забони тоцики, триграмма, басомади вохури.
Z.D.Usmanov, A.A.Kosimov ON AUTHORSHIP IDENTIFICATION OF A TEXT WRITTEN IN TAJIK
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University
We establish that the frequency distribution of letter trigrams is an identifier of authorship for works in Tajik classical and contemporary poetry and prose. We present a rough idea about the frequency distribution of trigrams in the modern Tajik literary language. Key words: Tajik language, trigram, frequency.