Научная статья на тему 'О распознавании авторства таджикского текста'

О распознавании авторства таджикского текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
135
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / ТРИГРАММА / ЧАСТОТНОСТЬ / TAJIK LANGUAGE / TRIGRAM / FREQUENCY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З.Д., Косимов А.А.

Устанавливается, что распределение частотности триграмм в произведениях классической и современной поэзии, а также в современной прозе таджикского языка является идентификатором авторства. Формируется приближённое представление о распределении частот встречаемости триграмм в современном литературном таджикском языке.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On authorship identification of a text written in tajik

We establish that the frequency distribution of letter trigrams is an identifier of authorship for works in Tajik classical and contemporary poetry and prose. We present a rough idea about the frequency distribution of trigrams in the modern Tajik literary language.

Текст научной работы на тему «О распознавании авторства таджикского текста»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2016, том 59, №3-4_

ИНФОРМАТИКА

УДК 81'322::811.222.8::519.25

Академик АН Республики Таджикистан З.Д.Усманов, А.А.Косимов

О РАСПОЗНАВАНИИ АВТОРСТВА ТАДЖИКСКОГО ТЕКСТА

Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими

Устанавливается, что распределение частотности триграмм в произведениях классической и современной поэзии, а также в современной прозе таджикского языка является идентификатором авторства. Формируется приближённое представление о распределении частот встречаемости триграмм в современном литературном таджикском языке.

Ключевые слова: таджикский язык, триграмма, частотность.

В настоящей статье мы продолжаем тестирование количественных характеристик на предмет их пригодности для идентификации авторов текстов. В качестве таковых в [1, 2] рассматривались буквы таджикского алфавита, в [3] - буквенные биграммы, в [4] - набор из пяти натуральных единиц измерения текста. Теперь мы обращаемся к ещё одному количественному показателю текста - распределению частот встречаемости буквенных триграмм, с помощью которого удаётся устанавливать статистически достоверные различия как между произведениями, так и между творчеством различных авторов.

1. Информация о коллекции текстов. Репрезентативная выборка, исчисляемая в килобайтах (Кб) и предназначенная для исследовательских целей, представляется поэмами А.Фирдоуси "Бежан ва Манижа" (149 Кб) и "Рустам ва Судроб" (164 Кб) из [5]; произведениями Дж.Руми [6,7] "Дафтари Аввал" (486 Кб) и "Дафтари Дуввум" (414 Кб); поэмами М.Турсунзода "Садои Осиё" (102 Кб) и "Х,асани аробакаш" (92 Кб) из [8], произведениями Л.Шерали "Катибадо" (34.2 Кб) и "Суханреза" (41.3 Кб) из [9], прозой С.Айни [10,11] "Одина" (271 Кб) и 'Туломон" (383 Кб).

2. Обработка литературных данных производится на основе буквенных триграмм, применяемых в качестве единицы анализа текста. В этой связи напомним, что таджикский алфавит А состоит из 35 букв, трёхбуквенные комбинации которых определяют множество различных триграмм в

количестве 353 = 42875 (часть из них грамматически бессмысленна). Одновременно с A использует*

ся также и расширенный алфавит А (в качестве формальной буквы к A присоединяется "пробел", обозначаемый в дальнейшем символом " * "). Ему соответствует расширенный набор из 363 =46656 триграмм, который позволяет иметь дело с дополнительной информацией как относительно произведений, так и самих триграммах.

Процесс обработки литературных данных реализуется в 3 этапа.

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

Этап 1. Вычисление частот встречаемости триграмм в двух вариантах:

- по отдельности для всех упомянутых в п.1 произведений;

- по совокупности двух произведений каждого автора.

На основе полученных данных строятся функции распределения (X) частотности X триграмм (с учётом и без учёта пробела) как для произведений, помечаемых символом / (/ = 1, ...,10), так и для творчества каждого автора, различаемых символом /(/ = 1,...,5), по совокупности двух произведений.

Этап 2. Вычисление по формуле

^ = 8ир|^„ (X) - ¥]п (Х)| (1)

X

максимального значения взаимного отклонения функций распределения частотности триграмм / - го и у -го произведений (также I - го и у - го авторов), а по ним и статистики 1) Н.В.Смирнова (см. [12]) по формуле:

1) = ^ ^) • (2)

Этап 3. Проверка нулевой гипотезы Н0 о том, что пара произведений (авторов), помеченных символами / и у , являются выборками из одной и той же генеральной совокупности. Если речь идёт о произведениях, то они считаются однородными и могут принадлежать одному и тому же автору. Если же речь идёт об авторах, то их однородность понимается в смысле неразличимости соответствующих функций распределений частотностей триграмм.

Утверждение Н0 проверяется путём тестирования неравенства

^ > Ка, (3)

в котором Ка - квантиль А.Н.Колмогорова уровня значимости а (= 0.05, 0.01, 0.001).

Если (3) выполняется для заданного уровня значимости а , то гипотеза Н0 об "однородности" I и у - объектов отвергается. Справедливой, с уровнем значимости 1 — а , становится конкурирующая (альтернативная) гипотеза Н, противоречащая Н0: / и у - объекты "не однородны".

Если имеет место неравенство

^) < Ка, (4)

то принимается гипотеза Н0 об "однородности" I и у - объектов.

Результаты 1-го этапа о распределениях частотности триграмм отдельных произведений и их авторов здесь не приводятся по причине того, что соответствующие данные слишком большого объёма. Вместо них в конце статьи даётся список высокочастотных триграмм всей рассматриваемой кол-

лекции текстов, что формирует представление о частотности триграмм таджикской литературы в целом.

Результаты 2-го этапа для произведений и авторов показаны в табл. 1 и 2. Представленные в них соответственно 25 и 10 чисел подсчитаны по формулам (1) и (2) после подстановки в них данных о функциях распределений частотностей триграмм тех произведений (авторов), на пересечениях строк и столбцов которых эти числа располагаются.

Таблица 1

Значения статистик '1 1 Н.В.Смирнова для пар произведений

Произведения Фирдоуси Беж.&Ман. Руми Дафтари Аввал Турсунзода Садои Осиё Шерали Катиба^о Айни Fуломон

Фирдауси Рустам ва Сугроб 0.7664 3.1488 8.6722 3.2537 4.6268

Руми Дафтари Дуввум 3.1742 0.7478 10.0302 4.0365 5.1865

Турсунзода Х,асани Аробакаш 4.8512 5.2132 0.4871 2.7118 2.3275

Шерали Суханреза 4.7030 4.0793 6.2155 1.0670 2.7367

Айни Одина 5.1310 4.4203 6.0906 3.1281 1.5694

Отметим, что в этой таблице числа, расположенные на главной диагонали, являются статистиками Н.В.Смирнова для пар произведений одного и того же автора, а вне главной диагонали - для пар произведений различных авторов.

Таблица 2

Значения статистик '1 ^ Н.В.Смирнова для авторских пар

Авторы Фирдоуси Руми Турсунзода Шерали Айни

Фирдауси 0

Руми 3.1652 0

Турсунзода 4.8687 3.1652 0

Шерали 3.7541 4.8687 2.2443 0

Айни 5.1082 3.7541 2.6437 2.8863 0

По отношению к этой таблице следует напомнить, что каждый из пяти авторов представляется в ней двумя произведениями, совокупность которых рассматривается как одно целое. Таблица -симметричная, поэтому полученные данные приведены в клетках только ниже главной диагонали.

Результаты 3-го этапа связаны с проверкой нулевой гипотезы для уровня значимости а = 0.001, которому соответствует квантиль А.Н.Колмогорова со значением Ка = 1.95 . В этом случае

для всех статистик Н.В.Смирнова из табл. 1 и 2, расположенных на главной диагонали, выполняется неравенство (4). Согласно критерию однородности Н.В.Смирнова, это эквивалентно утверждению о том, что произведения одного и того же автора однородны, то есть подчиняются одному и тому же распределению частотностей триграмм.

Что касается статистик Н.В.Смирнова, расположенных вне главной диагонали табл. 1 и 2, то для них выполняется неравенство (3). Последнее эквивалентно утверждению о том, что произведения разных авторов не однородны, то есть принадлежат различным распределениям частот встречаемости триграмм.

Таким образом, установлено, что буквенные триграммы можно использовать в качестве одного из информативных признаков в решении задачи идентификации автора печатного текста на таджикском языке. Сделанный вывод согласуется с аналогичными результатами для других языков [13].

Замечание. Отметим, что табл. 1 и 2 рассчитаны для случая применения расширенного тад-

*

жикского алфавита А , то есть с учётом пробела в качестве дополнительной буквы. Однако и без учета пробела имеют место аналогичные результаты. Разумеется, статистики табл. 1 и 2 изменяются (в сторону увеличения своих значений), тем не менее неравенства (3) и (4) остаются в силе.

3. О частотности триграмм в таджикской литературе. Основной вывод, сделанный в предыдущем пункте, подсказывает, что о частотах буквенных триграмм можно говорить лишь в применении к отдельным текстам, произведениям и даже к творчеству конкретных писателей и поэтов. Вместе с тем статистически достоверные различия обнаруживаются как между произведениями, так и между творчеством различных авторов. Следовательно, приводимые далее в табл. 3 и 4 распределения частот встречаемости триграмм могут быть полезны для формирования хотя бы приближённого представления о том, что имеет место для генеральной совокупности - современного литературного таджикского языка.

Таблица 3

Относительная частотность таджикских триграмм с учётом пробела

ар* 0.0114

*ба 0.0112

он* 0.0098

*да 0.0065

ад* 0.0065

дар 0.0063

*ха 0.0062

ро* 0.0057

аз* 0.0057

анд 0.0054

*ма 0.0054

*аз 0.0053

ба* 0.0051

ин* 0.0049

ст* 0.0049

*на 0.0048

ам* 0.0044

аст 0.0042

*ки 0.0042

*ка 0.0042

ард 0.0042

ки* 0.0041

*бо 0.0040

бар 0.0039

ан* 0.0036

уд* 0.0036

*са 0.0035

*би 0.0034

*гу 0.0033

ри* 0.0033

*он 0.0032

нд* 0.0030

ни* 0.0030

аро 0.0029

*ва 0.0029

н*б 0.0029

хам 0.0029

гар 0.0029

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

*ин 0.0028

*ме 0.0028

*бу 0.0028

ун* 0.0028

*чу 0.0027

*ху 0.0027

и*м 0.0026

*ра 0.0026

*ту 0.0026

*та 0.0026

да* 0.0026

ту* 0.0025

д*б 0.0025

*зи 0.0024

*ди 0.0024

*га 0.0024

о*б 0.0023

кар 0.0023

а*б 0.0022

*шу 0.0022

ман 0.0022

*ас 0.0022

и*х 0.0022

уфт 0.0022

чун 0.0021

*па 0.0021

рда 0.0021

дан 0.0021

Напомним, что в рассматриваемом случае число различных триграмм - не более 46656. Из них в текстах встретилось 9916, не встретилось - 36740. Уровень 75.001% покрытия исходной текстовой коллекции осуществлялся 904 триграммами, а 50.006% - 280 и 25.062% - 66 , список которых представлен в табл. 3. Общее число обработанных триграмм - 940408.

Таблица 4

Относительная частотность таджикских триграмм без учёта пробела

дар 0.0139

анд 0.0119

аст 0.0093

ард 0.0092

бар 0.0086

аро 0.0065

хам 0.0063

гар 0.0063

кар 0.0050

ман 0.0048

уфт 0.0047

чун 0.0047

рда 0.0046

дан 0.0046

нда 0.0046

они 0.0042

гуф 0.0042

шуд 0.0042

она 0.0041

мон 0.0041

буд 0.0037

тан 0.0037

ара 0.0035

над 0.0035

мар 0.0035

сар 0.0034

хар 0.0034

мад 0.0033

худ 0.0033

дон 0.0033

рон 0.0033

кун 0.0033

ома 0.0032

нам 0.0031

уда 0.0031

ари 0.0030

ида 0.0029

тар 0.0029

ахо 0.0029

ста 0.0027

анг 0.0027

ора 0.0027

вад 0.0026

аво 0.0026

дам 0.0026

фта 0.0026

амо 0.0026

ада 0.0025

ода 0.0025

дид 0.0025

дор 0.0025

вар 0.0024

ори 0.0024

бад 0.0022

дил 0.0022

вон 0.0022

ама 0.0022

уна 0.0022

ани 0.0021

фар 0.0021

дас 0.0021

ист 0.0021

хон 0.0021

шон 0.0020

оро 0.0020

кор 0.0020

В пояснение табл. 4 напомним, что в этом случае число различных триграмм - не более 42875. Из них в текстах встретилось 7902, не встретилось - 34973. Уровень 75.012% покрытия исходной текстовой коллекции осуществляется 892 триграммами, а 50.002 % - 284 и 25.147 % - 66 , список которых представлен в табл. 4. Общее число обработанных триграмм - 428843.

Поступило 24.01.2016 г.

ЛИТЕРАТУРА

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре.-Душанбе: Ирфон, 2010, 104 с.

2. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы - Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112-115.

3. Усманов З.Д., Косимов А.А. Частотность биграмм таджикской литературы - Доклады Академии наук Республики Таджикистан, 2016, т.59, № 1-2, с. -.

4. Усманов З.Д., Косимов А.А. Цифровой образ "Шахнаме" ("Книги царей") А.Фирдоуси -Доклады Академии наук Республики Таджикистан, 2014, т.57, № 6, с. 471- 476.

5. Фирдавсй А. Шоднома.- Душанбе: Адиб, 2007/2008/2009/2010, чилд 1-10, 4736 с.

6. Румй Ч,. Маснавии Маънавй (Дафтари Аввал).- Душанбе: 2015, 233 с.

7. Румй Ч,. Маснавии Маънавй (Дафтари Дуввум).- Душанбе: 2015, 216 с.

8. Турсунзода М. Мунтахаби осор.- Душанбе: 2011, 145 с.

9. Шералй Л. Куллиёт, чилди 1.- Душанбе: Адиб, 2008, 564 с.

10. Айнй С. Ахмади Девбанд (Куллиёт).- Душанбе: 1963, с. 5 - 36.

11. Айнй С. Одина (Асархои мунтахаб).- Сталинобод: Нашриёти давлатии Точикистон, 1949, с. 277-422.

12. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики.- Москва: Наука, Гл. ред. физ-мат. литературы, 1983, 416 с.

13. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. - Томск: В-Спектр, 2011, 188 с.

З.Ч,.Усмонов, А.А.Косимов*

ОИДИ ШИНОХТАНИ МУАЛЛИФИ МАТНИ ТОНИКИ

Институти математика ба номи А. Цураев, Академияи илм^ои Цумхурии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд

Мукаррар карда шудааст, ки басомади вохурии триграммами (пайдарпайии се дарф) забони точикй дар ашъори классикон ва муосир ва наср ин муайянкунандаи муаллиф аст. На-моиши такриби оид ба басомади вохурии триграммах,о дар адабиёти муосири забони точикй ташаккул дода шудааст.

Калима^ои калиди: забони тоцики, триграмма, басомади вохури.

Z.D.Usmanov, A.A.Kosimov ON AUTHORSHIP IDENTIFICATION OF A TEXT WRITTEN IN TAJIK

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University

We establish that the frequency distribution of letter trigrams is an identifier of authorship for works in Tajik classical and contemporary poetry and prose. We present a rough idea about the frequency distribution of trigrams in the modern Tajik literary language. Key words: Tajik language, trigram, frequency.

i Надоели баннеры? Вы всегда можете отключить рекламу.