ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2017, том 60, №3-4_
ИНФОРМАТИКА
УДК 81'322::811.222.8::519.25
А.А.Косимов
ОЦЕНКА ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ УНИГРАММ ПРИ
ИДЕНТИФИКАЦИИ ТЕКСТА
Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
(Представлено академиком АН Республики Таджикистан З.Д.Усмановът 23.11.2016 г.)
Исследованы возможности критерия однородности Н.В.Смирнова и его модификатора распознавать автора текста по частотности буквенных униграмм.
Ключевые слова: таджикский язык, униграмма, частотность, статистика, эффективность.
Первые исследования по частоте встречаемости букв в текстах на таджикском языке были предприняты в [1] и связывались с определением "наилучшей" раскладки букв на компьютерной клавиатуре. В [2] изучалась взаимосвязь классической и современной таджикской литературы путем сопоставления распределений частотностей букв различных произведений. Полученный результат -статистическая неразличимость объектов исследований - позволил, с одной стороны, сформировать общую картину частотности букв, свойственную таджикскому языку, а с другой стороны, подсказал необходимость использования иных методов анализа текстов, основанных на частотности букв.
В настоящей работе в качестве исследовательского инструмента тестируются критерий однородности Н.В. Смирнова о принадлежности двух независимых выборок одному закону распределения [3] и сопутствующий ему метод, использованный в [4,5].
1. Информация о коллекции текстов. Выборка текстов, предназначенная для исследовательских целей, так же как и в [2], была представлена произведениями А.Фирдауси, Дж.Руми, С.Айни, М.Турсунзода и Л.Шерали.
2. Обработка литературных данных. В качестве единиц измерения текста используются буквенные униграммы. Напомним, что таджикский алфавит А состоит из 35 букв. Одновременно с А
будем использовать также и расширенный алфавит А = А + пробел , которому соответствует расширенный набор из 36 униграмм, позволяющий учитывать дополнительную информацию как относительно произведений, так и относительно самих униграмм.
Процесс обработки литературных данных реализуется в 3 этапа.
Этап 1. Вычисления частот встречаемости букв (с учётом и без учёта пробелов) по отдельности для всех упомянутых в п.1 произведений (авторов - 5, у каждого - по 2 произведения, итого - 10 текстов).
Адрес для корреспонденции: Косимое Абдунаби Абдурауфович. 735700, Республика Таджикистан, Худжанд, ул. Ленина, 226, Худжандский политехнический институт Таджикского технического университета. E-mail: [email protected].
На основе полученных данных строятся функции распределения Fin (Л) частотности Л униграмм (с учётом и без учёта пробела) для авторских текстов, помечаемых индексом i,
i = 1,...,10.
Этап 2. Вычисление по формуле
Dm) = sup| Fi,n (Л) -Fjm (Л)|
еделения ч
(1)
максимального значения взаимного отклонения функций распределения частотностей униграмм I го и I -го произведений, а по ним и статистики Sn¡,m) Н.В.Смирнова (см. [3]) по формуле:
S (i,j ) =
n,m
П + т Р
где п и т - суммарные количества униграмм в i- ом и j - ом произведениях.
угой способ обработки данных. Именно, вм
(2)
Одновременно с (1), (2) применяется др используется формула
d ^, 1 ) d р
(Л)
À)l
Л
максимального значения взаимного отклоне i -го и I -го произведений, а вместо (2) - формул;
ния
ш расг
(3)
я частотностей униграмм
£
JU) _
ло униг
(4)
, А и p = 36 - для алфавита A ). Очевид-
причём в (3) и (4) р - число униграмм (р = 35 - для но, что (3) и (4) являются упрощениями формул (1) и (2). Они тестируются здесь для того, чтобы получить представление о перспективности их использования.
Этап 3. Проверка нулевой гипотезы Н0 о том, что пара произведений (авторов), помеченных индексами I и I, являются выборками из одной и той же генеральной совокупности. Если речь идёт о произведениях, то они считаются однородными и могут принадлежать одному и тому же автору. Если же речь идёт об авторах, то их однородность понимается в смысле неразличимости соответствующих функций распределений частотностей униграмм.
Утверждение Н0 проверяется путём тестирования неравенства
,л > к
а'
в котором - квантиль А.Н.Колмогорова уровня значимости а (= 0.05, 0.01, 0.001).
Л
) < Ка,
Если (5) выполняется для заданного уровня значимости X , то гипотеза Но об "однородности" I и I -объектов отвергается. Справедливой, с уровнем значимости 1_ X , становится конкурирующая (альтернативная) гипотеза Н1, противоречащая Но : / и I - объекты "не однородны".
Если имеет место неравенство
I) Л^ 7
(6)
>С •
то принимается гипотеза Но об "однородности" I и I - объектов.
Аналогичные неравенства привлекаются для принятия решений по результатам применения формул (3) и (4) с необходимыми оговорками.
4. Результаты 1-го этапа о распределениях частот» их авторов здесь не показаны: определенное представлени дятся списки частотностей униграмм таджикского языка с учётом и без учёта пробела.
Результаты 2-го этапа показаны в таблицах 1 и 2. В каждой ячейке даются два числа - верхнее число, подсчитанное по формулам (1) и (2), и нижнее, подсчитанное по формулам (3) и (4). Отметим, что в ячейках на главной диагонали представлена информация об отношениях между произведениями одного автора, а во всех других ячейках - информация об отношениях между произведениями различных авторов.
Результаты 3-го этапа связаны с проверкой нулевой гипотезы для уровня значимости X =
0.001, которому соответствует квантиль А.Н.Колмогорова со значением = 1.95 . В этом случае
для всех статистик Н.В.Смирнова из табл. 1, расположенных на главной диагонали, кроме ячейки [Айни "Одина"-Айни "Ах,мади Девбанд"], выполняется неравенство (6). Согласно критерию Н.В.Смирнова, это эквивалентно утверждению о том, что произведения одного и того же автора
произведений и о них можно получить из [2], где приво-
(кроме Айни) однородны, то есть подчиняются одному и тому же распределению частотностей уни-
ются неоднородными.
грамм, а произведения Айни ока
Значен:
Авторы и произведения
_ > /
ения стати ютик Sn¡'m) Н.В.Смирнова и по
-^-,-—руми
Таблица 1
показателя 11 для униграмм без учёта пробела
р
Фирдауси Рустам ва Сугроб
: Беж.&Ман.
Д
0.0278
Дафтари Аввал
7.2647 0.1307
Турсунзода Садои Осиё
2.2834 0.1486
Шерали Катиба^о
3.0900 0.1164
Айни Ах,мади Девбанд
7.4661 0.1999
Руми
Дафтари Дуввум
Турсунзода
Хасани Аробакаш
6.8363 0.1301 _
1.5539 0.0208
3.1030 0.1985
3.3708 0.1203
10.2665 0.2454
4.1970 0.1112
5.6928 0.1296
1.8178 0.1210
2.6982 0.1084
4.4244 0.1335
Шерали Суханреза
3.4528 0.1215
3.5771 0.1161
1.2437 0.0876
1.1820 0.0548
5.4324 0.2066
Айни Одина
8.9235 0.1804
13.9363 0.2092
2.5448 0.1637
4.1592 0.1512
2.5127 0.0625
Что касается статистик Н.В.Смирнова, расположенных вне главной диагонали табл. 1, то для них, кроме ячейки ["Шерали Суханреза - Турсунзода Садои Осиё"], выполняется неравенство (5). Последнее эквивалентно утверждению о том, что произведения разных авторов не однородны, то есть принадлежат различным распределениям частот встречаемости униграмм, а указанные произведения Шерали и Турсунзода оказываются однородными.
Таким образом, критерий Н.В.Смирнова из 25 случаев лишь в двух случаях даёт ошибочный результат. Следовательно, эффективность применение критерия оценивается в 92%.
Идентификация авторства по формулам (3), (4) также оказывается вполне приемлемой, если вместо (5) и (6) воспользоваться их аналогами:
,0', з)
,0', з)
амм, а
двух сл двух сл
вается в азывается
мой, есл
(7
<
(8)
будем связывать неоднородность I и I произ-
полагая при этом, что k = 0.07.
В таком случае с выполнением нерав ведений, а с неравенством (8) - напротив, их однородность. Применяя это правило к нижнему ряду чисел табл. 1, устанавливаем, что (7) выполняется для всех ячеек, расположенных вне главной диагонали, а (8) нарушается лишь в одной ячейке на пересечении произведений Турсунзода. В рассматри-
оказывается даже выше, чем для критерия
ваемом случае эффективность метода составляет 96 % и
Н.В.Смирнова.
Значения статистик ^^) Н.]
Авторы и произведения
Фирдауси Рустам ва Сугроб
Руми Дафтари Дуввум
ется д
£)
Н.В.Смирнова и показателя я д ___р_
Таблица 2 для униграмм с учетом пробела
Фирда
1уси Б>
1.2491 0.0258 Г ---
6.4865 0.1131
\\ •
еж.&Ман. Д. __
Руми
афтари
Аввал
ж 6.4865 0.1131 1.2 М___
6.7251 0.1108 1.2442 0.0152
Турсунзода Садои Осиё
2.8395 0.1708
3.8365 0.2269
Шерали Катибадо
2.7163 0.0939
3.5817 0.1173
Айни Адмади Девбанд
8.2945 0.2044
10.4503 0.2303
Турсунзода
Хасани Аробакаш
4.4826 0.1091
6.761
Шерали Суханреза
3.5615 0.
Айни Одина
Ш2
-7
7612 0.1415
1.5287 0.0941
2.5825 0.0953
4.2710 0.1188
.9132 0.1168
1.5990 0.1041
1.3403 0.0571
5.1573 0.1807
14.7053 0.2029
2.2189 0.1320
3.9900 0.1331
2.4532 0.0563
Анализ табл. 2 (с учетом пробела), хотя и повторяет результаты анализа табл.1 (без учета пробела), тем не менее проявляет более высокую чувствительность в распознавании авторства текста: для ячейки "Айни Одина - Айни Адмади Девбанд" при учете пробела значение статистики Н.В.Смирнова понизилось со значения 2.5127 до 2.4532, а для ячейки "Шерали Суханреза - Турсунзода Садои Осиё", напротив, повысилось с 1.2437 до 1.5990.
Что касается метода, основанного на формулах (7), (8), то его эффективность остается прежней, на уровне 96%. Единственная ошибка по-прежнему связана с ячейкой на пересечении произведений Турсунзода.
5. Заключение. Из полученных результатов извлекается следующее статистическое
Утверждение. Критерий Н.В.Смирнова и его модифификатор позволяют по частотности знаков таджикского алфавита (букв с пробелами и без них) с достаточно высокой степенью эффективности идентифицировать произведения поэтов классической таджикско-персидской литературы, а также различных авторов современной таджикской поэзии и прозы.
Высказанное утверждение опирается на результаты обработки ограниченного по о териала, который, тем не менее, как по составу авторов, так и по списку использованны ний представляет собой представительную выборку из генеральной совокупности изучаемо ред-метной области.
Сделанный вывод согласуется с аналогичными р
Поступило 23.11.2016 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре. - Душанбе: Ирфон, 2010, 104 с.
2. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы. - Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112-115
3. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики.- М.: Наука: Гл. ред. физ-мат. литературы, 1983, 416 с.
4. Усманов З.Д., Косимов А.А. Частотность биграмм таджикской литературы. - Доклады Академии наук Республики Таджикистан, 2016, т.59, № 1-2, с. 28-32.
5. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста. - Доклады Академии наук Республики Таджикистан,
2016, т.59, № 3-4, с. 114-119. • \ ^^
6. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. - Томск:
В-Спектр, 2011, 188 с. ^
А.А.^осимов
АМАРАБАХШЙ ИСТИФОДАБАРИИ УНИГРАММА ОНАНДКУНИИ МАТНХО
Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд
Тахдик,от оиди имконияти истифодабарии меъёри ягонагии Н.В.Смирнов ва ба шакли дигар даровардашудаи он, барои шинохти муаллифи матн бо басомади вохурии х,арфх,ои уни-грамма гузаронида шуд.
Калима^ои калиди: забони тоцики, униграмма, басомади вохури, омор, самараноки.
A.A.Kosimov
EVALUATION OF UNIGRAMM USE EFFICIENCY FOR A TEXT
IDENTIFICATION
Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University Efficiency of N.V.Smimov's uniformity criterion and his modifier for identification of the author of a text by means of letter unigram frequencies are investigated. Key words: Tajik language, unigram, frequency, statistics, efficiency.
A ¿V V £