Научная статья на тему 'Оценка эффективности использования биграмм при идентификации текста'

Оценка эффективности использования биграмм при идентификации текста Текст научной статьи по специальности «Математика»

CC BY
298
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / БИГРАММА / ЧАСТОТНОСТЬ / СТАТИСТИКА / ЭФФЕКТИВНОСТЬ / TAJIK LANGUAGE / BIGRAM / FREQUENCY / STATISTICS / EFFICIENCY

Аннотация научной статьи по математике, автор научной работы — Косимов А.А.

Исследованы возможности критерия однородности Н.В.Смирнова и его модификатора распознавать автора текста по частотности буквенных биграмм.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Evaluation of bigramm use efficiency for a text identification

Efficiency of N.V.Smirnov's uniformity criterion and his modifier for identification of the author of a text by means of letter bigram frequencies are investigated.

Текст научной работы на тему «Оценка эффективности использования биграмм при идентификации текста»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2017, том 60, №5-6_

ИНФОРМАТИКА

УДК 81'322::811.222.8::519.25

А.А.Косимов

ОЦЕНКА ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ БИГРАММ ПРИ ИДЕНТИФИКАЦИИ ТЕКСТА

Худжандский политехнический институт, Таджикского технического университета им. академика М.Осими

(Представлено академиком АН Республики Таджикистан З.Д.Усмановът 13.02.2017 г.)

Исследованы возможности критерия однородности Н.В.Смирнова и его модификатора распознавать автора текста по частотности буквенных биграмм.

>0-* ___.

Ключевые слова: таджикский язык, биграмма, частотность, статистика, эффективность.

в текстах на таджикском яз.

предприняты в статье [1], в которой изучалась взаимосвязь классической и современной таджикской литературы путем сопоставления распределений частотностей биграмм различных произведений. Полученный результат - статистическая неразличимость объектов исследований - позволил, с одной стороны, сформировать общую картину частотности биграмм, свойственную таджикскому языку, а, с другой стороны, подсказал необходимость использования иных методов анализа текстов на основе частотности биграмм.

рикатора ра

Первые исследования по частоте встречаемости биграмм в текстах на таджикском языке были

х методов х методов

грумента т

В настоящей работе в качестве исследовательского инструмента тестируются критерий однородности Н.В.Смирнова о принадлежности двух независимых выборок одному закону распределения [2] и сопутствующий ему метод, использованный в [1],

1. Информация о коллекции текстов. Выборка текстов, предназначенная для исследовательских целей, так же, как и в [1], была представлена произведениями А.Фирдауси, Дж.Руми, С.Айни, М.Турсунзода и Л.Шерали.

2. Обработка литературных данных. В качестве единиц измерения текста используются буквенные биграммы. Поскольку таджикский алфавит А состоит из 35 букв, то двухбуквенных комби-

наций, определяющих множество различных биграмм, будет 1225 = 35 (часть из них грамматически бессмысленна). Одновременно с А используется также и расширенный алфавит А* = А + "пробел". Ему соответствует расширенный набор из 1296 = 362 биграмм, который привносит дополнительную информацию как о самом произведении, так и его биграммах.

Процесс обработки литературных данных реализуется в 3 этапа.

Этап 1. Вычисление частот встречаемости биграмм (с учётом и без учёта пробелов) по отдельности для всех упомянутых в п.1 произведений (авторов - 5, у каждого - по 2 произведения, ито-

Адрес для корреспонденции: Косимое Абдунаби Абдурауфович. 735700, Республика Таджикистан, г.Худжанд, ул. Ленина, 226, Худжандский политехнический институт Таджикского технического университета. E-mail: abdunabi_kbtut@mail.ru

На основе полученных данных строятся функции распределения Fi п (X) частотности Л би-

грамм (с учётом и без учёта пробела) для авторских текстов, помечаемых индексом /', / = 1,..., 10 . Этап 2. Вычисление по формуле

^) = *ир|^п (X) -Fhm (Л)|

ия частот ия частот

(1)

максимального значения взаимного отклонения функций распределения частотностей биграмм г -го и / -го произведений, а по ним и статистики S_(гm") Н.В.Смирнова, см. [2], по формуле:

^) =

пт

1 п + т

Д(г>

(2)

где п и т - суммарные количества биграмм в ¡-ом и /-ом произведениях.

Одновременно с (1), (2) параллельно выполняется другой способ обработки данных. Именно, вместо (1) используется формула

d ) =

максимального значения взаимного отклонен

нения функций распределения частотн / - го произведений, а вместо (2) - формула

причём в (3) и (4) р - число биграмм (р = 352 = 1225 - для алфавита А ир = 362 = 1296 - для алфавита А ). Очевидно, что (3) и (4) являются упрощениями формул (1) и (2). Они тестируются здесь для того, чтобы получить представление о перспективности их использования.

Этап 3. Проверка нулевой гипотезы Н0 о том, что пара произведений (авторов), помеченных индексами г и / , являются выборками из одной и той же генеральной совокупности. Если речь идёт

(3)

ностей биграмм г -го и

(4)

о произведениях, то они считаются однородными и могут принадлежать одному и тому же автору. Если же речь идёт об авторах, то их однородность понимается в смысле неразличимости соответствующих функций распределений частотностей биграмм.

У Г '

Утверждение

N7

тестирования неравенства

£г/) > К„,

(5)

в котором Ка - квантиль А.Н.Колмогорова уровня значимости а (= 0.05, 0.01, 0.001).

Если (5) выполняется для заданного уровня значимости а, то гипотеза Н0 об "однородности" г и / -объектов отвергается. Справедливой, с уровнем значимости 1 — а , становится конкурирующая (альтернативная) гипотеза Н1, противоречащая Н 0: ¡и / -объекты "не однородны".

X

Если имеет место неравенство

S(UL) < К

(6)

то принимается гипотеза Н 0 об "однородности" ¡и / - объектов.

Аналогичные неравенства привлекаются для принятия решений по результатам применения формул (3) и (4) с необходимыми оговорками.

4. Результаты 1-го этапа о распределениях частотности биграмм отдельных произведений и их авторов здесь не показаны: определенное представление о них можно получить из [1], где приводятся списки высокочастотных биграмм таджикского языка с учётом и без учёта пробела.

Результаты 2-го этапа показаны в табл. 1 и 2. В каждой ячейке даются два числа - верхнее число, подсчитанное по формулам (1) и (2), и нижнее, подсчитанное по формулам (3) и (4). Отмет что в ячейках на главной диагонали представлена информация об отношениях ме ми одного автора, а во всех других ячейках - информация об отношениях ме различных авторов.

Результаты 3-го этапа связаны с а= 0.001, которому соответствует квантиль

случае для всех статистик Н.В.Смирнова из граф табл. ме ячейки [Айни "Одина"-Айни "Ах,мади Девбанд" рию Н.В.Смирнова, это эквивален

ра (кроме Айни) однородны, то

нулевой гипотезы для у

тметим, зведения-

зведениями

вня значимости

олмогорова со значением К„ = 1.95 . В этом х на гла

эгорова о

V?,

располо

оложенных

тавнои диагонали, кро-

5л. 1, расп

], выполняется неравенство (6). Согласно крите-ентно утверждению о том, что произведения одного и того же авто-есть подчиняются одному и тому же рс

есть подчиняются одному и тому ж биграмм, а произведения Айни оказываются неоднородными.

1 распределению частотностей

Значения статистик

;я неоднородными.

„ С.0: j) „

Авторы и произведения

Фирдауси Рустам Сухро'

S^'l) Н.В.Смирнова и показателя sp "

Таблица 1 для биграмм без учёта пробела

уси

л ва 1.1282 0.1708

об__

и

ари 5 1225 0 6557

\ Рум: Дафт;

урсунзода Садои Осиё

1.9826 0.8547

2.6895 1.1388

1.5799 0.6963

2.3918 0.5188 1.2736 0.5949

9.1930 0.9220 1.4961 0.6369

Шерали Катибадо

2.7898 0.7051

2.6964 0.6457

1.8685 0.5024

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1.4946 0.4638

2.0952 0.5101

АИни Адмади Девбанд

5.3344 0.9510

6.7197 1.0677

2.7229 0.5458

3.3775 0.8556

3.7799 0.6232

Что касается статистик Н.В.Смирнова, расположенных вне главной диагонали табл. 1, то для них, кроме ячейки [Шерали "Суханреза" - Турсунзода "Садои Осиё"], [Айни "Одина" - Турсунзода "Садои Осиё"] и [Турсунзода "Хдсани Аробакаш" - "Шерали Катибахо"], выполняется неравенство (5). Последнее эквивалентно утверждению о том, что произведения разных авторов не однородны,

то есть принадлежат различным распределениям частот встречаемости биграмм, а указанные произведения Шерали и Турсунзода, Айни и Турсунзода, Турсунзода и Шерали оказываются однородными.

Таким о6разом' без учёта пробела критерий НВСми™ из 25 случаев лишь в 4-х случаях

даёт ошибочный результат. Следовательно, эффективность применение критерия оценивается в 84%.

Идентификация авторства по формулам (3), (4) также оказыв; вместо (5) и (6) воспользоваться их аналогами:

г, (г, /)

Л, /)

> к,

< к,

ается вп

Л'

лне приемлемой, если

ать неодно ать неодно

(7

7) (8)

полагая при этом, что k = 0.5.

В таком случае с выполнением неравенства (7) будем связывать неоднородность г и / произведений, а с неравенством (8) - напротив, их однородность. Применяя это правило к нижнему ряду чисел табл. 1, устанавливаем, что (7) выполняется для всех ячеек, расположенных вне главной диагонали, а (8) нарушается лишь в двух ячейках главной диагонали, именно на пересечениях произведений Турсунзода и Айни. В рассматриваемом случае эффективность метода составляет 92% и оказы-

вается даже выше, чем для критерия Н.В.Смирнова.

( г ) Л

Значения статистик Н.В.Смирнова и показате,

Руми

(г, / )

зателя sp д

Таблица 2 амм с учетом пробела

Авторы и произведения

Фирдауси Рустам ва Сугроб

Фирдауси Беж.&Ман.

1.2490 0.1547

Дафтар

Н^-Н

7.1889 0.7108

Турсунзода Садои Осиё

3.1131 1.1239

Шерали Катибадо

2.7153 0.5630

Айни Адмади Девбанд

8.2976 1.2270

Руми Дафтари Дуввум

6.9903 0.

Турсунзода

Хасани Аробакаш

5.0920 0.7437

0.7312 0.7437

1

.2827 0.0941

4.

.3114 1.5300

3.9743 0.7809

11.3304 1.4979

7.7078 0.9680 (

1.6489 0.6088

2.6313 0.5824

4.3253 0.7220

Шерали 3.9993 0.7759

Суханреза__

йни 9.9023 1.1033

ина

.9993 0.

Ай

Ода

4.5602 0.:

9.90

8168

1.8033 0.7045

1.3902 0.3553

5.4913 1.1541

16.7972 1.3908

2.6162 0.9339

4.3967 0.8802

2.6215 0.3609

лТУ >

Анализ табл. 2 (с учетом пробела), хотя и повторяет результаты анализа табл. 1 (без учета пробела), тем не менее, проявляет более высокую чувствительность в распознавании авторства текста: для ячейки [Айни "Одина"-Айни "Адмади Девбанд"] при учете пробела значение статистики Н.В.Смирнова понизилось со значения 3.7799 до 2.6215, а для ячейки "Шерали Суханреза - Турсунзода Садои Осиё", напротив, повысилось с 1.2736 до 1.8033, а в случаях [Айни "Одина"-Турсунзода "Садои Осиё"] и [Турсунзода "Хасани Аробакаш"-"Шерали Катибадо"] даже не допускает ошибки.

Таким образом, с учётом пробела критерий Н.В.Смирнова из 25 случаев лишь в двух случаях даёт ошибочный результат. Следовательно, эффективность применение критерия оценивается в 92%.

Что касается метода, основанного на формулах (7), (8), то его эффективность с учётом пробела повышается до уровня 96%. Единственная ошибка связана с произведениями Турсунзода: согласно неравенства (7) их следует признать неоднородными.

5. Заключение. Из полученных результатов извлекается следующее статистическое

Утверждение. Критерий Н.В.Смирнова и его модификатор позволяют по частотности знаков таджикского алфавита (биграмм с пробелами и без них) с достаточно высокой степенью эффективности идентифицировать произведения поэтов классической таджикско-персидской литературы, а также различных авторов современной таджикской поэзии и прозы.

Высказанное утверждение опирается на результаты обработки ограниченного по объёму материала, который, тем не менее, как по составу авторов, так и по списку использованных произведений представляет собой представительную выборку из генеральной совокупности метной области.

Сделанный вывод согласуется с аналогичными результатами для руссв жа [5].

1. Усманов З.Д., Косимов А.А. Частотность биграмм таджикск« наук Республики Таджикистан, 2016, т.59, № 1-2, с. 28-32.

мои пред-

Поступило 27.02.2017 г.

атуры. - Доклады Академии

28-32.

тематической статистики. - М.: Наука, Гл. ред. физ-мат.

2. Большев Л.Н., Смирнов Н.В. Таблицы литературы, 1983, 416 с.

3. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста. - Доклады Академии наук Республики Таджикистан, 2016, т.59, № 3-4, с. 114-119.

4. Косимов А.А. Оценка эффективности использования униграмм при идентификации текста. -Доклады Академии наук Республики Таджикистан, 2016, т.59, № 3-4, с. 132-137.

5. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста

кста. - Томск: В-Спектр, 2011, 188 с.

Jv Л

БАХРДИХИИ САМАРАБАХШИ ИСТИФОДАБАРИИ БИГРАММА

А.А.^осимов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ДАР МОНАНДКУНИИ МАТЩО

шии Дони

Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М. Осими дар ш. Хуцанд

Тахдикот оиди имконияти истифодабарии меъёри ягонагии Н.В.Смирнов ва ба шакли дигар даровардашудаи он, барои шинохти муаллифи матн бо басомади вохурии харфхои би-грамма гузаронида шуд.

Калима^ои калидй: забони тоцикй, биграмма, басомади вохурй, омор, самаранокй.

A.A.Kosimov

EVALUATION OF BIGRAMM USE EFFICIENCY FOR A TEXT IDENTIFICATION

Khujand's Polytechnic Institute of the M.Osimi Tajik Technical University

Efficiency of N.V.Smirnov's uniformity criterion and his modifier for identification of the author of a text by means of letter bigram frequencies are investigated. Key words: Tajik language, bigram, frequency, statistics, efficiency.

A ¿V V £

i Надоели баннеры? Вы всегда можете отключить рекламу.