Научная статья на тему 'N-граммы в распознавании однородных текстов'

N-граммы в распознавании однородных текстов Текст научной статьи по специальности «Математика»

CC BY
492
68
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Усманов З. Д.

Предложены формулы для распознавания однородных текстов на основе распределений их буквенных и словоформных униграмм и биграмм. Эффективность применения подтверждена на небольшой коллекции текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «N-граммы в распознавании однородных текстов»

^-граммы в распознавании однородных текстов

Усманов З.Д., Институт математики им. А.Джураева АН Республики Таджикистан,

[email protected]

Аннотация

Предложены формулы для распознавания однородных текстов на основе распределений их буквенных и словоформных униграмм и биграмм. Эффективность применения подтверждена на небольшой коллекции текстов.

1 Введение

Пусть {Т} - некоторая коллекция текстов естественного алфавитного языка. Предположим, что каждому тексту посредством предварительной

статистической обработки поставлен в соответствие количественный образ - закон распределения его N - грамм.

Если речь идёт о символьных (буквенных) N - граммах, то для их описания используется единый алфавит с одинаковыми наборами символов. При N = 1 алфавит униграмм совпадает с алфавитом языка; при N = 2 и N = 3 алфавиты биграмм и

триграмм представляют собой а2 и а3 всевозможных пар и троек символов (а -число символов в алфавите языка).

Если же мы имеем дело со словоформными N - граммами, то для каждого текста они, в общем случае, различаются как по числу, так и по составу своих элементов. Такая ситуация не приемлема для сравнения текстов и требует унификации их описательных характеристик. Последнее можно

реализовать, например, путем определения множества N - грамм для коллекции текстов в целом и использованием полученного результата в описании соответствующих законов распределения каждого текста.

Итак, будем считать, что каждый текст из коллекции {Т} характеризуется одним и тем

же набором N — грамм N = },

к = 1,..., т, со своими относительными

частотами встречаемости

ХЧ = 1.

V,, >0

Пусть Т — какой-либо текст из коллекции {Т}. Будем интерпретировать N — грамму как дискретную случайную величину, принимающую в пределах Т возможные значения Nk, к = 1,., т, из набора N . Теперь представим закон распределения N — грамм в тексте Т в табличном виде: N : N1 N2 ... Nm

Л : V V ■■■ Vm

Замещая обозначение Nk его индексом к , представим дискретный аналог функции распределения следующим образом:

ВД = Х Vk , 5 = 1,.••,т.

к = 1

Именно эту дискретную функцию следует воспринимать в качестве количественного образа Т — текста.

2 Расстояния между текстами

Теперь рассмотрим любые два текста Т1 и Т2 из множества {Т }. Соответствующие им дискретные функции N — грамм

записываются в виде

Г(Р )(5) = Х

V

(р)

к = 1

где р = 1,2 и 5 = 1,., т. Расстоянием

между текстами Т1 и Т 2 назовем

вещественное число р (Т 1, Т2), определяемое по формуле

р(Т15 Тг) = , — max

Х — vf))

(1)

то есть расстояние между текстами вычисляется как минимальное расстояние между их дискретными функциями N — грамм, помноженное на весовой коэффициент у/т/2 . Формула впервые протестирована в работе [Усманов, Косимов, 2016]. Она, по-существу, является небольшой модификацией статистики Н.В.Смирнова [Большев, Смирнов, 1983].

и

3 Разбиение коллекции текстов на классы

Предположим, что для любой пары текстов из коллекции {Т} подсчитано расстояние по формуле (1), а сама коллекция разделена на п подмножеств Т , состоящих из р текстов, к = 1,..., п .

Определение. Подмножества Т(к), к = 1,.,п, назовём классами однородных текстов, если найдётся такое положительное число у, что для каждой

пары элементов Тх, Т2 из одного и того же

подмножества Т(к) будет выполняться неравенство

Р(Х» Х2) < у, (2)

а для каждой пары элементов Т1, Т2 из разных подмножеств, Т1 е Т(к1) и

T2 G T

(k 2)

к 1 Ф к2, выполняется противоположное неравенство

р(X1,Х2) > у. (3)

Смысл неравенств (2) и (3) состоит в том, что размеры каждого подмножества не превосходят величины у , а расстояния между подмножествами должны быть не меньше у.

В практических задачах некоторые неравенства могут не выполняться. Обозначая их число через т , введём величину

ц = 1 - г/L

(4)

для оценки качества разбиения множества {Т} на классы Т(к) при фиксированном значении у . В этой формуле L — общее число пар элементов, рассматриваемых в соотношениях (1), (2). Оно определяется как число сочетаний из суммарного количества

Еп ( к )

р по паре текстов, то есть

L = £Р(к)}(ЕР(к) — 1)/2 . (5)

^ 0 < п < 1 .. п = 0

Очевидно, что , причём при

т = L п = 1 т = 0 и при .

В случае, когда классы изначально заданы,

значения т будут зависеть от величины у .

В этой связи вполне естественной выглядит

задача об отыскании оптимального значения

у, при котором п достигает своего

максимума. Именно для таких значений у и

п следует обсуждать вопросы перспективности применения аналитического аппарата классификации подмножеств, основанного на использовании соотношений (2) и (3).

4 Применение классификатора для распознавания однородных текстов

Эффективность работы предложенного классификатора тестировалась на десяти художественных произведениях (по 2 произведения от 5 авторов), написанных на таджикском языке. Априори предполагалось, что тексты одного автора однородны, а различных авторов не однородны. Первое предположение обеспечивалось выполнением неравенства (2), а второе - неравенством (3).

При использовании буквенных униграмм1 их число т приравнивалось 35 (таджикский алфавит содержит именно столько букв). Оптимальное значение у оказалось равным у = 0.07. Лишь для одного автора неравенство (1) не подтвердилось, то есть два произведения этого автора были признаны не однородными. Следовательно, т = 1 . И поскольку опытная коллекция была составлена из 10 произведений, то подсчёт по форму (5) общего числа их возможных пар приводил к значению L = 45. Из чего следовало, что эффективность предложенного классификатора оценивается величиной П = 0.977 .

При использовании буквенных биграмм2 принималось т = 1225 (=35 2). Оптимальное значение у оказалось равным у = 0.5. Как и в случае униграмм, лишь для одного автора неравенство (1) не подтвердилось. Следовательно, т = 1 и потому п = 0.977 .

При использовании словоформных униграмм3 установлено, что т = 170958. Оптимальное значение у оказалось равным у = 1.95. Нарушение неравенств (1) и (2)

1 А.А.Косимов. Оценка эффективности использования униграмм при идентификации текста. ДАН РТ, 2017 (в печати).

2 А.А.Косимов. Оценка эффективности использования биграмм при идентификации текста. ДАН РТ, 2017 (в печати).

3 Ш.Н. Ашурова, А.А. Косимов. Оценка эффективности использования словесных униграмм при идентификации текста. Известия АН РТ, Отделения ф-м.,х.,г. и т. н. 2017 (в печати).

произошло для одного автора двух произведений и для одной пары произведений двух авторов. Следовательно, т = 2 и потому ц = 0.955. Таким образом, на экспериментальной коллекции текстов классификатор показал вполне приемлемую для практического использования эффективность. В этой связи представляет интерес проверить его работоспособность для других естественных языков, а также на текстах из различных отраслей знания.

Список литературы

Большев Л.Н., Смирнов Н.В. 1983. Таблицы математической статистики.- Москва: Наука, Гл. ред. физ-мат. литературы, 416 с.

Усманов З.Д., Косимов А.А. 2016. Частотность биграмм таджикской литературы т.59, № 1-2, Доклады Академии наук Республики Таджикистан, с.28-32.

i Надоели баннеры? Вы всегда можете отключить рекламу.