^-граммы в распознавании однородных текстов
Усманов З.Д., Институт математики им. А.Джураева АН Республики Таджикистан,
Аннотация
Предложены формулы для распознавания однородных текстов на основе распределений их буквенных и словоформных униграмм и биграмм. Эффективность применения подтверждена на небольшой коллекции текстов.
1 Введение
Пусть {Т} - некоторая коллекция текстов естественного алфавитного языка. Предположим, что каждому тексту посредством предварительной
статистической обработки поставлен в соответствие количественный образ - закон распределения его N - грамм.
Если речь идёт о символьных (буквенных) N - граммах, то для их описания используется единый алфавит с одинаковыми наборами символов. При N = 1 алфавит униграмм совпадает с алфавитом языка; при N = 2 и N = 3 алфавиты биграмм и
триграмм представляют собой а2 и а3 всевозможных пар и троек символов (а -число символов в алфавите языка).
Если же мы имеем дело со словоформными N - граммами, то для каждого текста они, в общем случае, различаются как по числу, так и по составу своих элементов. Такая ситуация не приемлема для сравнения текстов и требует унификации их описательных характеристик. Последнее можно
реализовать, например, путем определения множества N - грамм для коллекции текстов в целом и использованием полученного результата в описании соответствующих законов распределения каждого текста.
Итак, будем считать, что каждый текст из коллекции {Т} характеризуется одним и тем
же набором N — грамм N = },
к = 1,..., т, со своими относительными
частотами встречаемости
ХЧ = 1.
V,, >0
Пусть Т — какой-либо текст из коллекции {Т}. Будем интерпретировать N — грамму как дискретную случайную величину, принимающую в пределах Т возможные значения Nk, к = 1,., т, из набора N . Теперь представим закон распределения N — грамм в тексте Т в табличном виде: N : N1 N2 ... Nm
Л : V V ■■■ Vm
Замещая обозначение Nk его индексом к , представим дискретный аналог функции распределения следующим образом:
ВД = Х Vk , 5 = 1,.••,т.
к = 1
Именно эту дискретную функцию следует воспринимать в качестве количественного образа Т — текста.
2 Расстояния между текстами
Теперь рассмотрим любые два текста Т1 и Т2 из множества {Т }. Соответствующие им дискретные функции N — грамм
записываются в виде
Г(Р )(5) = Х
V
(р)
к = 1
где р = 1,2 и 5 = 1,., т. Расстоянием
между текстами Т1 и Т 2 назовем
вещественное число р (Т 1, Т2), определяемое по формуле
р(Т15 Тг) = , — max
Х — vf))
(1)
то есть расстояние между текстами вычисляется как минимальное расстояние между их дискретными функциями N — грамм, помноженное на весовой коэффициент у/т/2 . Формула впервые протестирована в работе [Усманов, Косимов, 2016]. Она, по-существу, является небольшой модификацией статистики Н.В.Смирнова [Большев, Смирнов, 1983].
и
3 Разбиение коллекции текстов на классы
Предположим, что для любой пары текстов из коллекции {Т} подсчитано расстояние по формуле (1), а сама коллекция разделена на п подмножеств Т , состоящих из р текстов, к = 1,..., п .
Определение. Подмножества Т(к), к = 1,.,п, назовём классами однородных текстов, если найдётся такое положительное число у, что для каждой
пары элементов Тх, Т2 из одного и того же
подмножества Т(к) будет выполняться неравенство
Р(Х» Х2) < у, (2)
а для каждой пары элементов Т1, Т2 из разных подмножеств, Т1 е Т(к1) и
T2 G T
(k 2)
к 1 Ф к2, выполняется противоположное неравенство
р(X1,Х2) > у. (3)
Смысл неравенств (2) и (3) состоит в том, что размеры каждого подмножества не превосходят величины у , а расстояния между подмножествами должны быть не меньше у.
В практических задачах некоторые неравенства могут не выполняться. Обозначая их число через т , введём величину
ц = 1 - г/L
(4)
для оценки качества разбиения множества {Т} на классы Т(к) при фиксированном значении у . В этой формуле L — общее число пар элементов, рассматриваемых в соотношениях (1), (2). Оно определяется как число сочетаний из суммарного количества
Еп ( к )
р по паре текстов, то есть
L = £Р(к)}(ЕР(к) — 1)/2 . (5)
^ 0 < п < 1 .. п = 0
Очевидно, что , причём при
т = L п = 1 т = 0 и при .
В случае, когда классы изначально заданы,
значения т будут зависеть от величины у .
В этой связи вполне естественной выглядит
задача об отыскании оптимального значения
у, при котором п достигает своего
максимума. Именно для таких значений у и
п следует обсуждать вопросы перспективности применения аналитического аппарата классификации подмножеств, основанного на использовании соотношений (2) и (3).
4 Применение классификатора для распознавания однородных текстов
Эффективность работы предложенного классификатора тестировалась на десяти художественных произведениях (по 2 произведения от 5 авторов), написанных на таджикском языке. Априори предполагалось, что тексты одного автора однородны, а различных авторов не однородны. Первое предположение обеспечивалось выполнением неравенства (2), а второе - неравенством (3).
При использовании буквенных униграмм1 их число т приравнивалось 35 (таджикский алфавит содержит именно столько букв). Оптимальное значение у оказалось равным у = 0.07. Лишь для одного автора неравенство (1) не подтвердилось, то есть два произведения этого автора были признаны не однородными. Следовательно, т = 1 . И поскольку опытная коллекция была составлена из 10 произведений, то подсчёт по форму (5) общего числа их возможных пар приводил к значению L = 45. Из чего следовало, что эффективность предложенного классификатора оценивается величиной П = 0.977 .
При использовании буквенных биграмм2 принималось т = 1225 (=35 2). Оптимальное значение у оказалось равным у = 0.5. Как и в случае униграмм, лишь для одного автора неравенство (1) не подтвердилось. Следовательно, т = 1 и потому п = 0.977 .
При использовании словоформных униграмм3 установлено, что т = 170958. Оптимальное значение у оказалось равным у = 1.95. Нарушение неравенств (1) и (2)
1 А.А.Косимов. Оценка эффективности использования униграмм при идентификации текста. ДАН РТ, 2017 (в печати).
2 А.А.Косимов. Оценка эффективности использования биграмм при идентификации текста. ДАН РТ, 2017 (в печати).
3 Ш.Н. Ашурова, А.А. Косимов. Оценка эффективности использования словесных униграмм при идентификации текста. Известия АН РТ, Отделения ф-м.,х.,г. и т. н. 2017 (в печати).
произошло для одного автора двух произведений и для одной пары произведений двух авторов. Следовательно, т = 2 и потому ц = 0.955. Таким образом, на экспериментальной коллекции текстов классификатор показал вполне приемлемую для практического использования эффективность. В этой связи представляет интерес проверить его работоспособность для других естественных языков, а также на текстах из различных отраслей знания.
Список литературы
Большев Л.Н., Смирнов Н.В. 1983. Таблицы математической статистики.- Москва: Наука, Гл. ред. физ-мат. литературы, 416 с.
Усманов З.Д., Косимов А.А. 2016. Частотность биграмм таджикской литературы т.59, № 1-2, Доклады Академии наук Республики Таджикистан, с.28-32.