ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2017, том 60, №9_
ИНФОРМАТИКА
УДК 81'322::811.222.8::519.25
А.А.Косимов
О МИНИМАЛЬНОМ ОБЪЁМЕ ТЕКСТА, НЕОБХОДИМОГО ДЛЯ РАСПОЗНАВАНИЯ ЕГО АВТОРА
Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 24.07.2017 г.)
до 625 слов.
Путём применения метрического классификатора удалось идентифицировать авторов убывающих по размерам последовательности текстовых фрагменто в от величины в 10000 слов вплоть
Ч
Ключевые слова: таджикский язык, Ы-грамма, метрика, классификатор.
Исследования проблемы идентификации таджикских текстов начались в последнем десятилетии и сосредоточились на двух направлениях: выборе характеристик для количественного описания текстовой информации и определении эффективности аналитических методов исследования. В качестве упомянутых характеристик использовались набор из пяти натуральных единиц измерения текста [1], распределения частотностей символьных униграмм [2-4], биграмм [5, 6] и триграмм [7,8]. Среди методов обработки данных тестировались статистический критерий однородности В.Н.Смирнова [9] и метрический классификатор [10], [11].
В настоящей статье изучается полезный для практических приложений вопрос об определении наименьшей длины текста, при которой сохраняется возможность его идентификации.
1. Коллекция текстов, составленная, также как и в [5], из произведений А.Фирдауси, Дж.Руми, С.Айни, М.Турсунзода и Л.Шерали (по два произведения от каждого автора), была расширена за счёт присоединения к ней рассказа С.Турсуна "Нисфирузй" [12]. Для исследовательских целей из каждого произведения извлечены ных по убыва
Все
законами распре, м и без уч1
ены последовательности текстовых фрагментов, упорядочен_______________размеров от величины в 10000 до 75 слов.
е произведения вместе со своими фрагментами описаны тремя вариантами характеристик распределениями в них
учето
два к виде
т встречаемости буквенных униграмм, биграмм и триграмм с
ёта п робелов.
лассификатор текст ;го состоит в следующем (см.[10, [11]). Пусть Т1 и Т2 -
-либо текста, закон распределения символьных Ы-грамм которых задаются в табличном
\---k---m
p(0 . J'
(1)
Pi—Pk—Pn
Адрес для корреспонденции: Косимое Абдунаби Абдурауфович. 735700, Республика Таджикистан, г.Худжанд, ул. Ленина, 226, Худжандский политехнический институт Таджикского технического университета. E-mail: [email protected]
причем
Ер к° = 1.
к=1
В этих выражениях к (к = 1, т) - порядковый номер к -й N -граммы в алфавите N -грамм, р\-относительная частота встречаемости к -й N -граммы в тексте Ti, ' = 1, 2 . Тогда расстояние между Т1 и Т2 определяется по формуле
А'
Р Т Т2 ) = л/"2 тах
(2)
к=1
где ^ = 1, т .
ли
Пусть у - некоторое положительное число. Тексты Т и Т называются у -однородн
2
Р(Тх, Т2)<у
и у -неоднородными, если
Предположим, что коллекция текстов Т разд,
одными, ес-
(3)
(4)
жества Т('), / = 1, п . Для фиксированного значения у подсчитывается число К0 - сумма однородных пар текстов, принадлежаТ'), ] = 1, п, и число Кн, сумма у неоднородных пар текстов, принадлежащих ш. Отношение
щих подмножествам различным подмнож
ствам.
<47 г
м N - общее число пар текстов в коллекции / , характеризует для заданного у эффектив-именения математическ
ой модели (1) - (4) к автоматическому разбиению коллекции Т на
при котором
в котором ность применен подмножества Т').
гатье [11] предложен алгоритм для вычисления оптимального значения у достигается максимальная эффективность г] для коллекции Т = { Т(')}.
3. Результаты. Описанный алгоритм, программно реализованный, применен к коллекции текстов п.1, составленной из 12 текстов (по 2 текста 6 авторов), естественная классификация которой выражается в том, что два произведения одного автора однородны, а разных авторов не однородны.
Поначалу алгоритм применяется ко всем произведениям в полных объемах. Затем классификации подвергаются фрагменты текстов уменьшенных размеров. Результаты показаны в табл. 1.
т
5
Доклады Академии наук Республики Таджикистан
2017, том 60, №9
Таблица 1
Эффективность классификации в зависимости от длины текстов
Эффективность ] и значение у"
Число слов
В этой таблице в 1-м столбце отмечены длины фрагментов текста в слова: блока (по два столбца в каждом), указывающие конкретно какими -граммами
сты и их фрагменты. Первый и второй столбцы в бл' алфавите N -грамм. И, наконец, в каждой ячейке таб.
уОпт ( в скобках).
следуют три зовались тек-ствие пробела в
отмечают наличие или отс
федставлены значения двух чисел - г] и
\ ячейке таблицы представлены значе й ячейке таблицы представлены значе
играммы и триграммы являются вполне ения проблемы идентификации авторов т
приемлемыми количест-текстов.
4. Выводы
- Символьные униграммы, биграм венными характеристиками для решения проблемы ид
' -граммах повышает точн
- (4) показал достаточно высокий уровень идентификации авторов фрагментов текста размерами вплоть до 625 слов.
- По мере уменьшения размеров текстовых фрагментов эффективность их идентификации понижается, тем не менее представляет интерес протестировать работу классификатора для текстов
Поступило 27.07.2017 г.
- Учет пробелов в N -граммах повышает точность классификации.
- Классификатор (1) - (4)
_______
длиной в 300, 150 и даже 75 слов.
ЛИТЕР
1. Усманов З.Д., Косимов А.А. Цифровой
Усман
2014,
облема раскладки символов на компьютерной клавиатуре.-
ЕРАТУРА
образ "Шахнаме" ("Книга царей") А.Фирдауси. - ДАН РТ,
, т.57, № 6, с. 471-476.
2. Усманов З.Д., Солиев Душанбе: Ирфон, 201 (
3. Усманов З.Д., Косимо! .А. Частотность букв таджикской литературы. - ДАН РТ, 2015, т.58, № 2, с. 112-115.
4. Косимов А.А. Оценка эффективности использования униграмм при идентификации текста. - ДАН РТ, 2017, т.60, № 3-4, с. 132-137.
5. Усманов З.Д., Косимов А.А. Частотность биграмм в таджикской литературе. - ДАН РТ, 2016, т.59, № 1-2, с. 28-32.
6. Косимов А.А. Оценка эффективности использования биграмм при идентификации текста. - ДАН РТ, 2017, т.60, №5-6, с.224-229.
7. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста - ДАН РТ, 2016, т.59, № 3-4, с. 114-119.
8. Большев Л.Н. Таблицы математической статистики.- М.: Наука, 1983, 41
9. Усманов З.Д. N-граммы в распознавании однородных текстов.- Мат-лы 20 науч.-практ. семинара "Новые информационные технологии в автоматизированных системах".- М., 2017, с. 52-54.
10. Усманов З.Д. Классификатор дискретных случайных величин - ДАН РТ, 2017, т.60, № 7-8, с.29 300.
11. Турсун С. Нисфирузй.- Душанбе, 1973, 25 с.
А.А.Косимов
ОИДИ ЛОЗИМ БУДАНИ КАМТАРИН АНДОЗАИ МАТН БАРОИ ШИНОХТАНИ МУАЛЛИФИ ОН
Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд
Бо истифодаи ченкунандаи таснифгар бо пайдарпай камшавии порчаи матнх,о аз бузур-гии дар 10000 калима то ба 625 калима метавон муаллифи онро муайян кард. Калима^ои калидй: забони тоцикй, N-грамма, ченкунй, тасниф
: величин -
-4s
mu, N-грамма, ченкут
к
A.A.Kosimov
ABOUT THE MINIMUM VOLUME OF THE TEXT,
NECESSARY FOR THE IDENTIFICATION OF ITS AUTHOR
Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University
By applying a metric classifier, it was possible to identify authors of the descending sequence of text fragments from a value of 10,000 words up to 625 words.
Key words: Tajik language, N-gramm, metrics, classifier.
£