ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА
Вестник Сыктывкарского университета.
Серия 1: Математика. Механика. Информатика.
Выпуск 1 (22). 2017
УДК 519.766.4, 81'32
КЛАССИФИКАЦИЯ ТЕКСТОВ МЕТОДАМИ РАСПОЗНАВАНИЯ ОБРАЗОВ
С. А. Хозяинов
Статья демонстрирует процесс классификации текстов методами распознавания образов. В качестве примера рассмотрена проблема авторства статей, приписываемых А. С. Пушкину. Предложены способы повышения надежности распознающей системы.
Ключевые слова: классификация текстов, методы распознавания образов, атрибуция, А. С. Пушкин.
1. Введение: текст как объект классификации
Построение классификации является важным этапом многих научных исследований. В немалой степени выбор метода решения этой задачи определяется двумя факторами: целью исследования и сложностью объектов классификации. Для предварительной классификации небольшого количества объектов по двум-трем признакам достаточно общенаучных методов. Для создания качественной классификации большого количества сложных объектов требуются значительно более чувствительные и точные методы.
Текст является очень сложным объектом; он многогранен, благодаря чему представляет интерес для разных наук. В любом случае текст — это последовательность знаков письма, в которых зафиксированы некоторое состояние языка, определенная фаза развития общества, взгляды и знания индивидуального или коллективного автора. Поэтому очевидно, что классификация текстов невозможна без их содержательного историко-филологического анализа. В то же время ясно, что формализация методов классификации текстов необходима, если мы хотим иметь возможность исследовать обширный материал в разумные
© Хозяинов С. А., 2017.
сроки. Такие формализованные инструменты исследования пришли в историко-филологические науки извне, из области математических наук.
Пожалуй, одна из наиболее трудных задач при классификации текстов — отыскать баланс между содержательным и формальным подходом к решению задачи (примеры см. в статье [4]). Здесь важно добиться того, чтобы они дополняли друг друга, действовали согласованно: это позволит избежать и субъективности, и бессодержательного формализма, равно отдаляющих классификацию от действительности, получить наиболее полную и точную картину.
2. Постановка задачи и объект исследования
Классификация текстов не является самоцелью филологии — она служит инструментом решения конкретных практических задач.
К их числу принадлежит атрибуция (определение авторства текста) — одна из наиболее сложных филологических проблем. Для ее успешного решения требуется не только разноаспектный лингвистический анализ текста, но и тщательное изучение истории его написания, издания, прочтений и интерпретаций. Точные и недвусмысленные указания на авторство произведения могут содержать письменные документы (частная переписка, критические статьи и пр.). Однако в наиболее сложных случаях, когда таких документов нет (или они существуют, но не содержат нужных сведений), всю информацию приходится извлекать из языка атрибутируемых текстов.
При этом главную роль в исследовании играют инструменты анализа текста, а сама задача, если к ней внимательно присмотреться, сводится к разделению текстов на группы по некоторым достаточно формальным признакам. В их числе, например, наличие (или отсутствие) тех или иных слов, оборотов, синтаксических конструкций, преобладание определенного порядка слов и пр. Если какой-либо текст (или группа текстов) по сумме языковых особенностей подобного рода оказывается близок к некоторому индивидуальному авторскому стилю и при этом определенно далек от других авторских стилей, тогда в общем случае проблема авторства считается решенной.
Этот общий случай решения задачи осложняется одним обстоятельством: атрибуция текста какому-либо автору означает допущение, что наши знания о его творчестве неполны и, следовательно, неполным является описание его индивидуального авторского стиля. Это следует учитывать при определении авторства как на уровне формулирования задач и выводов, так и на уровне методическом. В частности, ясно, что
если мы не имеем однозначных документальных доказательств авторства текста, то нам остается лишь определять вероятность того или иного варианта решения проблемы.
В различных вариациях (частных случаях) постановка и решение задачи атрибуции может требовать и других существенных оговорок.
Как можно видеть из этого краткого обзора, атрибуция представляет собой типичную классификационную задачу. На ее примере хорошо видны основные вопросы классификации текстов: 1) какие языковые признаки наиболее важны для классификации текстов? 2) какие методы и при каких условиях можно и, главное, нельзя использовать для классификации текстов?
Особенно внимательное отношение к этим вопросам можно найти в методике определения авторства, разработанной М. А. Марусенко и основанной на идеях теории распознавания образов [3]. Существуют и другие методики атрибуции, тоже использующие формальные методы, но в них не так детально, на наш взгляд, раскрыт филологический аспект проблемы и не так много внимания уделено (или же совсем не уделено никакого внимания) названным выше вопросам [7].
Применение методов распознавания образов в задачах атрибуции складывается из четырех основных моментов: 1) построения математических моделей априорных классов и распознаваемых объектов (эти понятия вводятся ниже); 2) определения метрики сходства и различия объектов в признаковом пространстве (выбор функции расстояния между объектами); 3) построения решающего правила распознающего алгоритма; 4) проверки качества классификации. В конкретном эксперименте по атрибуции содержание пункта 1 определяется методами получения априорной информации и ее оценки, а способы реализации пунктов 2—4 задают математический облик системы распознавания текстов.
Рассмотрим реализацию первых трех пунктов этой методики на примере решения проблемы авторства статей, приписываемых А. С. Пушкину. При этом постараемся описать наиболее характерные стороны классификации, для чего рассмотрим атрибуцию десяти текстов (см. табл. 1, где N — число предложений; полное описание эксперимента см. в книге [6]).
3. Построение математических моделей текстов
На этом этапе эксперимента уже завершена стадия историко-филологического анализа, определен список текстов, подлежащих классификации. Этот список состоит не менее чем из двух групп: 1) корпуса
Таблица 1
Статьи, приписываемые А. С. Пушкину
Код Текст Выходные данные N
Т02 Письмена Вавилонские Литературная Газета, 1830, № 1, с. 7 9
Т04 Краткая всеобщая география Литературная Газета, 1830, № 3, с. 22-23 8
Т15 Невский альманах на 1830 год Литературная Газета, 1830, № 12, с. 96 9
Т21 «Все благоразумные люди Литературная Газета, 5
предвидели... » 1830, № 23, с. 186
Т23 «С некоторых пор, Журналисты... » Литературная Газета, 1830, № 36, с. 293 13
Т26 «В газете: Le Furet... » Литературная Газета, 1830, № 45, с. 72 2
Т29а «Горестно видеть... » Литературная Газета, 1830, № 53, с. 139-140 16
Т41 Французская академия Современник, 1836, т. II, с. 14-52 15
Т43 Письмо к издателю Современник, 1836, т. III, с. 321-329 85
Т45 Несколько слов о Современнике Северная пчела, 1836, № 86, с. 341-344 34
текстов со спорным авторством; 2) по меньшей мере двух корпусов текстов писателей, претендующих на авторство текстов группы 1. Тексты группы 1 называются распознаваемыми объектами (РО), корпусы текстов группы 2 — априорными классами (АК).
В нашем эксперименте были изучены пять АК мощностью к текстов и объемом п предложений: П (П. А. Вяземский), к =18, п = 946; (Н. В. Гоголь), к = 29, п = 613; Пэ (А. А. Дельвиг), к = 36, п = 591; П4 (А. С. Пушкин), к = 43, п = 1001; (О. М. Сомов), к = 9, п = 296. Корпус текстов со спорным авторством составили 46 текстов общим объемом 650 предложений. Объект Т29 был разбит на две части (Т29а и Т29б) по причине его внутренней неоднородности (в этой статье мы рассматриваем атрибуцию первой его части — Т29а). Благодаря этому число РО увеличилось до 47.
Покажем на примерах, из чего состоит процедура построения математических моделей АК и РО.
3.1. Определение априорного словаря параметров (АСП). Эта часть процедуры является ключевой. Неправильный выбор параметров для исходного описания текстов способен обессмыслить всю процедуру классификации. В АСП мы включили 49 параметров синтаксического и морфологического уровней, которые позволяют измерить те характеристики текстов, которые адекватно описывают особенности индивидуального стиля писателя (например, количество сочиненных и подчиненных предложений, количество знаменательных и служебных слов, количество существительных, прилагательных, наречий и т. п.). Проблемы формирования АСП подробно описаны М. А. Марусенко [3, с. 66—75].
3.2. Создание первичных описаний АК на языке АСП. Итогом этого этапа являются матрицы данных, каждая из которых отражает результаты лингвистического анализа текстов того или иного АК и обладает размерностью Nхn, где N — число параметров, а п — число предложений. В нашем случае было получено пять матриц данных размерностью 49х100 каждая.
3.3. Свертывание исходного параметрического пространства, или определение словаря так называемых информативных параметров (ИП) — параметров, позволяющих наилучшим образом различать АК.
Методы реализации этого этапа заслуживают обсуждения в отдельной статье. Здесь же мы остановимся на одном из методов — т. н. схеме Бонгарда [1].
На первом ее этапе из АСП выделяется подмножество параметров, релевантных для различения одной или более пар классов. Важным вопросом здесь является выбор классифицирующей функции. В качестве таковой мы применили ^критерий Стьюдента в приближении Уэлча с уровнем значимости а = 0, 05 и числом степеней свободы f = 198 (критическое значение — 1,973):
, = |х1 — х21 = / 2 2 \ 0,5 • (1)
М +
ущ П2 )
Классификация АК позволила выделить подмножество из 29 параметров, самый мощный из которых оказался релевантен для различения семи пар АК. Статистические характеристики АК и результаты вычисления ^критерия здесь приведем не в полном объеме, а выборочно (см. табл. 2—3) — только по тем параметрам, которые в итоге оказались информативными (см. далее).
Таблица 2
Статистические характеристики АК по ИП
ИП П 1 П2 Пэ П4 П 5
хг Гг хг (г хг Гг хг (г хг Гг
Х09 0,650 0,857 0,650 0,821 0,510 0,689 0,330 0,551 0,520 0,759
Х18 5,030 3,836 3,890 2,930 4,260 3,296 3,330 3,039 4,670 3,671
Х24 1,100 1,235 1,510 1,411 1,010 1,185 0,790 0,957 1,300 1,124
Х32 1,660 1,451 1,740 1,368 1,500 1,219 1,320 0,909 1,990 1,878
Таблица 3
Значения 1-критерия Стьюдента для пар АК по ИП
ИП П1/П2 П1/П3 п1/п4 П1/П5 П2/П3 П2/П4 П2/П5 П3/П4 П3/П5 П4/П5
Х09 0,000 1,273 3,141 1,136 1,306 3,236 1,163 2,040 0,098 2,026
Х18 2,362 1,522 3,474 0,678 0,839 1,327 1,661 2,074 0,831 2,812
Х24 2,187 0,526 1,984 1,198 2,714 4,223 1,164 1,444 1,776 3,455
Х32 0,401 0,844 1,986 1,391 1,310 2,557 1,076 1,184 2,189 3,211
На втором этапе схемы Бонгарда производится свертывание параметрического пространства на подмножестве релевантных параметров, т. е. определяется собственно состав словаря ИП. Содержанием процедуры является обработка корреляционной матрицы связей параметров К = {Рзкк=1 размерностью пхп, где п — число параметров из АСП, а выборочные коэффициенты корреляции 3 представляют собой косинус угла азк в N-мерном пространстве (объектов) между векторами х3 к
и хк:
Р3к = еовазк. (2)
Значения рзк лежат в интервале —1 < 3 < 1. Матрица симметрична, т. е. рзк = Ркз,],к = 1, п, а каждая ячейка ее главной диагонали содержит единицу — значение корреляции ]-го параметра с самим собой.
Выбор метода обработки корреляционной матрицы также представляет собой отдельный вопрос. Опишем пример применения так называемого критерия эффективности Ег, который определяется как отношение средней внегрупповой корреляции ¿-го релевантного параметра
_п_^ ^ и _т
гг к средней внутригрупповой корреляции этого же параметра г;
[2, с. 10—11]:
Гт = ЕГ=1 - 1, (3)
т — 1
(ЕЩ=11п31 — 1\ — (Е 7=1|гУ1 — 1\
Г»г—т _ V ^_/ V ^_/_ (4)
г п — т — 1 '
Гп-т
Ег гт ' (5)
' г
где т — число релевантных параметров (29), г^ — коэффициент корреляции г и ]-го параметров в матрице, п — число всех параметров из АСП (49).
Эффективным считается параметр, для которого значение Ег больше единицы. Кроме того, чтобы словарь ИП был достаточно мощным, следует выбирать из числа параметров, различающих наибольшее количество пар АК. В нашем случае первое условие не выполняется совсем, но в группе параметров, различающих более четырех пар авторов (лучший показатель мощности), существуют параметры, обладающие наибольшим значением Ег. Исходя из того, что словарь ИП не должен быть большим, чтобы сохранять невысокую внутригрупповую корреляцию между ИП, мы сформулировали очевидное для нашей ситуации правило отбора ИП: Ег > 0, 6 (см. табл. 4 и 5, где N — количество различаемых пар авторов). Этому решающему правилу удовлетворили 4 параметра, уже представленные выше в табл. 2 и 3.
Таблица 4
Показатели корреляции и эффективности параметров
N Параметр Гт ' г гп-т ' г Ег
7 Х28 0,4163 0,2199 0,5281
5 Х24 0,2620 0,1987 0,7585
Х42 0,4332 0,2465 0,5690
Х09 0,3571 0,2261 0,6330
Х18 0,5159 0,3276 0,6351
Х26 0,4738 0,2802 0,5914
4 Х32 0,3960 0,2533 0,6395
Х53 0,4921 0,2822 0,5734
Х54 0,5069 0,2686 0,5300
Х55 0,5033 0,2699 0,5362
Хозяинов С. А. Таблица 5
Словарь ИП ^ — мощность параметра)
Параметр Г^т ' г гп_т ' г Ег N
Х09 (число подчиненных пред- 0,3571 0,2261 0,6330 4
ложений первой степени)
Х18 (число служебных слов) 0,5159 0,3276 0,6351 4
Х24 (число наречий) 0,2620 0,1987 0,7585 5
Х32 (число подлежащих) 0,3960 0,2533 0,6395 4
3.4. Определение координат эталонов АК и РО — т. е. статистических характеристик этих АК и РО. На этом этапе сначала решается задача определения оптимального объема выборки. Для этого используется относительная стандартная ошибка оценки [2, с. 14—15]:
Ух
п
(6)
где У = X — коэффициент разброса значений признака; 7 = N — доля отбора (п — объем выборки, N — объем совокупности (класса)).
Так, по данным предварительной выборки из АК П4 (А. С. Пушкин) были получены следующие значения УХ: 0,16 (Х09); 0,09 (Х18); 0,11 (Х24); 0,07 (Х32). Как видно, ошибка оценки для Х09 оказалась больше, чем для других параметров. То же самое наблюдалось при вычислении ошибки оценки для других АК. Определив заранее приемлемую величину Ух = 0, 05, мы вычислили необходимый объем выборки п:
N
п
1+ (£)2 N
(7)
Для каждого АК итоговый объем выборки был установлен по значению п для ИП Х09, так как по всем классам оно оказалось больше, чем для других ИП. Это позволило измерить ИП Х09 с необходимым уровнем точности, а все остальные ИП с заведомо избыточным уровнем точности (см. табл. 6, где N — общий объем АК, п — итоговый объем выборок при = 0, 05).
Далее методом случайного отбора были сделаны выборки. АК П5 и все РО подверглись сплошному обследованию, так как их объемы оказались невелики. Координаты эталонов АК П1, П4 и интересующих нас РО приведены в табл. 7 (где N — итоговое количество исследованных предложений).
Таблица 6
Объем выборки для эталонов АК
Класс N ХХ 09 УХ 09 п^=0,05
(П. А. Вяземский) 946 0,650 0,857 400
(Н. В. Гоголь) 613 0,650 0,821 312
(А. А. Дельвиг) 591 0,510 0,689 326
П4 (А. С. Пушкин) 1001 0,330 0,551 527
(О. М. Сомов) 296 0,520 0,759 219
4. Моделирование системы классификации текстов
После того как координаты АК и РО определены, остается построить математическую модель системы распознавания текстов. Система предполагает реализацию детерминированного и вероятностного алгоритмов распознавания (ДАР и ВАР).
4.1. ДАР классифицирует РО в многомерном параметрическом пространстве (в нашем случае 4-мерном). В качестве классифицирующей функции снова изберем ^критерий Стьюдента с уровнем значимости а = 0, 05. Решение о принадлежности РО Хг некоторому АК принимается лишь тогда, когда наблюдаемое значение критерия (^) не превышает пороговое (¿а = 1, 96) в каждом из п измерений параметрического пространства, поэтому решающее правило имеет вид:
Хг е < Ьа,3 = 1, п, . .
V ^ ГЛ ,Б,Х1 ^ , ■ 1--(8)
Хг е Пб , V * < ta'J = 1, П.
Использование Ьа = 1, 96 здесь ориентировано на объем эталона самого большого класса (П4 — 527 предложений) и повышение точности классификации. Поясним утверждение. Известно, что чем больше число степеней свободы f, тем ниже пороговое значение (а для р = 0, 95 при f, стремящемся к бесконечности, пороговое значение, уменьшаясь, стремится к 1,96). Если мы хотим по некоторому параметру найти статистически существенные различия между двумя выборками, повышение порога для одного и того же значения f будет означать снижение вероятности ошибки. Следовательно, когда мы хотим выявить отсутствие таких различий (решаем обратную задачу), для уменьшения вероятности ошибки следует снижать порог. Тогда количество положительных решений по решающему правилу (8) уменьшится, т. е. снизится вероятность ложного срабатывания распознающей системы.
Таблица 7
Координаты эталонов АК ^ и и ряда РО
Объект N ИП хг Объект N ИП хг
Х09 0,663 0,846 Х09 0,615 0,625
400 Х18 5,153 3,927 Т23 13 Х18 2,923 2,165
Х24 1,305 1,448 Х24 0,769 0,799
Х32 1,758 1,444 Х32 1,385 0,487
Х09 0,455 0,701 Х09 1,500 0,500
П4 527 Х18 3,833 3,242 Т26 2 Х18 2,500 0,500
Х24 1,070 1,326 Х24 0,500 0,500
Х32 1,499 1,118 Х32 2,000 0,000
Х09 0,444 0,497 Х09 0,250 0,433
Т02 9 Х18 Х24 3,778 0,111 2,200 0,314 Т29а 16 Х18 Х24 5,750 1,188 5,379 0,882
Х32 1,889 0,875 Х32 2,000 1,768
Х09 0,500 0,500 Х09 0,733 1,482
Т04 8 Х18 Х24 3,375 0,875 1,728 0,599 Т41 15 Х18 Х24 4,267 0,933 4,171 1,806
Х32 1,250 0,433 Х32 1,867 1,204
Х09 0,333 0,667 Х09 0,529 0,776
Т15 9 Х18 3,111 2,961 Т43 85 Х18 3,776 2,763
Х24 1,222 1,397 Х24 1,000 1,328
Х32 1,222 0,416 Х32 1,482 0,876
Х09 1,000 0,894 Х09 1,029 1,403
Т21 5 Х18 Х24 8,000 2,200 10,040 1,939 Т45 34 Х18 Х24 6,618 1,765 5,941 1,848
Х32 1,800 1,470 Х32 1,824 1,740
Классификация посредством ДАР носит итерационный характер. После определения принадлежности РО некоторому АК возникает модификация этого класса мощностью ], включающая в себя и исходный АК, и РО. Координаты эталонов таких классов вычисляются по формулам [2, с. 13]:
(х1н1 + Х2П2+,..., +Х7- щ) ...
Х =-—-—, (9)
2^=1
аг =Х1 1 °1Пк. (10)
Так, по итогам первой итерации ДАР пять РО (Т04, Т15, Т23, Т29а, Т43) были отнесены к АК П4, в результате чего возникла модификация этого класса с координатами (ср. с данными табл. 7): = 6 (один АК и пять РО); п = 658; ХХ09 = 0 , 462, аХ09 = 0 , 70 2; Хх^8 = 3, 839, 18 = 3, 218; Хх24 = 1, 058, ах24 = 1, 303; Хх32 = 1,500, ахз2 = 1, 089. Сходные изменения произошли с АК и П2, причем класс дополнялся дважды, а одним из РО, отнесенных к нему, стал Т45.
4.2. Работа ВАР предполагает измерение таксономического расстояния между оставшимися РО и видоизмененными классами и последующую оценку полученных результатов.
Поскольку признаки, характеризующие АК и РО, измерены с помощью разных шкал (см. п. 3.1), в качестве функции расстояния между объектами целесообразно использовать взвешенное евклидово расстояние (ЕР):
0,5
d(a,b) =
^ ] Uj (xaj Xbj ) j=l
(11)
где n — размерность евклидова пространства En, a и b — две точки в нем с координатами a(xai, xa2,..., xan), b(xb1, xb2, •••, xbn), а Uj = 1/aj — весовой коэффициент j-й переменной, причем Uj = 1, если все признаки выражены в общих единицах измерения. Последнее условие можно выполнить путем стандартизации исходной матрицы данных с помощью среднеквадратичного отклонения, что равнозначно приведению всех параметров к единой шкале. В нашем случае исходная матрица данных Z образована координатами эталонов распознаваемых объектов и априорных (или видоизмененных по результатам ВАР) классов. Элементы стандартизованной матрицы данных X вычисляются по формуле [3, с. 76]:
хц = —-- ,г =1,^ = 1,п, (12)
ац
где гц — стандартизуемый элемент исходной матрицы данных Z, гц — среднее значение ]-го параметра матрицы Z, ац — квадратичное отклонение ]-го параметра матрицы Z, N = 43 (число объектов в матрице Z: пять АК и 38 РО, оставшихся после ДАР), а п = 4 (число параметров в матрице Z).
Итак, на основе стандартизованной матрицы X определим взвешенные ЕР при шц = 1. Далее по матрице взвешенных ЕР найдем вероят-
ности принадлежности РО каждому из классов [3, с. 58]:
*=£ (¿¿Г (13)
где dji — расстояние между ^'-м РО и г-м классом, djk — расстояние между ]-м РО и к-м классом, п — число классов. Фрагменты матрицы X, матриц взвешенных ЕР d(Xj, Пг) и вероятностей принадлежности РО классам Р(Xj Е Пг) приведены в табл. 8—91. В этих таблицах мы уже не видим те РО, которые были включены в структуру классов на предыдущем этапе (см. п. 4.1).
Таблица 8
Фрагмент стандартизованной матрицы данных X
Объекты Параметр
Х09 Х18 Х24 Х32
Т02 -0,407 -0,339 -1,770 0,425
Т21 1,491 2,601 2,475 0,227
Т26 3,199 -1,229 -0,979 0,671
Т41 0,579 0,001 -0,099 0,376
Отметим, что ВАР не чувствителен к свойствам распределений, определяющим условия применимости критерия Стьюдента (нормальность распределений и равенство их дисперсий), и может быть использован в качестве теста результатов ДАР. Для проведения теста мы заново построили стандартизованную матрицу данных, на этот раз включив в нее все объекты (общим числом 52: пять АК и 47 РО) — в том числе и те, что были распознаны на этапе работы ДАР. В двух случаях тест показал результаты, отличные от итогов ДАР, и в трех — от итогов
ХВ таблицах 8, 9 и 11, а также в пункте 5 статьи приводятся числовые данные, которые отличаются от данных, используемых в публикациях [5] и [6]. Причина различий: в указанных источниках описаны вычисления, сделанные по ошибочным исходным данным в части объекта Т26. В текущей статье приведены исправленные исходные данные и результаты вычислений. Следствие указанных различий в данных: изменение решения ВАР по объекту Т26 (см. табл. 9 и 10): по результатам публикаций [5] и [6] объект был атрибутирован А. А. Дельвигу (Пэ) — в текущей статье с учетом исправлений объект атрибутируется Н. В. Гоголю (П2). В остальном решения ВАР при классификации объектов не различаются.
В табл. 9 в связи с округлением значений вероятностей до трех десятичных разрядов их сумма не везде строго равна 1 без округления.
ВАР, основанного на итогах ДАР и учитывающего изменения координат эталонов классов (см. табл. 10, где ТА — тестируемый алгоритм).
Таблица 9
Фрагменты матриц взвешенных ЕР и вероятностей
(Xj — объект)
Xj d(Xj, Hi) P (Xj e a)
H2 Нз Hi H2 Нз ^4 ^5
Т02 2,886 3,364 2,108 2,110 2,591 0,175 0,150 0,240 0,240 0,195
Т21 2,722 2,962 3,670 4,195 3,324 0,242 0,223 0,180 0,157 0,198
Т26 3,830 3,769 3,914 3,994 4,029 0,204 0,207 0,200 0,196 0,194
Т41 1,161 1,530 — 1,294 — 0,376 0,286 — 0,338 —
Таблица 10
Тест результатов ДАР и ВАР посредством ВАР
Xj P(Xj e Hi) ТА Прежний
^2 Нз ^5 результат
Т02 0,185 0,148 0,239 0,234 0,194 ВАР Нет решения
Т21 0,227 0,233 0,180 0,159 0,201 ВАР П1 (П. А. Вяземский)
Т26 0,206 0,206 0,200 0,193 0,194 ВАР П1 (Н. В. Гоголь)
Т29а 0,202 0,146 0,223 0,175 0,255 ДАР П4 (А. С. Пушкин)
Т45 0,385 0,387 — 0,228 — ДАР П1 (П. А. Вяземский)
После определения искомых вероятностей требуется интерпретировать полученный результат. Обозначив г-й РО через X, естественным представляется записать решающее правило принадлежности этого РО ]-му классу следующим образом:
X; € Пц , Р (X; € Пц) > Р(X; € Пк), к = 1~П, к = (14)
где п — число классов.
Ясно, что при такой формулировке правила пороговое значение вероятности принадлежности РО к некоторому классу априорно установлено быть не может. В аспекте определения межтекстовых расстояний более существенна не сама вероятность, а отношение р1 /р2, или «оценка значимости вероятностей» [8, с. 15]. Атрибутируя текст пяти авторам, получим значения вероятностей пяти рангов. Так, по данным табл. 10,
для текста Т02 оценка значимости вероятности первого ранга (0,239) по отношению к вероятности второго (0,234) примерно равна 1,021. Применение всего набора оценок значимости вероятностей первого ранга затрудняет определение веса каждого решения ВАР. Для этой цели удобно применять среднее значение набора таких оценок по каждому решению ВАР, которое можно назвать коэффициентом значимости, принятого решения:
- 1 P (X £ " )
кР ) = — £ plxi^ • ■X е " •k = ^k = J, (15)
где P(Xi е "j) — вероятность первого ранга, n — число классов. Значение коэффициента тем выше, чем определеннее принятое решение.
5. Результаты работы распознающего автомата
Всего классификации были подвергнуты 46 текстов (47 объектов — см. выше п. 3). С учетом результатов теста работы ДАР с помощью ВАР были получены следующие результаты:
1. Классификацию пяти объектов следует признать неоконченной (см. табл. 10).
2. С вероятностью больше 0,95 А. С. Пушкину атрибутируется 4 текста (см. табл. 11), П. А. Вяземскому — 2 текста, Н. В. Гоголю — 1 текст.
3. С невысокой долей вероятности (от 0,210 до 0,568) определены авторы 35 объектов (за исключением Т02, Т21 и Т26, классификацию которых мы признали незавершенной). Для 10 объектов получен достаточно высокий коэффициент значимости принятого решения (2,067 < ki < 5, 859), а для 25 — низкий (1, 069 < ki < 1, 862). К числу последних принадлежит и рассмотренный нами текст Т41 с коэффициентом значимости принятого решения 1,214 (см табл. 11). Однако надо заметить, что деление оценок на «высокие» и «низкие» произвольно — нет объективного инструмента для разделения этих оценок на зоны значимости.
6. Заключение
В заключение назовем задачи, решение которых, как нам видится, должно повысить надежность распознающей системы:
1. Поиск критерия, наиболее эффективного для классификации текстов.
2. Поиск оптимального метода анализа корреляционной матрицы связей параметров. Избранный метод определяет состав информативных параметров, следовательно, влияет на конечный результат.
Таблица 11
Общие результаты атрибуции по итогам работы ДАР и ВАР
Текст Класс
Т04 П4 (А. С. Пушкин) Д
Т15 П4 (А. С. Пушкин) Д
Т23 П4 (А. С. Пушкин) Д
Т41 П1 (П. А. Вяземский) 1,214
Т43 П4 (А. С. Пушкин) Д
3. Поиск такого инструмента, который позволил бы для каждой конкретной классификационной задачи определять оптимальное количество информативных параметров.
4. Определение порогового значения при интерпретации результатов измерения межтекстового расстояния.
Требуется ряд экспериментов по классификации текстов, групповая принадлежность которых заранее известна и не подвергается сомнению. Важным условием является тесная стилистическая близость этих текстов, их «похожесть» друг на друга по разным параметрам языка и стиля. Такая постановка задачи позволит проверить, насколько эффективно и уверенно система атрибуции различает те малозаметные нюансы языка текстов, которые играют критически важную роль в решении сложных проблем авторства.
Список литературы
1. Бонгард М. М. Проблема узнавания. М.: Наука, 1967. 320 с.
2. В поисках потерянного автора: Этюды атрибуции / М. А. Мару-сенко, Б. Л. Бессонов, Л. М. Богданова и др. СПб.: Филол. ф-т С.-Петерб. гос. ун-та, 2001. 216 с.
3. Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л.: Изд-во ЛГУ, 1990. 168 с.
4. Родионова Е. С., Хозяинов С. А., Митрофанова О. А. Корпусы текстов в исследованиях по атрибуции литературных произведений // Труды международной конференции «Корпусная линг-
вистика — 2008». СПб.: С.-Петербургский гос. университет, Факультет филологии и искусств, 2008. С. 338—349.
5. Хозяинов С. А. Атрибуция публицистики, приписываемой А. С. Пушкину // Прикладная и математическая лингвистика : материалы секции XXXVII Международной филологической конференции, 11-15 марта 2008 г., Санкт-Петербург / отв. ред. Т. Г. Скребцова. СПб.: Ф-т филологии и искусств СПбГУ, 2008. С. 20—30.
6. Хозяинов С. А. Атрибуция публицистики, приписываемой А. С. Пушкину. Решение проблемы авторства методами распознавания образов / LAP LAMBERT Academic Publishing. Saarbrücken, 2012. 252 с.
7. Хозяинов С. А. Некоторые проблемы и методы квантитативно-структурного изучения авторских стилей // Известия Российского государственного педагогического университета им. А. И. Герцена. 2008. № 28 (63). С. 378—383.
8. Якубайтис Т. А., Скляревич А. Н. Вероятностная атрибуция типа текста по нескольким морфологическим признакам. Рига: ИЭВТ, 1982. 53 с.
СГУ им. Питирима Сорокина Поступила 25.02.2017
Summary
Khozyainov S. A. Text classification using methods of pattern recognition
This paper illustrates the text classification process using methods of pattern recognition. The problem of authorship of social and political essays attributed to A. S. Puskin is considered as an example. Means of increasing the reliability of the recognition system are suggested. Keywords: text classification, methods of pattern recognition, authorship attribution, A. S. Puskin.
References
1. Bongard M. M. Problema uznavaniya (Recognition Problem), Moscow: Nauka, 1967, 320 p.
2. Marusenko M. A., Bessonov B. L., Bogdanova L. M., Anikin M. A., Miasojedova N. E. Vpoiskakh poteryannogo avtora: Etyudy atributsii (In search of the lost author. Studies in attribution), St. Petersburg: Faculty of Philology, Saint Petersburg University, 2001, 216 p.
3. Marusenko M. A. Atributsiya anonimnykh i psevdonimnykh litera-turnykh proizvedenii metodami raspoznavaniya obrazov (Attribution of anonymous and pseudonymous literary works using methods of pattern recognition), Leningrad: Leningrad University, 1990, 168 p.
4. Rodionova E., Khozyainov S., Mitrofanova O. Text corpora in attribution of literary works, Proceedings of the International Conference «Corpus Linguistics — 2008», St. Petersburg: St. Petersburg State University, Faculty of Philology and Arts, 2008, pp. 338-349.
5. Khozyainov S. A. Atributsiya publitsistiki, pripisyvaemoi A. S. Pushkinu (Attribution of social and political essays attributed to A. S. Puskin), Prikladnaya i matematicheskaya lingvistika: Materialy sektsii XXXVII Mezhdunarodnoi filologicheskoi konferentsii, 11-15 marta 2008 g., Sankt-Peterburg (Applied and mathematical Linguistics: Materials of the section XXXVII International philological conference, March, 11-15, St. Petersburg), St. Petersburg, 2008, pp. 20-30.
6. Khozyainov S. A. Atributsiya publitsistiki, pripisyvaemoi A. S. Pushkinu. Reshenie problemy avtorstva metodami raspoznava-niya obrazov (Attribution of social and political essays attributed to A. S. Puskin. Autorship attribution using methods of pattern recognition), LAP LAMBERT Academic Publishing, Saarbrucken, 2012, 252 p.
7. Khozyainov S. Some problems and methods of quantitative and structural research of authors' styles, Izvestiya RGPU im. A. I. Ger-tsena, № 28 (63), St. Petersburg, 2008, pp. 378-383.
8. Yakubaitis T. A., Sklyarevich A. N. Veroyatnostnaya atributsiya tipa teksta po neskol'kim morfologicheskim priznakam (Probability attribution of text type on the several morphological markings), Riga, 1982, 53 p.
Для цитирования: Хозяинов С. А. Классификация текстов методами распознавания образов // Вестник Сыктывкарского университета. Сер. 1: Математика. Механика. Информатика. 2017. Вып. 1 (22). C. 3-20.
For citation: Khozyainov S. A. Text classification using methods of pattern recognition, Bulletin of Syktyvkar University, Series 1: Mathematics. Mechanics. Informatics, 2017, №1 (22), pp. 3-20.