Научная статья на тему 'Кластеризация русскоязычных рукописей на основе графа отношения особенностей'

Кластеризация русскоязычных рукописей на основе графа отношения особенностей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
254
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА РУКОПИСЕЙ / RUSSIAN MANUSCRIPTS / РУССКОЯЗЫЧНЫЕ ТЕКСТЫ / КЛАСТЕРИЗАЦИЯ ТЕКСТОВ / CLUSTERING / ГРАФ ОТНОШЕНИЯ ОСОБЕННОСТЕЙ / FEATURE RELATION GRAPH / ФИЛЬТР ГАБОРА / GABOR FILTER

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Павлов Владислав Александрович, Дюрдева Полина Сергеевна, Шалымов Дмитрий Сергеевич

Кластеризация документов задача объединения текстов по группам таким образом, что все тексты в одной группе обладают некоторыми общими свойствами (принадлежат одному автору, являются текстами одного жанра и др.). Эта задача становится особенно важной по причине стремительно возрастающего количества документов в оцифрованном виде. Для решения задачи кластеризации исследована новая метрика сравнения почерков, основанная на Графах Отношения Особенностей (далее ГОО). Эта метрика успешно зарекомендовала себя при решении тексто-независимой задачи определения автора персидской рукописи на основе почерка. Особенности, основанные на локальных шаблонах, извлекаются из рукописных документов с помощью фильтров Габора и X-Габора (XGabor). Извлеченные особенности формируют ГОО. Исследуется эффективность нескольких наиболее популярных алгоритмов кластеризации для задачи обработки рукописных текстов на русском языке в пространстве ГОО. В работе приведены численные эксперименты, демонстрирующие эффективность предложенной метрики, а также результаты эффективности применения различных алгоритмов кластеризации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Russian manuscripts clustering based on the feature relation graph (FRG)

Clustering of manuscripts becomes important nowadays because of the rapidly increasing number of documents in digital form. To solve this problem a new metric to compare handwritings based on the Feature Relation Graph (FRG) is investigated. This metric has demonstrated good results for the problem of text-independent writer recognition of Persian manuscripts on the basis of handwriting. Features that are based on local templates are extracted from manuscripts using Gabor and XGabor filters. We study the effectiveness of the most popular clustering algorithms for the problem of Russian manuscripts processing in the phase space of FRG. The paper presents numerical experiments demonstrating the effectiveness of the proposed metrics. The results of the various clustering algorithms are also provided.

Текст научной работы на тему «Кластеризация русскоязычных рукописей на основе графа отношения особенностей»

Компьютерные инструменты в образовании, 2016

№ 1: 24-35

УДК: 51-78, 004.912

http://ipo.spb.ru/journal

КЛАСТЕРИЗАЦИЯ РУССКОЯЗЫЧНЫХ РУКОПИСЕЙ НА ОСНОВЕ ГРАФА ОТНОШЕНИЯ ОСОБЕННОСТЕЙ*

Павлов Владислав Александрович, Дюрдева Полина Сергеевна, Шалымов Дмитрий Сергеевич

Аннотация

Кластеризация документов — задача объединения текстов по группам таким образом, что все тексты в одной группе обладают некоторыми общими свойствами (принадлежат одному автору, являются текстами одного жанра и др.). Эта задача становится особенно важной по причине стремительно возрастающего количества документов в оцифрованном виде. Для решения задачи кластеризации исследована новая метрика сравнения почерков, основанная на Графах Отношения Особенностей (далее ГОО). Эта метрика успешно зарекомендовала себя при решении тексто-независимой задачи определения автора персидской рукописи на основе почерка. Особенности, основанные на локальных шаблонах, извлекаются из рукописных документов с помощью фильтров Габора и X-Габора (XGabor). Извлеченные особенности формируют ГОО. Исследуется эффективность нескольких наиболее популярных алгоритмов кластеризации для задачи обработки рукописных текстов на русском языке в пространстве ГОО. В работе приведены численные эксперименты, демонстрирующие эффективность предложенной метрики, а также результаты эффективности применения различных алгоритмов кластеризации.

Ключевые слова: обработка рукописей, русскоязычные тексты, кластеризация текстов, граф отношения особенностей, фильтр Габора.

1. ВВЕДЕНИЕ

Рукописные тексты представляют собой важный источник информации, поскольку, помимо информативности содержания текста, также содержат особенности, присущие автору, которые могут позволить осуществить графологическую экспертизу [1]. Особенно большой интерес представляют старинные рукописи, являющиеся ценным наследием для историков сегодня. Многие авторы не подписывали свои рукописи, что особенно характерно для древнего времени. Сегодня имеется множество древних рукописей, авторство которых спорно или не установлено вовсе.

Благодаря стремительному развитию технологий значительно возрастает количество документов в оцифрованном виде, в том числе рукописных текстов, которые необходимо эффективно хранить и обрабатывать.

Все это подтверждает актуальность исследования новых алгоритмов для обработки и классификации рукописных текстов. На основе подобных исследований становится воз-

*Работа выполнена при поддержке гранта СПбГУ 6.37.181.2014.

можным создание системы программного обеспечения, способной определять авторство рукописи с определенной точностью.

Последние несколько десятков лет алгоритмы обработки рукописей активно исследуются, и уже получены значительные результаты. Большинство современных систем могут быть классифицированы как онлайн и офлайн системы. Онлайн системы используют информацию, полученную непосредственно в процессе письма. Офлайн системы оперируют с уже готовыми текстами. Системы определения авторства могут быть также поделены на текстозависимые и текстонезависимые. Первые подходят для распознавания авторства множества документов с наперед заданным текстом, в то время как тек-стонезависимые не зависят от текстов, которые они обрабатывают.

Мы рассматриваем офлайн текстонезависимые системы для русскоязычных рукописных документов. Такие системы могут быть применены к множеству отсканированных рукописей, авторство которых заранее неизвестно. Использование такой системы может позволить определить подмножество документов, написанных похожим почерком (и, вероятно, одним человеком), вычислить число различных стилей письма, определить наиболее вероятного автора рукописи, а также решить более общую задачу — задачу кластеризации рукописей по их почерку.

2. СУЩЕСТВУЮЩИЕ ПОДХОДЫ

Русский язык не часто используется для разработки и тестирования систем распознавания авторства. Однако существуют исследования, посвященные этому направлению. В работе [3] исследуется система для автоматического определения языка документа, при этом допускается содержание в документе как рукописного, так и машинописного фрагментов текста. Для извлечения особенностей используется кодовая книга форм (shape codebook). Основная идея данного подхода заключается в анализе специальных криволинейных образцов в тексте документа. Авторам удалось получить очень точные результаты для документов на восьми языках, включая русский.

Исследование распознавания русскоязычного почерка на основе нейронных сетей представил Кулик С.Д. [4]. В качестве входных данных использованы прописные и заглавные буквы русского алфавита. Основной задачей работы является задача классификации рукописей по полу автора. Система показала достойный результат распознавания, составляющий 87 % точности для 650 символов.

Распознавание слитных русских рукописных текстов с использованием аппарата нечеткой логики исследовали Н.С. Исупов и А.В. Кучуганов в работе [5]. Предложенный алгоритм представляет рукописную букву в виде графа. В конце алгоритма для каждого слова формируется нечеткий граф. При распознавании обработанные фрагменты изображения сравниваются с эталонами. Точность распознавания данной системы составила 70%.

Интересны также системы распознавания авторства рукописных документов, настроенные для обработки рукописей на других языках. С нашей точки зрения кажется перспективной система идентификации автора персидского рукописного документа, предложенная в работе [6]. Данная система показала 100-процентную точность распознавания персидских рукописных документов при условии, что представлено достаточное число тренировочных данных. Предлагаемое исследование для русского языка во многом основано на методах, использованных в этой работе. В частности, мы использовали Граф Отношения Особенностей (ГОО) и фильтр X-Габора, впервые представленные в [6].

3. АГОРИТМ Ш1АССИФИКАЦИИ НА ОСНОВЕ ГОО

Для решения задач классификации и кластеризации некоторого множества объектов необходимо определить способ сравнения объектов между собой. Для нашей задачи необходимо определить некоторую меру сходства между двумя отсканированными рукописями (меру сходства между изображениями). Мера, предложенная для персидских текстов [6], может быть использована в качестве таковой. Опишем основные шаги для вычисления данной меры.

3.1. Предобработка

Для эффективной работы алгоритма каждый скан рукописного документа должен быть предобработан. Требуется сегментация на строки. Далее система будет работать с изображениями-строками, а не с целыми сканами документов. Для этого производится бинаризация изображений и применяется необходимая серия морфологических операторов для улучшения линии текста. В нашей системе мы ограничились применением морфологического оператора замыкания.

3.2. Извлечение особенностей

Для каждого входного изображения множество особенностей извлекается с помощью двухмерных фильтров Габора, настроенных на различные направления (ориентации). Такие фильтры позволяют выделять локальные определенно ориентированные паттерны. Фильтр Габора — широко распространенный подход, используемый для решения задач распознавания. Его популярность может быть объяснена тем, что в его работе было найдено определенное сходство с работой зрительной системы человека. Данный фильтр позволяет эффективно производить фильтрацию изображения в частотных и пространственных системах координат. Двумерная функция Габора определяется как произведение синусоидной волны с функцией Гаусса. Функция задается следующим равенством:

!-(u2 + Y2 v2)\ (( u ^ gabor (х, y, А, в, у, a, y) = exp I-2~2- ехР Ц2я— + у J i J, (1)

где u = х cos в + y sin в и v = -х sin в + y cos в. В соотношении (1) А представляет собой длину волны синусоидальной функции. В нашем случае эта величина отвечает за толщину линии текста. Параметр в отвечает за ориентацию нормали к полосам функции Габора. С помощью этой величины задается ориентация локальных паттернов, к которым фильтр наиболее чувствителен. Параметр у отвечает за смещение по фазе. В наших экспериментах он приравнен 0. Переменная a — стандартное отклонение функции Гаусса. Число y задает эллиптичность функции Габора, и в наших экспериментах мы положили его равным 1. j — отношение параметров А и a, которое задает диапазон пропускаемых частот. Пример двумерной функции Габора представлен на рис. 1.

Для большей чувствительности к криволинейным паттернам был предложен фильтр X-Габор (XGabor) [6]. Двумерная функция XGabor может быть определена следующим способом:

(-(х2 + y 2П xgabor (х, y, А, a, rx, ry) = expl-2-I exp

{ !г х2 + Г у,2

sin

í ГхХ +ryy 1

V Гх + гу )

(2)

А

на"

Рис. 1. Двумерная функция Габора

Пояснения требуют параметры гх и Гу. Данные величины задают темп роста криволинейного паттерна по оси х и у соответственно. Пример двумерной функции XGabor представлен на рис. 2.

Рис. 2. Двумерная функция XGaboг

В нашей системе мы строили вектора особенностей таким же образом, как и в работе [6]. Вектора особенностей размерности I получались после свертки /1 различно ориентированных фильтров Габора и /2 XGaboг фильтров, настроенных на различные криволинейные паттерны, с входным изображением. В наших экспериментах 11 принимала значения 45, 36, 8. Величина /2 приравнивалась к 8 и 36.

3.3. Создание ГОО

Граф отношения особенностей (ГОО) — одно из ключевых понятий предлагаемой системы. Когда все I особенностей получены для всех строк т изображений, вычисляется максимальный разброс М между всеми вычисленными особенностями.

M = max (pr(Vs, t)) - min (pr (Vs, t), (3)

se{1..m},te{1..t} se{1..m},t e{1..t}

где pr(v, i) является обозначением для координаты вектора v под номером i.

Для подсчета меры различия между двумя особенностями заполняются пять глобальных переменных Mk, которые подсчитываются на основе M. Пусть d = MM. Тогда Mk под-считываются согласно 4.

Mk = k d - M,

(4)

где й = ММ .

В [6] определены величины г1, Г2, гз, гкоторые вычисляются для каждой пары особенностей. Каждая г-величина характеризует меру различия пары особенностей. Поведение этих величин в зависимости от аргументов х и у показано на рис. 3.

г±,г 2' Г3/

1

0

Л h 1 л2 / ь ¿4 ь h х-у

Рис. 3. г-величины

В нашей системе эти величины хранились в матрицах #1, #2,#з, #4, #5 для каждого вектора и8, где Як (1,7,5) = г^ (рг (и8,1), рг (и8, ])). После того как Я -матрицы вычислены, результирующие матрицы Пь П2, П3, П4, П5 вычисляются как:

Пк (i, j) =

zs= 1 Rk (i, j, s)

(5)

Теперь может быть построен ГОО. ГОО — ориентированный невзвешенный граф, который содержит не более I вершин, где каждая вершина обозначает некоторую особенность. Множество ребер ГОО О определяется соотношением 6:

(х, у) £ E(G) - £ (к - 3)Пк(X, у) > 1. k1

(6)

Наличие ребра от вершины 1 к вершине 2 показывает тенденцию особенности 1 численно превосходить особенность 2 во всех строках входных документов автора. Из определения ГОО следует, что такой граф не может содержать цикл, так как иначе нарушается транзитивность неравенства. Вышеописанный процесс позволяет интерпретировать почерк, задаваемый некоторым множеством изображений, как ГОО.

3.4. Задача классификации

Обозначим ГОО тестового множества документов U и множество графов, полученных на предыдущей стадии алгоритма, как Г. Для каждого графа Gf из множества Г под-считываются меры сходства S(U, Gf). Мера S(Gi, G2) подсчитывается как число общих путей в графах G1 и G2. Специальный алгоритм для эффективного подсчета S(G1( G2) предложен в [6]. Его суть заключается в следующем: для всех вершин графов вычисляется длина максимального пути height от вершины до какого-либо листа. На основе полученных величин производится специальная сортировка общих ребер графов по высоте начала ребра. Упорядоченность ребер позволяет вычислить специальную функцию T, необходимую для подсчета меры S(G 1(G2). Эта функция T может быть вычислена для каждой вершины графа. Если вершина v - лист, то T(v) = 0, иначе она получается суммированием всех T величин вершин, инцидентных v. Для подсчета S должна быть вычислена сумма T-величин общих вершин двух графов. Это может быть сделано после обработки ранее отсортированных общих ребер графов в возрастающем порядке.

Стоит заметить, что S(G1( G2) является мерой сходства (целая неотрицательная величина), которая возрастает, когда два графа становятся более схожими. В конце этапа решения задачи классификации выбирается граф B, такой что S(U, B) = maxGiеГ S(U, Gf). Мы можем построить B для каждого тренировочного множества, тем самым решив задачу классификации.

4. ЧИСЛОВЫЕ ЭКСПЕРИМЕНТЫ

4.1. Классификация рукописей

Алгоритм, кратко изложенный выше, продемонстрировал достойные результаты на персидских рукописных текстах [6]. Мы исследовали эффективность этого алгоритма на русских рукописных текстах. В открытом доступе нами не было найдено баз данных русскоязычных рукописей. Поэтому мы создали свою базу RuHT (Russian Handwritten Texts). Она включает в себя рукописи 30 авторов-носителей языка. Для каждого автора хранятся по 8 строк текста, 3 из которых фиксированы и одинаковы для всех авторов. Примеры рукописей двух различных авторов приведены на рис. 4.

Рис. 4. Примеры рукописей из базы данных RuHT, принадлежащих двум различным авторам

Как было замечено ранее, система требует на вход сегментированные на строки тексты. Поэтому мы произвели сегментацию изображений на строки самостоятельно. Пример полученных после сегментации строк приведен на рис. 5.

Ок. ^ЬЛЛАМААЛХЛо ^ЧДЛЛААА^ССлй. I

^оипАи-А ГГЧАЗГ^ЛАХ ил^ЛЛЛЛАЛ. ( ока

Рис. 5. Примеры строк, полученных после сегментации и предобработки текста

Мы провели ряд экспериментов для тестирования алгоритма на русских текстах. Каждый эксперимент задавался с помощью следующих параметров:

а — число авторов, чьи рукописи участвовали в эксперименте, р — отношение количества тестовых данных к количеству тренировочных, I — число извлекаемых особенностей.

Точность распознавания обозначена как с. Эта величина вычисляется как отношение правильно классифицированных документов к общему числу документов, участвовавших в эксперименте, умноженная на 100.

Число строк для каждого автора в каждом эксперименте равно 8.

В первой серии экспериментов участвовали рукописи четырех произвольных авторов, поэтому а в данной серии равно 4, р установлено как 3/5 и 5/3,1 приравнено к 16 и 32 соответственно.

Во второй серии экспериментов участвовали рукописи десяти произвольных авторов (а = 10), р установлено как 3/5 и 5/3,1 приравнено к 16 и 32.

В третьей серии экспериментов а = 15, р установлено как 3/5 и 5/3, I приравнено к 32 и 64.

В четвертой серии экспериментов а = 30, р установлено как 3/5 и 5/3, I приравнено к 64 и 90.

Как видно из таблицы 1, точность алгоритма растет при увеличении объема тренировочных данных и числа извлекаемых особенностей. К сожалению, при росте числа авторов точность алгоритма заметно падает. Однако стоит заметить, что в экспериментах, представленных в [6], использовалось примерно в 5 раз больше данных при решении задачи классификации. Учитывая тот факт, что число данных составляло всего 8 строк для каждого автора в нашей работе, мы считаем, что алгоритм показал себя достойно при классификации русскоязычных документов даже при средней точности, отличающейся от стопроцентной. В то же время при небольшом числе авторов данный алгоритм показал большую точность.

4.2. Кластеризация рукописей

Задача кластеризации известна как задача разбиения входных данных на группы так, чтобы все элементы были как можно более схожи с элементами в своей группе и максимально отличны от элементов из других групп. Обозначим входное множество

Таблица 1. Результаты классификации

№ a l p c

1 5 16 3/5 95

1 5 16 5/3 89

1 5 64 3/5 100

1 5 64 5/3 100

2 10 16 3/5 75

2 10 16 5/3 68

2 10 64 3/5 87

2 10 64 5/3 83

3 15 64 3/5 70

3 15 64 5/3 65

3 15 81 3/5 78

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 15 81 5/3 75

4 28 64 3/5 66

4 28 64 5/3 60

4 28 81 3/5 76

4 28 81 5/3 70

русских рукописных документов как C. В контексте работы наша цель — разбить множество рукописных документов C на множества Q,C2,...,Ck так, чтобы каждый Ci содержал изображения только одного определенного автора. Множества Q,C2,...,Ck называют кластерами, k — параметр, который, как правило, для большинства алгоритмов необходимо оценивать заранее.

Внутреннее качество кластеризации формально можно оценивать целевой функцией Cost, значение которой требуется свести к экстремальному (минимум или максимум). Например Cost(Q,...,Ck) ^ min. Задачу кластеризации изображений по почерку можно свести к задаче кластеризации графов отношения особенностей по мере их сходства. Стоит заметить, что, ввиду специфичности устройства объектов кластеризации (ГОО), в нашем случае эта функция не будет иметь всех свойств привычной функции расстояния, но будет более похожа на таковую, в отличие от меры S. Обозначим функцию «дистанции» как d. Пусть требуется вычислить «дистанцию» между двумя изображениями Si и S2. Обозначим за Li и L2 строки изображений Si и S2 соответственно. Пусть Gi и G2 - графы отношения особенностей, построенные на L1 и L2 по алгоритму, представленному в п. 3. Тогда d между S1 и S2 определяется как

d (Si, S2) =-1--(7)

i + S(G ь G2)

Так как S(Gi, G2) — целочисленная неотрицательная величина, растущая, когда графы становятся все более схожими, d будет равна i, когда графы полностью различны, и будет стремиться к 0, когда графы становятся более схожими. Чем меньше d, тем более схожи графы и тем они «ближе». В большинстве алгоритмов кластеризации существует понятие центроида — центра масс кластеров. Специфика кластеризуемых элементов также не позволяет использовать традиционные методы подсчета центров кластеров. В нашем случае центроид — это искусственный (не соответствующий ни одному начальному изображению) ГОО, построенный по всем элементам, а точнее, по всем строкам

изображений, входящим в кластер. Так как ГОО выражает собой некоторую статистику, то построенный таким образом «центроид» только улучшает ее представление. Когда определена «дистанция» между двумя документами и определен способ вычисления «центроидов», мы можем применить различные алгоритмы кластеризации.

Мы производили эксперименты со следующими алгоритмами кластеризации: k-means, global k-means [8], Online k-Means, PAM, DBSCAN [9] и агломеративным иерархическим алгоритмом. Для сравнения производительности приведенных выше алгоритмов были рассмотрены следующие внешние метрики качества кластеризации: Purity Measure, Rand Index, Normalized Mutual Information (NMI), F-Measure [11]. Самой простой для вычисления метрикой качества является чистота (purity). Этот показатель эффективен, когда число кластеров невелико. Нормализованная взаимная информация (Normalized Mutual Information) — нормализованный показатель, поэтому его можно использовать для сравнения кластеризации при разном количестве кластеров. Преимуществом коэффициент Рэнда (Rand Index) является учет ложно позитивных решений наравне с ложно негативными. F-мера (F-measure) дополнительно позволяет расставлять разные приоритеты для различного рода ошиб]к. Стоит сделать несколько замечаний относительно процедуры тестирования некоторых алгоритмов кластеризации.

4.2.1. Тестирование DBSCAN

Алгоритм DBSCAN сам определяет количество кластеров (параметр k) во время работы, поэтому его указание заранее не требуется. При тестировании алгоритма DBSCAN [9] существуют параметры, которые требуют дополнительного определния. Этот алгоритм параметризуется двумя величинами: е и minPoints. Для каждого параметра были выбраны три стратегии вычисления: равномерная, жадная, усредняющая.

При выборе равномерной стратегии определяются максимум и минимум «дистанции» d, вычисленной на всех парах различных графов. Разность между этими величинами делилась на некоторую величину closeness, которая задавала требуемую близость элементов при кластеризации. В жадном вычислении е бралось так, чтобы при кластеризации два элемента с наибольшей вероятностью объединялись в один кластер, поэтому в отсортированном по возрастанию массиве всевозможных дистанций D s выбиралось значение, стоящее на позиции | length(Ds). При усредняющем вычислении переменной е присваивалось среднее значение массива Ds. На основе вычисленной величины е вычислялся параметр minPoints. Для каждого элемента вычислялось число соседей в е окрестности и сохранялось в массиве Ns. Далее minPoints вычислялся по схожим стратегиям, что и е.

В ходе экспериментов наиболее удачное разбиение входного множества на кластеры было получено при выборе равномерной стратегии вычисления каждого параметра.

4.2.2. Тестирование Online K-means

Алгоритм Online K-means работает итеративно, обрабатывая каждый элемент по отдельности и добавляя его в существующий или новый кластер на основе параметра thr eshold. Параметр threshold был вычислен на основе наибольшей дистанции d между элементами с помощью равномерной стратегии, описанной в п. 4.2.1. Для алгоритма Online k-means все тексты обрабатывались в произвольном порядке. Процедурa кластеризации была произведена несколько раз.

4.2.3. Тестирование остальных алгоритмов

Параметр k был явно задан при работе алгоритмов k-means, global k-means и PAM.

4.2.4. Результаты тестирования

Мы произвели несколько серий экспериментов для каждого алгоритма кластеризации, упомянутого выше. В каждом эксперименте были задействованы рукописи различного числа авторов. Мы обозначили число авторов, чьи рукописи участвовали в процессе кластеризации, через а. В качестве источника рукописных документов была использована база данных RuHT. Восемь строк каждого автора были использованы при кластеризации. В наших экспериментах параметр а был равен 5,10,15 и 25 соответственно.

Таблица 2. Результаты кластеризации *102

а Algorithm Purity RandIndex NMI F-Measure

5 k-means 100 100 100 100

5 global k-means 100 100 100 100

5 online k-means 100 78 94 89

5 hierarchy 100 100 100 100

5 DBSCAN 100 89 98 96

5 PAM 100 100 100 100

10 k-means 92 75 86 97

10 global k-means 100 100 100 100

10 online k-means 85 56 92 85

10 hierarchy 80 62 95 90

10 DBSCAN 83 61 89 83

10 PAM 75 58 94 88

15 k-means 64 53 88 90

15 global k-means 89 62 87 91

15 online k-means 61 32 91 88

15 hierarchy 63 26 80 80

15 DBSCAN 73 39 87 82

15 PAM 68 40 93 81

28 k-means 58 25 74 83

28 global k-means 70 38 76 80

28 online k-means 55 20 71 81

28 hierarchy 60 26 80 81

28 DBSCAN 58 24 72 80

28 PAM 65 32 75 85

Таблица 2 показывает результаты применения различных алгоритмов кластеризации на осонове ГОО к входным русскоязычным рукописям. Для пяти кластеров большинство алгоритмов показали 100-процентную точность. Как видно из таблицы, наиболее результативными являются алгоритмы global k-means и PAM. Среди алгоритмов, не требующих входного параметра k, лучшие результаты показал иерархический алгоритм. С возрастанием количества авторов точность кластеризации заметно падает. Как уже было замечено, такая тенденция может быть связана с малым количеством данных для

каждого автора. Однако для объема данных, используемых при экспериментах(8 строк для каждого автора), алгоритмы показали достойные результаты.

5. ЗАКЛЮЧЕНИЕ

В данной работе был использован алгоритм классификации персидских рукописных документов, предложенный B. Helli и M.E. Moghaddam в [6], для решения задачи кластеризации русскоязычных рукописных документов. Была произведена оценка эффективности работы алгоритма на основе ГОО для решения задачи классификации русскоязычных рукописных документов.

ГОО — граф, устройство которого основано на вычислении эмпирических величин, которые вычисляются на основе векторов особенностей, полученных для строк документа. ГОО определяет почерк автора.

Для сравнения двух почерков производится сравнение ГОО с помощью специальной меры схожести. В качестве входных данных были использованы материалы базы данных RuHT, которая была составлена из рукописей 30 авторов, для каждого из которых хранится 8 строк рукописного текста.

Подход на основе ГОО показал высокую точность при решении задачи классификации на 10 авторах. Также мы сравнили результаты работы нескольких популярных алгоритмов кластеризации: k-means, global k-means, Online k-Means, PAM, DBSCAN и агло-меративный иерархический алгоритм. Для сравнения результатов кластеризации были использованы различные метрики сравнения: Purity Measure, Rand Index, Normalized Mutual Information, F-Measure.

На небольшом количестве авторов почти все алгоритмы показали высокую точность, на большем количестве авторов (28 авторов) лучшую точность показал алгоритм global k-means.

Список литературы

1. B. Nevo. Scientific Aspects Of Graphology: A Handbook. Springfield, IL, 1986.

2. A. Abbasi, Hsinchun Chen Applying authorship analysis to extremistgroup Web forum messages, Intelligent Systems, IEEE, Vol.20(5), 2005.

3. G. Zhu, X. Yu, Y. Li, D. Doermann Language identification for handwritten document images using a shape codebook, Pattern Recognition, Vol.42, 2009.

4. Kulik S.D. Neural Network Model of Artificial Intelligence for Handwriting Recognition, Journal of Theoretical and Applied Information Technology, Vol.73(2), 2015.

5. Исупов Н.С., Кучуганов А.В. Распознавание Слитных Рукописных Текстов с Использованием Аппарата Нечеткой Логики, Вестник ИжГТУ, N.1, 2012.

6. B.Helli, M.E. Moghaddam A text-independent Persian writer identification based on feature relation graph (FRG), Pattern Recognition, Vol.43(6), 2010.

7. V. Shiv Naga Prasad and Justin Domke Gabor filter visualization, Technical Report, University of Maryland, 2005.

8. A. Likasa, N. Vlassisb, J. J. Verbeekb The global k-means clustering algorithm, Pattern Recognition, Vol. 36(2), 2003.

9. Martin Ester, Hans-Peter Kriegel, Jorg Sander, Xiaowei Xu A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, AAAI Press, 1996.

10. A.P. Reynolds, G. Richards and V.J. Rayward-Smith The Application of K-medoids and PAM to the ClusteringofRules, Lecture Notes in Computer Science, Vol. 3177, 2004.

11. C.D. Manning, P. Raghavan, H. Schutze Introduction to Information Retrieval, Cambridge University Press, NY, USA, 2008.

RUSSIAN MANUSCRIPTS CLUSTERING BASED ON THE FEATURE RELATION GRAPH (FRG)

Pavlov V. A., Durdeva P. S., Shalymov D. S. Abstract

Clustering of manuscripts becomes important nowadays because of the rapidly increasing number of documents in digital form. To solve this problem a new metric to compare handwritings based on the Feature Relation Graph (FRG) is investigated. This metric has demonstrated good results for the problem of text-independent writer recognition of Persian manuscripts on the basis of handwriting. Features that are based on local templates are extracted from manuscripts using Gabor and XGabor filters. We study the effectiveness of the most popular clustering algorithms for the problem of Russian manuscripts processing in the phase space of FRG. The paper presents numerical experiments demonstrating the effectiveness of the proposed metrics. The results of the various clustering algorithms are also provided.

Keywords: Russian manuscripts, clustering, feature relation graph, Gabor Alter.

Павлов Владислав Александрович, студент кафедры системного программирования

математико-механического факультета СПбГУ,

vlad.pavlov24@gmail.com

Дюрдева Полина Сергеевна, студентка кафедры

информационно-аналитических систем математико-механического факультета СПбГУ,

polina.durdeva@yandex.ru

Шалымов Дмитрий Сергеевич, кандидат физико-математических наук, инженер-исследователь, математико-механический факультет СПбГУ,

dmitry.shalymov@gmail.com

© Наши авторы, 2016. Our authors, 2016.

i Надоели баннеры? Вы всегда можете отключить рекламу.