Научная статья на тему 'Экспериментальное сравнение алгоритмов классификации символов в стенографических документах'

Экспериментальное сравнение алгоритмов классификации символов в стенографических документах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
284
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТЕНОГРАФИЧЕСКИЙ ДОКУМЕНТ / АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ / НАДСТРОЧНЫЕ И ПОДСТРОЧНЫЕ СИМВОЛЫ / МЕТОД АППРОКСИМАЦИИ / SHORTHAND DOCUMENT / ALGORITHM OF SYMBOLS CLASSIFICATION / SUPERSCRIPT AND SUBSCRIPT SYMBOLS / APPROXIMATION METHOD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гиппиев Михаил Борисович, Рогов Александр Александрович

При дешифровке исторических стенографических документов относительное местоположение символа влияет на его значение. Определяют три позиции: основная, надстрочная или подстрочная. В работе приводятся результаты сравнения четырех алгоритмов классификации символов по их положению методом одинарной аппроксимации, методом двойной аппроксимации, методом одинарной аппроксимации с уменьшением ошибки и методом двойной аппроксимации с уменьшением ошибки. Параметры алгоритмов выбирались экспериментально, используя обучающую выборку. Качество работы алгоритмов определяется пятью показателями: корректность, точность, полнота, F-мера и обобщенная F-мера. На основании обобщенной F-меры лучший результат показал алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки. Кроме того, для каждого алгоритма классификации определены оптимальные настроечные параметры, при которых среднее значение обобщенной F-меры на контрольной выборке является максимальным, и для каждого алгоритма определена длительность его обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гиппиев Михаил Борисович, Рогов Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPERIMENTAL COMPARISON OF ALGORITHMS FOR SYMBOLS’ CLASSIFICATION IN SHORTHAND DOCUMENTS

A relative position of the symbol influences its meanings. This dependence was revealed in the process of decoding historic shorthand written documents. There are three positions: basic, superscript, or subscript. We present a comparison of the four algorithms for symbols’ classification based on the single approximation method, double approximation method, single approximation method with the error decrease, and the double approximation method with the error decrease. Parameters of the algorithms were chosen experimentally using a validation set. The performance level of the algorithms was measured in terms of accuracy, precision, recall, F-measure, and summarized F-measure. Based on the summarized F-measure, the best result was achieved with the algorithm for symbols’ classification by double approximation method with the error decrease. We identified parameters for each algorithm in which the summarized F-measure is maximized for the validation data. We also identified learning duration period for each algorithm.

Текст научной работы на тему «Экспериментальное сравнение алгоритмов классификации символов в стенографических документах»

УЧЕНЫЕ ЗАПИСКИ ПЕТРОЗАВОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Июнь, № 4 Физико-математические науки 2015

УДК 51-74

МИХАИЛ БОРИСОВИЧ ГИППИЕВ

аспирант кафедры теории вероятностей и анализа данных математического факультета, Петрозаводский государственный университет (Петрозаводск, Российская Федерация)

gippiev@gmail. com

АЛЕКСАНДР АЛЕКСАНДРОВИЧ РОГОВ

доктор технических наук, профессор, заведующий кафедрой теории вероятностей и анализа данных математического факультета, Петрозаводский государственный университет (Петрозаводск, Российская Федерация) rogov@psu.karelia.ru

ЭКСПЕРИМЕНТАЛЬНОЕ СРАВНЕНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ СИМВОЛОВ

В СТЕНОГРАФИЧЕСКИХ ДОКУМЕНТАХ*

При дешифровке исторических стенографических документов относительное местоположение символа влияет на его значение. Определяют три позиции: основная, надстрочная или подстрочная. В работе приводятся результаты сравнения четырех алгоритмов классификации символов по их положению методом одинарной аппроксимации, методом двойной аппроксимации, методом одинарной аппроксимации с уменьшением ошибки и методом двойной аппроксимации с уменьшением ошибки. Параметры алгоритмов выбирались экспериментально, используя обучающую выборку. Качество работы алгоритмов определяется пятью показателями: корректность, точность, полнота, F-мера и обобщенная F-мера. На основании обобщенной F-меры лучший результат показал алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки. Кроме того, для каждого алгоритма классификации определены оптимальные настроечные параметры, при которых среднее значение обобщенной F-меры на контрольной выборке является максимальным, и для каждого алгоритма определена длительность его обучения.

Ключевые слова: стенографический документ, алгоритм классификации символов, надстрочные и подстрочные символы, метод аппроксимации

ВВЕДЕНИЕ

Одним из этапов при распознавании рукописного текста является сегментация (выделение) строк. Для решения данной задачи предлагаются различные методы. При распознавании печатных текстов самым популярным является метод, связанный с построением проекции точек символов на ось, перпендикулярную строкам текста. Однако в случае рукописных документов при использовании данного метода возникают сложности, связанные с тем, что строки могут располагаться под некоторым углом, интервал между соседними строками может варьироваться и т. д. Поэтому при сегментации строк в рукописных документах используются либо его модификация, либо иные методы.

В работе [7] предлагается алгоритм, который динамически строит разделяющую линию между соседними строками. Для нахождения координат этой линии используется трехэтапный алгоритм. Первый этап алгоритма заключается в рекурсивном построении разделяющей линии между двумя строками с достаточно большим интервалом между ними. В качестве начальных точек разделяющих линий берутся локальные минимумы проекции точек символов на границу

изображения. Второй и третий этапы алгоритма заключаются в реализации обхода встречающихся на пути разделяющей линии символов. На втором этапе для этой цели используется огибание части встретившегося символа по контуру в случае, если огибаемая часть достаточно мала, если же этого сделать нельзя, тогда на третьем этапе алгоритма для нахождения точек разделяющей линии используется метод, суть которого заключается в следующем. Изображение с текстом делится на некоторое количество вертикальных прямоугольных секций. Внутри каждой секции строится проекция точек символов на границу этой секции, и локальные минимумы проекции являются точками, лежащими на разделяющей линии между двумя соседними строками.

Метод сегментации строк с разделением распознаваемого изображения на секции представлен в [5]. В данной работе дана модификация этого метода для того случая, если строки расположены под некоторым углом (необязательно одинаковым). Кроме того, при использовании рассматриваемого метода может возникнуть проблема, связанная с недостаточным количеством точек символов для какой-либо строки в секции,

© Гиппиев М. Б., Рогов А. А., 2015

116

М. Б. Гиппиев, А. А. Рогов

например, это может произойти, если секция попадает на разрыв между двумя соседними символами строки. Тогда проекция для данной секции не отобразит наличие существующей строки. Для решения этой проблемы в работе [10] предлагается для каждой секции использовать сглаживающую проекцию, которая зависит от количества точек символов в соседних секциях.

При использовании методов, связанных с построением проекций, предполагается, что между строками есть четко выраженные интервалы и количество пересечений строк достаточно мало. Однако в стенограммах, ввиду того что размеры символов сильно варьируются, есть надстрочные и подстрочные символы, каждая отдельная строка может иметь произвольную форму, четко выделить интервал между двумя соседними строками не всегда возможно, поэтому в случае стенографических документов использовать рассмотренные выше методы нецелесообразно.

В работах [8], [9] рассматриваются метод выделения строк с помощью группировки компонентов изображения, а также метод выделения строк с помощью размытия исходного изображения документа. Метод группировки заключается в том, что отдельные компоненты (наборы связанных пикселей) на изображении соединяются согласно их геометрическим и топологическим характеристикам. Общая стратегия метода состоит в сопоставлении каждой компоненте соответствующей точки в некотором пространстве характеристик (например, центр тяжести) и в расчете расстояний между точкой, соответствующей данной компоненте, и точками, соответствующими соседним компонентам. Две компоненты объединяются, если расстояние между соответствующими им точками не превышает заданного вручную либо, например, полученного путем обучения на заранее подготовленной коллекции документов [11]. Метод размытия заключается в том, что вначале к исходному изображению применяется эффект размытия (например, по Гауссу [6]), таким образом каждая строка преобразуется в сплошную закрашенную область, после чего для выделения отдельных строк применяются хорошо известные методы сегментации изображений.

Методы, связанные с размытием исходного изображения документа, также сильно зависят от интервалов между строками, так как если будет большое количество пересечений строк, то на размытом изображении будет весьма трудно выделить отдельные строки.

Среди публикаций на русском языке, описывающих проблемы сегментации строк, можно выделить монографию Л. А. Местецкого, в которой предложен метод распрямления строк на основе гранично-скелетного представления бинарного изображения сканированного документа [3]. Суть данного метода заключается в использовании

гранично-скелетного представления бинарного изображения сканированного документа. Для распрямления используется внешний скелет изображения, под которым понимается скелет области, внешней границей которой является граница документа, а внутренними отверстиями - контуры изображенных в документе букв. По сути дела, речь идет о негативном изображении документа - белые буквы на черном фоне. Основная идея предлагаемого подхода заключается в том, что во внешнем скелете документа можно легко выделить ветви, лежащие между соседними текстовыми строками. Эти ветви можно использовать, чтобы аппроксимировать деформацию межстрочных пробелов на изображении. Затем по аппроксимации отдельных межстрочных пробелов можно построить аппроксимацию искажения всего документа. Данный метод может быть использован в том случае, если оригинальный текст содержал строго горизонтально ориентированные строки, то есть этот метод является некоторой корректировкой отсканированного документа, вследствие чего он также не может быть использован для выделения строк в рукописных документах, а тем более в стенограммах.

Наиболее применимыми методами для сегментации строк в стенографических документах являются методы группировки компонент, к которым относится предложенный нами алгоритм [1] распознавания строк методом построения графа связей. Его идея заключается в формировании списка связей, где для каждой связи заданы первая компонента, вторая компонента и расстояние между компонентами. Каждая компонента помещается в отдельную строку, и для каждой связи из списка выполняются следующие действия: 1) если компоненты, входящие в текущую связь, можно соединить, то есть для первой компоненты не задана следующая за ней компонента, а для второй компоненты не задана предшествующая, то объединяются строки, содержащие эти компоненты; 2) иначе, если компоненты соединить нельзя, то находятся вертикальные интервалы между компонентами строк, содержащими компоненты, входящие в связь, и если все интервалы не превышают заданный максимальный интервал, тогда объединяются строки; 3) выполняется переход к следующей связи. В отличие от других методов, на вход которых подается исходное изображение документа, для алгоритма распознавания строк методом построения графа связей входными данными является информация о месторасположении каждой отдельной компоненты, что облегчает задачу. Под компонентой в данном случае будет пониматься отдельный символ стенографического документа.

Кроме того, при распознавании стенографических документов возникает задача определения типа (основной, надстрочный и подстрочный) каждого символа в строке.

Экспериментальное сравнение алгоритмов классификации символов в стенографических документах

117

В работе [2] описаны предложенные нами алгоритмы классификации символов методами одинарной и двойной аппроксимации. Основная идея алгоритмов состоит в том, что строки в стенографических документах имеют форму, которую можно аппроксимировать полиномом некоторой степени. В данной статье рассматривается модификация этих алгоритмов, которая заключается в последовательном уменьшении ошибки аппроксимации за счет исключения части аппроксимируемых точек.

Кроме того, в статье приводятся результаты сравнения алгоритмов классификации без модификации и модифицированных алгоритмов классификации символов на основе заранее построенной контрольной выборки. При сравнении алгоритмов использовались такие оценки, как корректность (отношение числа правильно классифицированных символов к общему числу символов), точность, полнота, F-мера для каждого типа символов и обобщенная F-мера, которая представляет собой среднее значение оценок F-меры для каждого типа символов.

Сравнение алгоритмов проводилось в три этапа. Первый этап заключается в нахождении для каждого алгоритма оптимальных входных параметров (параметров, при которых достигается максимальное значение обобщенной F-меры) на каждом стенографическом документе из контрольной выборки и последующем сравнении оценок работы алгоритмов при найденных параметрах. Второй этап заключается в нахождении для каждого алгоритма входных параметров, при которых среднее значение оценок обобщенной F-меры на всех стенографических документах из контрольной выборки будет максимальным, и последующем сравнении средних значений обобщенной F-меры при найденных параметрах для каждого алгоритма. Третий этап заключается в определении скорости обучения каждого алгоритма на каждом стенографическом документе из контрольной выборки. Основными показателями скорости обучения алгоритмов классификации символов являются количество строк, на которых проведено обучения, контрольного стенографического документа и значение обобщенной F-меры, которое показал обученный алгоритм на данном документе.

Так как алгоритмы классификации символов определяют оценку вероятности, с которой каждый символ относится к тому или иному типу, было принято считать, что символ является основным, надстрочным или подстрочным, если вероятность данного события превышает 0,5. Кроме того, разбиение символов на строки выполнялось с помощью описанного выше алгоритма распознавания строк методом построения графа связей.

АЛГОРИТМЫ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДАМИ ОДИНАРНОЙ И ДВОЙНОЙ АППРОКСИМАЦИИ

Алгоритмы детально рассмотрены в работе [2], поэтому приведем лишь краткое описание принципа их работы. После распознавания строки строится одна линия аппроксимации по центрам прямоугольников, описывающих символы строки, в случае алгоритма классификации символов методом одинарной аппроксимации, и две линии аппроксимации по центрам верхних и нижних сторон прямоугольников, в которые вписаны символы строки, в случае алгоритма классификации символов методом двойной аппроксимации. После чего в зависимости от расположения символов строки относительно построенной(ых) линии(ий) аппроксимации рассчитывается оценка вероятности принадлежности символа к тому или иному типу.

АЛГОРИТМЫ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДАМИ ОДИНАРНОЙ И ДВОЙНОЙ АППРОКСИМАЦИИ С УМЕНЬШЕНИЕМ ОШИБКИ

Модифицированные алгоритмы классификации символов отличаются от немодифицированных только на этапе построения линии аппроксимации. Рассмотрим данный этап.

Вводятся два входных параметра алгоритма: error - максимальный процент, на который может уменьшиться ошибка аппроксимации, и exclusion - максимальный процент исключенных точек от общего числа аппроксимируемых точек.

Пусть P - множество аппроксимируемых точек.

P У )(Х2, У2 ^..^(Х|Р|,У\р\ )} . (1)

Выполняются следующие действия:

1. Строится полиномиальная аппроксимирующая функция (pP (х) по точкам из множества

р; , \

2. Находится точка (xj, yj), где

j = argmax{у -ф (х)} ; (2)

iEl...| P|

3. Определяется множество P', которое получается из множества P исключением из него точки (xj,y});

4. Строится полиномиальная аппроксимирующая функция фр(х) по точкам из множества

P;

5. Определяется ошибка

E1 = Е y -фр (х )|; (3)

i£1...| P| ,i Ф j

6. Определяется ошибка

е2 =Е |у -фр(х )|; (4)

/е1...| P' |

7. Если выполняется неравенство ( - Е2) / Е1 < < еГГОГ /100 и процент исключенных точек не превышает exclusion , тогда переходим на

118

М. Б. Гиппиев, А. А. Рогов

второй шаг, при этом в качестве множества P будет выступать множество P', а в качестве аппроксимирующей функции (рР (х) - функция фр\х) .

Полученная в ходе выполнения вышеприведенных действий функция (рР (х) будет определять линию аппроксимации.

СРАВНЕНИЕ ЛУЧШИХ РЕЗУЛЬТАТОВ РАБОТЫ АЛГОРИТМОВ КЛАССИФИКАЦИИ СИМВОЛОВ

Эксперимент проводился на четырех исторических стенографических документах, написанных А. Сниткиной под диктовку Ф. М. Достоевского. Эти документы были размечены вручную. Для каждого документа были найдены лучшие результаты работы каждого из четырех алгоритмов классификации символов, включающих алгоритм классификации символов методом одинарной аппроксимации, алгоритм классификации символов методом двойной аппроксимации, алгоритм классификации символов методом одинарной аппроксимации с уменьшением ошибки и алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки. Критерием, по которому выбирается лучший результат, является обобщенная F-мера.

В табл. 1 представлены оценки лучших результатов работы алгоритмов классификации символов для первой стенограммы, а также входные параметры, при которых достигаются эти результаты. К входным параметрам алгоритмов классификации символов относятся:

• m - степень аппроксимирующего полинома (используется в каждом алгоритме);

• X - параметр, используемый при определении вероятности того, что символ является ос-

новным либо неосновным (надстрочным или подстрочным), в алгоритме классификации символов методом одинарной аппроксимации и алгоритме классификации символов методом одинарной аппроксимации с уменьшением ошибки,

а также рассмотренные выше параметры (error, exclusion).

Как видно из представленных в табл. 1 оценок, лучший результат показал алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки.

СРАВНЕНИЕ МАКСИМАЛЬНЫХ СРЕДНИХ ЗНАЧЕНИЙ ОБОБЩЕННОЙ F-МЕРЫ ДЛЯ ВСЕХ ДОКУМЕНТОВ

Для каждого алгоритма классификации символов были найдены максимальные средние значения обобщенной F-меры на всех стенографических документах из контрольной выборки, а также входные параметры, при которых достигаются эти значения (табл. 2).

Алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки показал самые высокие средние значения обобщенной F-меры.

СРАВНЕНИЕ ОБЪЕМА ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ ОЦЕНКИ ТОЧНОСТИ АЛГОРИТМОВ КЛАССИФИКАЦИИ СИМВОЛОВ

Был проведен эксперимент по определению объема обучающей выборки (скорости обучения) алгоритмов классификации символов на каждом стенографическом документе. Оценка скорости обучения алгоритма заключалась

Таблица 1

Оценки лучших результатов работы алгоритмов классификации символов для первой

стенограммы

Алгоритм Методом одинарной аппроксимации Методом двойной аппроксимации

Параметры m = 4, X = 0,0682 m = 3

Обобщенная F-мера 0,5087 0,5607

Корректность 0,724 0,8368

Тип символов Осн. Надстр. Подстр. Осн. Надстр. Подстр.

Полнота 0,7838 0,5333 0,4854 0,952 0,2667 0,4078

Точность 0,8651 0,1143 0,5495 0,8617 0,2 0,84

F-мера 0,8225 0,1882 0,5155 0,9046 0,2286 0,549

Алгоритм Методом одинарной аппроксимации с уменьшением ошибки Методом двойной аппроксимации с уменьшением ошибки

Параметры m = 4, X = 0,0386, exclusion = 50, error = 80 m = 1, exclusion = 30, error = 10

Обобщенная F-мера 0,5381 0,6244

Корректность 0,8056 0,8559

Тип символов Осн. Надстр. Подстр. Осн. Надстр. Подстр.

Полнота 0,9279 0,3333 0,3301 0,9432 0,3333 0,5437

Точность 0,8483 0,2778 0,5965 0,8871 0,3125 0,7671

F-мера 0,8863 0,303 0,425 0,9143 0,3226 0,6364

Экспериментальное сравнение алгоритмов классификации символов в стенографических документах

119

Таблица 2

Лучшие средние значения обобщенной F-меры алгоритмов классификации

символов

Параметры Обобщенная F-мера

m X error exclusion Стенограмма Среднее значение

№ 1 № 2 № 3 № 4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Алгоритм классификации символов методом одинарной аппроксимации

Максимальные значения F-меры

0,5087 0,6744 0,5854 0,6945

4 0,0473 0,4696 0,5831 0,5661 0,6728 0,5729

4 0,0474 0,4696 0,5831 0,5661 0,6728 0,5729

4 0,047 0,4686 0,5831 0,5661 0,6728 0,57265

4 0,0471 0,4655 0,5831 0,5661 0,6728 0,571875

4 0,0472 0,4655 0,5831 0,5661 0,6728 0,571875

Алгоритм классификации символов методом двойной аппроксимации

Максимальные значения F-меры

0,5607 0,7172 0,6506 0,6756

2 0,5591 0,6886 0,5462 0,6756 0,617375

4 0,5524 0,6246 0,6287 0,6405 0,61155

1 0,5572 0,7172 0,4914 0,675 0,6102

5 0,5572 0,6 0,6506 0,6104 0,60455

3 0,5607 0,6558 0,5618 0,6344 0,603175

Алгоритм классификации символов методом одинарной аппроксимации с уменьшением ошибки

Максимальные значения F-меры

0,5381 0,6768 0,6254 0,6945

4 0,0481 15 15 0,5238 0,5921 0,5878 0,6561 0,58995

4 0,0479 15 15 0,5201 0,5921 0,5878 0,6561 0,589025

4 0,048 15 15 0,5201 0,5921 0,5878 0,6561 0,589025

4 0,0481 15 10 0,5237 0,5921 0,5887 0,6508 0,588825

4 0,0479 15 10 0,5199 0,5921 0,5887 0,6508 0,587875

Алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки

Максимальные значения F-меры

0,6244 0,7557 0,6612 0,7679

1 20 60 0,5855 0,7318 0,5274 0,7679 0,65315

1 20 65 0,5855 0,7318 0,5274 0,7679 0,65315

1 20 70 0,5855 0,7318 0,5274 0,7679 0,65315

1 20 75 0,5855 0,7318 0,5274 0,7679 0,65315

1 20 80 0,5855 0,7318 0,5274 0,7679 0,65315

в том, что на некотором количестве строк контрольного стенографического документа выполнялся поиск лучшего результата работы алгоритма, то есть результата, при котором достигается максимальное значение обобщенной F-меры. После чего при тех же входных параметрах, при которых был достигнут лучший результат на части строк, выполнялся запуск алгоритма на всем контрольном документе, при этом

фиксировалось значение обобщенной F-меры. Таким образом, скорость обучения определяется количеством строк, используемых при обучении, и конечным значением обобщенной F-меры на всем стенографическом документе. На рисунке представлены графики зависимости значения обобщенной F-меры от количества обучающих строк для первой стенограммы.

120

М. Б. Гиппиев, А. А. Рогов

3 4 5 6

Графики зависимости значения обобщенной F-меры от количества обучающих строк для первой стенограммы

Как видно из представленных графиков, лучший результат, начиная с пятой строки, показал алгоритм классификации символов методом двойной аппроксимации с уменьшением ошибки.

ЗАКЛЮЧЕНИЕ

Рассмотренные в статье алгоритмы будут реализованы в создаваемой компьютерной программе для распознавания исторических стенограмм [4].

* Работа выполнена при поддержке Программы стратегического развития ПетрГУ в рамках реализации комплекса мероприятий по развитию научно-исследовательской деятельности на 2012-2016 гг.

СПИСОК ЛИТЕРАТУРЫ

1. Гиппиев М. Б., Жу ков А. В., Рогов А. А., Скабин А. В. Распознавание строк в стенографических документах // Современные проблемы науки и образования. 2013. № 4 [Электронный ресурс]. Режим доступа: www.science-education.ru/110-9725

2. Гиппиев М. Б., Рогов А. А. Классификация символов в стенографических документах на основные, надстрочные и подстрочные // Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2014. № 8 (145). Т. 2. С. 115-118.

3. Местецкий Л. М. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры. М.: Физматлит, 2009. 227 c.

4. Рогов А. А., Скабин А. В., Штеркель И. А. Автоматизированная информационная система распознавания исторических рукописных документов // Информационная среда ВУЗА XXI века: Материалы VI Междунар. науч. конф. Куопио (Финляндия), 4-10 декабря 2012. Петрозаводск, 2012. С. 127-130.

5. Bar -Yosef I., Hagbi N., Kedem K., Dinstein I. Line segmentation for de-graded handwritten historical documents // Proceedings of the 2009 International Conference on Document Analysis and Recognition (ICDAR). 2009. P. 1161-1165.

6. Du X., Pan W., Bui T. D. Text line segmentation in handwritten documents using Mumford-Shah model // Online Conference Proceedings for the 11th International Conference on Frontiers in Handwriting Recognition. 2008. Available at: http:// www.iapr-tc11.org/archive/icfhr2008/Proceedings/papers/cr1132.pdf

7. Gao Y., Ding X., Liu C. A multi-scale text line segmentation method in freestyle handwritten documents // Proceedings of the 2011 International Conference on Document Analysis and Recognition (ICDAR). 2011. P. 643-647.

8. Katsouros V., Papavassiliou V. Segmentation of handwritten document images into text lines // Image Segmentation. 2011. Available at: http://www.intechopen.com/books/image-segmentation/segmentation-of-handwritten-document-images-into-text-lines

9. Likforman-Sulem L., Zahour A., Taconet B. Text line segmentation of historical documents: a survey // International Journal of Document Analysis and Recognition (IJDAR). 2007. Vol. 9 (2-4). P. 123-138.

10. Papavassiliou V., Stafylakis T., Katsouros V., Carayannis G. Handwritten document image segmentation into text lines and words // Pattern Recognition. 2010. Vol. 43 (1). P. 369-377.

11. Yin F., Liu C.-L. Handwritten text line segmentation by clustering with distance metric learning // Online Conference Proceedings for the 11th International Conference on Frontiers in Handwriting Recognition. 2008. Available at: http://www. iapr-tc11.org/archive/icfhr2008/Proceedings/papers/cr1022.pdf

Gippiev M. B., Petrozavodsk State University (Petrozavodsk, Russian Federation) Rogov A. A., Petrozavodsk State University (Petrozavodsk, Russian Federation)

EXPERIMENTAL COMPARISON OF ALGORITHMS FOR SYMBOLS’ CLASSIFICATION IN

SHORTHAND DOCUMENTS

A relative position of the symbol influences its meanings. This dependence was revealed in the process of decoding historic shorthand written documents. There are three positions: basic, superscript, or subscript. We present a comparison of the four algorithms for symbols’ classification based on the single approximation method, double approximation method, single approximation method with the error decrease, and the double approximation method with the error decrease. Parameters of the algorithms were

Экспериментальное сравнение алгоритмов классификации символов в стенографических документах

121

chosen experimentally using a validation set. The performance level of the algorithms was measured in terms of accuracy, precision, recall, F-measure, and summarized F-measure. Based on the summarized F-measure, the best result was achieved with the algorithm for symbols’ classification by double approximation method with the error decrease. We identified parameters for each algorithm in which the summarized F-measure is maximized for the validation data. We also identified learning duration period for each algorithm.

Key words: shorthand document, algorithm of symbols classification, superscript and subscript symbols, approximation method

REFERENCES

1. Gippiev M. B., Zhukov A. V., Rogov A. A., Skabin A. V Recognition of lines in historical handwritten documents [Raspoznavanie strok v stenograficheskikh dokumentakh]. Sovremennye problemy nauki i obrazovaniya [Modern problems of science and education]. 2013. № 4. Available at: www.science-education.ru/110-9725

2. Gippiev M. B., Rogov A. A. Classification of symbols in shorthand documents into basic, superscript and subscript [Klassifikatsiya simvolov v stenograficheskikh dokumentakh na osnovnye, nadstrochnye i podstrochnye]. Uchenye zapiski Petrozavodskogo gosudarstvennogo universiteta. Ser. "Estestvennye i tekhnicheskie nauki" [Proceedings of Petrozavodsk State University. Natural & Engineering Sciences]. 2014. № 8 (145). Vol. 2. P 115-118.

3. Mestetskiy L. M. Nepreryvnaya morfologiya binarnykh izobrazheniy: figury, skelety, tsirkulyary [Continuous morphology of binary images: figures, skeletons, circulars]. Moscow, Fizmatlit Publ., 2009. 227 p.

4. Rogov A. A., Skabin A. V., Shterkel’ I. A. Automated information system for deciphering historical shorthand reports [Avtomatizirovannaya informatsionnaya sistema raspoznavaniya istoricheskikh rukopisnykh dokumentov]. Informa-tsionnaya sreda VUZAXXIveka. Petrozavodsk, 2012. P 127-130.

5. Bar-Yosef I., Hagbi N., Kedem K., Dinstein I. Line segmentation for de-graded handwritten historical documents // Proceedings of the 2009 International Conference on Document Analysis and Recognition (ICDAR). 2009. P 1161-1165.

6. Du X., Pan W., Bui T. D. Text line segmentation in handwritten documents using Mumford-Shah model // Online Conference Proceedings for the 11th International Conference on Frontiers in Handwriting Recognition. 2008. Available at: http:// www.iapr-tc11.org/archive/icfhr2008/Proceedings/papers/cr1132.pdf

7. Gao Y., Ding X., Liu C. A multi-scale text line segmentation method in freestyle handwritten documents // Proceedings of the 2011 International Conference on Document Analysis and Recognition (ICDAR). 2011. P 643-647.

8. Katsouros V., Papavassiliou V. Segmentation of handwritten document images into text lines // Image Segmentation. 2011. Available at: http://www.intechopen.com/books/image-segmentation/segmentation-of-handwritten-document-images-into-text-lines

9. Likforman-Sulem L., Zahour A., Taconet B. Text line segmentation of historical documents: a survey // International Journal of Document Analysis and Recognition (IJDAR). 2007. Vol. 9 (2-4). P 123-138.

10. Papavassiliou V., Stafylakis T., Katsouros V., Carayannis G. Handwritten document image segmentation into text lines and words // Pattern Recognition. 2010. Vol. 43 (1). P 369-377.

11. Yin F., Liu C.-L. Handwritten text line segmentation by clustering with distance metric learning // Online Conference Proceedings for the 11th International Conference on Frontiers in Handwriting Recognition. 2008. Available at: http://www. iapr-tc11.org/archive/icfhr2008/Proceedings/papers/cr1022.pdf

Поступила в редакцию 21.05.2015

i Надоели баннеры? Вы всегда можете отключить рекламу.