Научная статья на тему 'Классификация символов в стенографических документах на основные, надстрочные и под строчные'

Классификация символов в стенографических документах на основные, надстрочные и под строчные Текст научной статьи по специальности «Математика»

CC BY
215
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТЕНОГРАФИЧЕСКИЙ ДОКУМЕНТ / АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ / НАДСТРОЧНЫЕ И ПОДСТРОЧНЫЕ СИМВОЛЫ / МЕТОД АППРОКСИМАЦИИ / SHORTHAND DOCUMENT / ALGORITHM OF SYMBOLS' CLASSIFICATION / SUPERSCRIPT AND SUBSCRIPT SYMBOLS / APPROXIMATION METHOD

Аннотация научной статьи по математике, автор научной работы — Гиппиев Михаил Борисович, Рогов Александр Александрович

При дешифровке исторических стенографических документов относительное местоположение символа влияет на его смысл. Мы определяем три позиции: основная, надстрочная или подстрочная. В работе приводятся результаты сравнения двух алгоритмов классификации символов по их положению методом одинарной и методом двойной аппроксимации. Параметры алгоритмов выбирались экспериментально, использовалась обучающая выборка. Для построения выборки вначале выделяются строки на стенограммах (в автоматическом режиме), а затем определяется тип каждого символа. Качество работы алгоритмов определяется пятью показателями: корректность, точность, полнота, F-мера и обобщенная F-мера. На основании обобщенной F-меры лучший результат показал алгоритм классификации символов методом двойной аппроксимации. Кроме того, для каждого алгоритма классификации определены оптимальные настроечные параметры, при которых среднее значение обобщенной F-меры на контрольной выборке является максимальным.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гиппиев Михаил Борисович, Рогов Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION OF SYMBOLS IN SHORTHAND DOCUMENTS: BASIC, SUPERSCRIPT AND SUBSCRIPT

When decoding historic shorthand documents, the relative position of symbols influences their meaning. We distinguish three positions: basic, superscript, or subscript. The article presents a comparison of two algorithms for symbols’ classification performed by single and double approximation methods. Algorithm parameters are chosen experimentally using a validation set. The set is created automatically by identifying lines and then defining the type of each symbol. The performance of the algorithms is measured in terms of accuracy, precision, recall, F-measure and summarized F-measure. Based on the summarized F-measure, the best result is achieved with the algorithm for symbols’ classification by a double approximation method. We tune the parameters for each algorithm that the summarized F-measure is maximized for the validation data.

Текст научной работы на тему «Классификация символов в стенографических документах на основные, надстрочные и под строчные»

УЧЕНЫЕ ЗАПИСКИ ПЕТРОЗАВОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Декабрь, № 8. Т. 2 Физико-математические науки 2014

УДК 51-74

МИХАИЛ БОРИСОВИЧ ГИППИЕВ

аспирант кафедры теории вероятностей и анализа данных математического факультета, Петрозаводский государственный университет (Петрозаводск, Российская Федерация)

gippiev@gmail. com

АЛЕКСАНДР АЛЕКСАНДРОВИЧ РОГОВ

доктор технических наук, профессор, заведующий кафедрой теории вероятностей и анализа данных математического факультета, Петрозаводский государственный университет (Петрозаводск, Российская Федерация) rogov@psu.karelia.ru

КЛАССИФИКАЦИЯ СИМВОЛОВ В СТЕНОГРАФИЧЕСКИХ ДОКУМЕНТАХ НА ОСНОВНЫЕ, НАДСТРОЧНЫЕ И ПОДСТРОЧНЫЕ*

При дешифровке исторических стенографических документов относительное местоположение символа влияет на его смысл. Мы определяем три позиции: основная, надстрочная или подстрочная. В работе приводятся результаты сравнения двух алгоритмов классификации символов по их положению методом одинарной и методом двойной аппроксимации. Параметры алгоритмов выбирались экспериментально, использовалась обучающая выборка. Для построения выборки вначале выделяются строки на стенограммах (в автоматическом режиме), а затем определяется тип каждого символа. Качество работы алгоритмов определяется пятью показателями: корректность, точность, полнота, F-мера и обобщенная F-мера. На основании обобщенной F-меры лучший результат показал алгоритм классификации символов методом двойной аппроксимации. Кроме того, для каждого алгоритма классификации определены оптимальные настроечные параметры, при которых среднее значение обобщенной F-меры на контрольной выборке является максимальным.

Ключевые слова: стенографический документ, алгоритм классификации символов, надстрочные и подстрочные символы, метод аппроксимации

ВВЕДЕНИЕ

Для правильной дешифровки исторических стенографических документов [4] требуется определить тип каждого символа (графемы), то есть отнести его к основным, надстрочным или подстрочным символам. Из-за искажений рукописного текста, связанных с привычками автора, скоростью письма, аккуратностью, наклоном текста в ту или иную сторону, заваливанием, исправлением, зачеркиванием текста и некоторыми другими факторами, точно решить эту задачу невозможно. В работе [3] предлагается математическая модель дешифровки стенограмм. Использование этой модели предполагает знание вероятности того, что стенографический символ относится к основным, надстрочным или подстрочным. В данной статье описываются два алгоритма вычисления этих вероятностей и результаты сравнения их работы. Оба алгоритма используют метод аппроксимации, так как проведенный анализ показал, что строки в стенографических документах, как правило, имеют форму, которую можно аппроксимировать полиномом некоторой степени.

Для объективного сравнения качества работы алгоритмов классификации символов была построена контрольная последовательность, то есть в стенографических документах были выделены строки и для каждого символа указан

его тип. Оценки были рассчитаны путем сравнения результатов работы алгоритма классификации символов с контрольной последовательностью. Были рассмотрены корректность, которая рассчитывается как отношение количества правильно классифицированных символов к общему количеству символов, точность, полнота и F-мера [6] для каждого типа символов, а также обобщенная F-мера, представляющая собой среднее значение оценок F-меры для каждого типа символов.

При оценке считалось, что символ относится к тому или иному типу, если вероятность данного события превышала 50 процентов. Кроме того, разбиение символов на строки выполнялось с помощью алгоритма распознавания строк методом построения графа связей, описанного в работе [1]. В качестве итоговой оценки, на основании которой проводилось оценивание качества алгоритмов классификации символов, была выбрана обобщенная F-мера.

АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДОМ ОДИНАРНОЙ АППРОКСИМАЦИИ

Задается степень аппроксимирующего полинома m [5]. Предположим, что для каждого стенографического символа известны его размеры и то, к какой строке он относится. Строим полиномиальную аппроксимирующую функцию

© Гиппиев М. Б., Рогов А. А., 2014

116

М. Б. Гиппиев,д. А. Рого в

степени m по центрам символов одной строки (рис . 1). Кривую, заданную аппроксимирующей функцией, будем называть линией аппроксима-цид. Овщеделяем расстояния между рентками символрв илин-рУаии-юлоимиуии. ОЧоТНаРПИ это .акатоянмм дма несятяр его символа а а .. Тогда меипитностютого, что данный символ является основным, будем считать равной

Р = в~-е, (1)

осн ’ v '

и вероятносяя тогюрчто дипняш аимяоа а вюпет-ся надстрочным, в случае если он расположен иадриниайовуооксимприи,июбо повстрочнып, если он расположен под линией аппроксимации, щаонвр

P = 1 - e~^

tior\nu

(2)

где Я - некоторый коэффициент, который подбирается ib зависимостиот стенограммы. При

эт0м Росн

+P

= 1.

Рис. 1.Распознаваниетипов символов методом одинарной аппроксимации

Таблица 1

Лучшие средние значения обобщенной F-меры алгоритма классификации символов методом одинарной аппроксимации

Обобщенная F-мера

m 1 Стенограмма Среднее

№ 1 № 2 № 3 № 4 значение

4 0,0473 0,4696 0,5831 0,5661 0,6728 0,5729

4 0,0474 0,4696 0,5831 0,5661 0,6728 0,5729

4 0,047 0,4686 0,5831 0,5661 0,6728 0,57265

4 0,0481 0,4776 0,5726 0,5613 0,6728 0,571075

4 0,0471 0,4655 0,5831 0,5661 0,6728 0,571875

4 0,0472 0,4655 0,5831 0,5661 0,6728 0,571875

4 0,0487 0,4733 0,5883 0,5613 0,6613 0,57105

4 0,0488 0,4733 0,5883 0,5613 0,6613 0,57105

4 0,0475 0,4696 0,5795 0,5629 0,6728 0,5712

4 0,0476 0,4696 0,5795 0,5613 0,6728 0,5708

4 0,0682 0,5087 0,5169 0,5012 0,5405 0,516825

1 0,0326 0,3618 0,6744 0,5031 0,523 0,515575

4 0,0419 0,3825 0,5697 0,5854 0,6336 0,5428

3 0,0377 0,3924 0,5991 0,5135 0,6945 0,549875

Для алгоритма классификации символов методом одинарной аппроксимации были получены значения обобщенной F-меры на четырех стенографических документах при различных значениях настроечных параметров. Значения

коэффициента Я брались из диапазона от 0,025 до 0,155 с шагом 0,0001, а значения степени аппроксимирующего полинома - из диапазона от 0 до 10 с шагом 1. В табл. 1 приведены лучшие средние значения обобщенной F-меры. Последние четыре строки таблицы содержат максимальные значения обобщенной F-меры для каждой из стенограмм. При этом средние значения обобщенной F-меры в этих строках оказались заметнохуже, чем в остальных строках таблицы.

АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДОМ ДВОЙНОЙ АППРОКСИМАЦИИ

Задается степень аппроксимирующего полинома m. Для символов одной строки построим две полиномиальные аппроксимирующие функции: одну jT (x) по точкам, являющимся серединами верхних сторон, и другую (в(x) по

точкам, являющимся серединами нижних сторон прямоугольников, в которые вписаны символы строки. При этом верхняя и нижняя стороны каждого такого прямоугольника параллельны оси абсцисс.

Пусть некоторый символ S вписан в прямоугольник, центр которого находится в точке с абсциссой xS , тогда аппроксимирующая функция, построенная по серединам верхних сторон прямоугольников, описывающих символы строки, принимает в данной точке значение

Уa= =(pTyXsS , а аппроксимирующая функция,

построенная по серединам нижних сторон прямоугольников, описывающих символы строки,

принимает значение Уab (b{xsc ). Точки, лежащие на верхней стороне прямоугольника, описывающего символ S, имеют ординату ysT, а точки, лежащие на нижней стороне, имеют ординату ySg . Определим новые значения ординат

.УSt и ЯSb , которые зависят от взаимного расположения линий аппроксимаций и сторон прямоугольника, описывающего символ S .

Для yST ■

• если ysT > yAT, тогда yst = yA ;

• если ysT < yAB, тогда yst = yAB;

• если yAB " ysT " yAT, тогда ysT = ysT.

Аналогично для ЯSb :

Классификация символов в стенографических документах на основные, надстрочные и подстрочные

117

• если ySB > yAT , Т0ГДа ySB = yAT ;

• если ySB < yAB , Т0ГДа ySB = yAB ;

• если yAB " ysB " yAT , тогда ysB = ysB .

После чего выполним следующие действия:

• определим ординату центра отрезка, параллельного оси OY, ординаты концов которого равны соответственно yA и yA , и обозначим

ее за yA ; т в

C

• определим ординату центра отрезка, парал-лгмьного оси OY, ораиноты мооцов которого

равны соответственно уS и yS , и обозначим

eeaaj^i Г 8

о опрьделим д ли ну отрезка, параллельного оси OY, ординаты концов которого равны соответ-огвьног лу и уА , и обоонечим <зс ссвГо А;

Н определим длинуотрезка, пираллооьного оси OY, ординаты концов которого равны соответ-огрьнно уА и yS ,иобозначим ее за hC.

Вероятность того, что символ S является ос-нриным, примем равно°

Р= =

{hA/2- hc А

К/2

(3)

а в ероятнрсьг того, что лим вол S ялляеьсв над -

строчным (yS > у^) или подстрочным (ys < уАв),

равной

P...=-

кА И

C

(4)

На рис. 2 представлена схема с обозначениями, используемыми в вышеописанном алгоритме.

методом двойной аппроксимации

Для алгоритма классификации символов методом двойной аппроксимации были получены значения обобщенной F-меры на четырех стенографических документах, приведенных в предыдущей таблице, при значениях степени аппроксимирующего полинома, которые брались из диапазона от 0 до 10 с шагом 1. В табл. 2

приведены лучшие средние значения обобщенной F-меры.

Таблица 2

Лучшие средние значения обобщенной F-меры алгоритма классификации символов методом двойной аппроксимации

Обобщенная F-мера

m Стенограмма Среднее

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

№ 1 № 2 № 3 № 4 значение

4 0,5591 0,6886 0,5462 0,6756 0,617375

4 0,5524 0,6246 0,6287 0,6405 0,61155

4 0,5572 0,7172 0,4914 0,675 0,6102

4 0,5572 0,6 0,6506 0,6104 0,60455

4 0,5607 0,6558 0,5618 0,6344 0,603175

ОЦЕНКА АЛГОРИТМОВ КЛАССИФИКАЦИИ СИМВОЛОВ

В табл. 3 представлены лучшие оценки алгоритмов классификации символов методом одинарной аппроксимации и методом двойной аппроксимации на стенографических документах, приведенных в предыдущих таблицах.

Таблица 3

Лучшие оценки алгоритмов классификации символов

Оценка

Алгоритм классис икации символов

Методом одинарной аппроксимации Методом двойной аппроксимации

СТЕНОГРАММА № 1 (SAVE_LOG_DSCN4795)

Корректность 0,724 0,8368

Тип символов Осн. Надстр. Подстр. Осн. Надстр. Подстр.

Полнота 0,7838 0,5333 0,4854 0,952 0,2667 0,4078

Точность 0,8651 0,1143 0,5495 0,8617 0,2 0,84

F-мера 0,8225 0,1882 0,5155 0,9046 0,2286 0,549

Обобщенная F-мера 0,5087 0,5607

СТЕНОГРАММА № 2 (SAVE_LOG_DSCN4859)

Корректность 0,8728 0,8902

Тип символов Осн. Надстр. Подстр. Осн. Надстр. Подстр.

Полнота 0,9422 0,7333 0,3784 0,9558 0,6667 0,4595

Точность 0,9142 0,55 0,6087 0,9183 0,6667 0,68

F-мера 0,928 0,6286 0,4667 0,9367 0,6667 0,5484

Обобщенная F-мера 0,6744 0,7172

СТЕНОГРАММА № 3 (SAVE LOG DSCN4868)

мКорректность 0,8418 0,8955

Тип символов Осн. Надстр. Подстр. Осн. Надстр. Подстр.

Полнота 0,9052 0,5625 0,375 0,9706 0,5 0,375

Точность 0,9203 0,375 0,4138 0,9224 0,5333 0,7059

F-мера 0,9127 0,45 0,3934 0,9459 0,5161 0,4898

Обобщенная F-мера 0,5854 0,6506

СТЕНОГРАММА № 4 (SAVE_LOG_DSCN4871)

Корректность 0,8915 0,9009

Тип символов Осн. Надстр. Подстр. Осн. Надстр. Подстр.

Полнота 0,9834 0,625 0,2609 0,9945 0,5 0,3043

Точность 0,899 1 0,6667 0,9 0,8 1

F-мера 0,9393 0,7692 0,375 0,9449 0,6154 0,4667

Обобщенная F-мера 0,6945 0,6756

118

М. Б. Гиппиев, А. А. Рогов

Как видно из приведенных результатов, на трех из четырех стенограмм алгоритм классификации символов методом двойной аппроксимации показал наилучший результат. Это связано с тем, что алгоритм распознавания надстрочных и подстрочных символов методом двойной аппроксимации менее чувствителен к размерам символов. Он учитывает и верхние, и нижние границы символов, а алгоритм распознавания надстрочных учитывает только центры

символов, при этом возможна такая ситуация, когда центр крупного символа, который является основным в строке, совпадает с центром надстрочного или подстрочного символа.

ЗАКЛЮЧЕНИЕ

Рассмотренные в статье алгоритмы будут реализованы в создаваемой компьютерной программе для распознавания исторических стенограмм [2].

* Работа выполнена при поддержке Программы стратегического развития ПетрГУ на 2012-2016 гг.

СПИСОК ЛИТЕРАТУРЫ

1. Гиппиев М. Б., Жуков А. В., Рогов А. А., Скабин А. В. Распознавание строк в стенографических документах // Современные проблемы науки и образования. 2013. № 4 [Электронный ресурс]. Режим доступа: www.science-education.ru/110-9725

2. Рогов А. А., Скабин А. В., Штеркель И. А. Автоматизированная информационная система распознавания исторических рукописных документов // Информационная среда ВУЗА XXI века: Материалы VI Междунар. науч. конф. Куопио (Финляндия), 4-10 декабря 2012. Петрозаводск, 2012. С. 127-130.

3. Скабин А. В., Рогов А. А. Математическая модель распознавания символов // Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2013. № 6 (135). С. 73-75.

4. Fischer S. A history of writing. London: Reaktion Books, 2004. 352 p.

5. Phillips G. Interpolation and Approximation by Polynomials. Burnaby: Springer Science & Business Media, 2003. 312 p.

6. Powers D. M. W. Evaluation: from precision, recall and f-measure to roc, informedness, markedness & correlation // Journal of Machine Learning Technologies. 2011. Vol. 2. № 1. P 37-63.

Gippiev M. B., Petrozavodsk State University (Petrozavodsk, Russian Federation) Rogov A. A., Petrozavodsk State University (Petrozavodsk, Russian Federation)

CLASSIFICATION OF SYMBOLS IN SHORTHAND DOCUMENTS:

BASIC, SUPERSCRIPT AND SUBSCRIPT

When decoding historic shorthand documents, the relative position of symbols influences their meaning. We distinguish three positions: basic, superscript, or subscript. The article presents a comparison of two algorithms for symbols’ classification performed by single and double approximation methods. Algorithm parameters are chosen experimentally using a validation set. The set is created automatically by identifying lines and then defining the type of each symbol. The performance of the algorithms is measured in terms of accuracy, precision, recall, F-measure and summarized F-measure. Based on the summarized F-measure, the best result is achieved with the algorithm for symbols’ classification by a double approximation method. We tune the parameters for each algorithm that the summarized F-measure is maximized for the validation data.

Key words: shorthand document, algorithm of symbols’ classification, superscript and subscript symbols, approximation method

REFERENCES

1. Gippiev M. B., Zhukov A. V., Rogov A. A., Skabin A. V. Recognition of lines in the historical handwritten documents [Raspoznavanie strok v stenograficheskikh dokumentakh]. Sovremennye problemy nauki i obrazovaniya [Modern problems of science and education]. 2013. № 4. Available at: www.science-education.m/110-9725

2. Rogov A. A., Skabin A. V., Shterkel’ I. A. Automated information system for deciphering of historical shorthand reports [Avtomatizirovannaya informatsionnaya sistema raspoznavaniya istoricheskikh rukopisnykh dokumentov]. Informatsionnaya sreda VUZAXXIveka [Information environment of university of XXI century]. Petrozavodsk, 2012. P. 127130.

3. Skabin A. V., Rogov A. A. Mathematical model of character recognition [Matematicheskaya model’ raspoznavaniya simvolov]. Uchenye zapiski Petrozavodskogo gosudarstvennogo universiteta. Ser. "Estestvennye i tekhnicheskie nauki" [Proceedings of Petrozavodsk State University. Natural & Engineering Sciences]. 2013. № 6 (135). P. 73-75.

4. Fischer S.A history of writing. London: Reaktion Books, 2004. 352 p.

5. Phillips G. Interpolation and Approximation by Polynomials. Burnaby: Springer Science & Business Media, 2003. 312 p.

6. Powers D. M. W. EVALUATION: From precision, recall and f-measure to roc, informedness, markedness & correlation // Journal of Machine Learning Technologies. 2011. Vol. 2. № 1. P 37-63.

Поступила в редакцию 24.11.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.