Научная статья на тему 'Проблемы существующих методик оптического распознавания рукописного текста'

Проблемы существующих методик оптического распознавания рукописного текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1090
205
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ / РУКОПИСНЫЙ / СММ / ИНС / OPTICAL RECOGNITION / HANDWRITING / HMM / ANN

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мозговой А. А.

В статье дан обзор методик оптического распознавания рукописного текста, применяемых для различных языков мира. Рассмотрена возможность комплексного подхода к данной проблеме. Выполнен анализ причин успешности онлайн распознавания и проблем оптического распознавания

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE PROBLEMS OF EXISTING TECHNIQUES HANDWRITTEN TEXT RECOGNITION

Review of methods for optical handwriting recognition used for different languages. Consideration possibilities for an integrated approach to the problem. Analysis of the reasons of success online recognition and optical character recognition problems

Текст научной работы на тему «Проблемы существующих методик оптического распознавания рукописного текста»

УДК 004.352.243

Информационные технологии

ПРОБЛЕМЫ СУЩЕСТВУЮЩИХ МЕТОДИК ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ

РУКОПИСНОГО ТЕКСТА А.А. Мозговой

В статье дан обзор методик оптического распознавания рукописного текста, применяемых для различных языков мира. Рассмотрена возможность комплексного подхода к данной проблеме. Выполнен анализ причин успешности онлайн распознавания и проблем оптического распознавания

Ключевые слова: оптическое распознавание, рукописный, СММ, ИНС

Введение

Онлайн распознавание слитного рукописного текста доступно в Windows 7, начиная с версии Home Premium. Также существует ряд узкоспециализированных коммерческих продуктов, предоставляющих такую возможность (например, PenReader компании Paragon Software). Качество получаемого результата довольно приличное в обоих случаях. А вот коммерческих программ, позволяющих распознавать рукописные тексты офлайн, до сих пор не существует (во всяком случае, в широком доступе).

Первый патент на метод оптического распознавания был выдан более восьмидесяти лет назад. С тех пор качество распознавания печатных текстов постоянно улучшается и в данный момент находится на вполне приемлемом уровне. Иначе обстоит дело с распознаванием рукописного текста. Прямое копирование методик, применяемых для печатных символов, не даёт значимого результата, а попытки альтернативных подходов наталкиваются на многочисленные препятствия. Хорошим результатом на сегодня считается преодоление пятипроцентного порога в количестве ошибочно идентифицированных символов. Это равнозначно появлению в каждой строке текста двух-трёх ошибок, что недопустимо по причине больших трудозатрат на их последующее выявление и исправление.

Применяемые методы

Количество методов, используемых для оптического распознавания рукописных символов, довольно велико: нейронные сети, анализ графов, скрытые марковские модели,

Мозговой Алексей Александрович - ВИВТ, соискатель, e-mail: [email protected], тел. 950-774-1231 22

векторный (градиентный) анализ, генетические алгоритмы. Также возможно сочетание различных методик.

Задачи, стоящие перед разработчиками методов распознавания, очень сильно зависят от языка. Например, для арабского, тайского, персидского, бирманского, тамильского, разновидностей китайского и т.д. языков характерна иероглифическая письменность. Данная особенность нивелирует проблемы сегментации отдельных символов. Поэтому для таких языков применимы методы, основанные на поиске примитивов: вертикальных,

горизонтальных линий, дуг, окружностей; их классификации и анализе взаимного расположения [1,2]. Также используется градиентный анализ зон символов [3,4] и метод опорных векторов (SVM — support vector machines) [5]. Хорошо структурированный обзор методов, которые были применены для арабского языка, написал Peter Burrow в своей работе [6].

В статье [7] изображение символа преобразуется в граф, а генетический алгоритм используется для расширения номенклатуры образцов сравнения. Таким образом, получаются образцы графов, которые несут в себе признаки своих родителей и могут полноценно участвовать при соотнесении преобразованного символа с какой-либо категорией. Данная методика применима не только для рукописных слов сегментированных на отдельные символы, но и для слитного написания.

В случае, когда словарь распознаваемых объектов небольшой, можно рассчитывать даже на стопроцентный результат. Типичный пример - набор цифр. Стопроцентный результат распознавания рукописных цифр

демонстрируется в работе [8], где анализируется 15 сегментов нормированного символа (рис. 1).

НИ!

Рис. 1. Кодировщик из пятнадцати сегментов

ИБ1, ИБ2, ИБЗ - три горизонтальных сегмента. УБ1, УБ2, УБ3 - три вертикальных сегмента. СП, СБ2 - два центральных сегмента. БР1, БР2, ББЗ, БГ4, БР5, ББб, БР7 -семь диагональных сегментов. Пересекаемые линиями символа сегменты определяют написанную цифру.

Более простое сегментирование подобного рода применялось к тестовым наборам символов арабского языка в работе [9], правда, с довольно скромными результатами.

Описанные выше подходы плохо применимы к слитному рукописному написанию, характерному для английского, испанского, русского и т.д. языков. Практически единственный достойный метод в этом случае - это скрытые марковские модели (СММ). Методы на основе СММ показывают очень хорошие результаты в задачах распознавания голоса и символов, вводимых онлайн. Хотя в случае с офлайн слитным рукописным написанием результаты пока не особенно впечатляют - исследователи не теряют надежду. Довольно подробно методика применения СММ описана в статье [10], посвящённой распознаванию чисел, записанных словами на испанском языке. После нормирования слово разбивается на вектора, из которых формируется последовательность наблюдаемых признаков марковской цепи (рис. 2). Далее вычисляется вероятность того, что данная

последовательность сформирована для определённой модели из базы данных.

Количество моделей в базе данных

соответствует количеству распознаваемых слов и наиболее подходящая модель определяет нужное слово.

Рис. 2. Применение СММ

Идентичный метод использован для распознавания записей в церковной книге бракосочетаний [11] и старинных документах

[12]. Для слитно написанного текста в докладе

[13] представлен довольно интересный вариант комбинации нейронных сетей и скрытых марковских моделей. Нейронные сети используются на этапе отнесения выделенного признака объекта (слова) к определенному классу. Программная реализация такого подхода весьма непростая, но результаты обещают быть интересными.

Особенностью СММ методов является отсутствие необходимости сегментации слов на отдельные символы. Это очень важная особенность, так как разбиение слова на отдельные символы - весьма непростая задача. Попытки сегментации с использованием диаграмм Вороного в работе [14] предпринимались к рукописным символам, написанным отдельно друг от друга. Как можно использовать этот метод применительно к слитному написанию, я не представляю. Ведь для того чтобы получить центр массы символа необходимо знать его границы.

В другой работе [15] рассматривается возможность поиска отдельных символов с использованием образцовых графов. Каждому символу алфавита ставится в соответствие набор графов, объединённых характерными признаками. Исследуемое слово анализируется с целью определения наличия в его структуре графов из базы данных с образцами. После прохода алгоритма по всей базе данных останется только собрать распознанные буквы в слова. Мне кажется, что данный метод очень сильно будет зависеть от качества прорисовки отдельных символов и даже небольшая

небрежность в написании поставит этот метод в тупик. Из-за большой вариативности в написании букв и связей между ними будет много ложных срабатываний, а если зафиксировать свойства графов слишком жёстко, то получится некий аналог матричного сравнения с присущим ему недостатком -отсутствием гибкости. В упомянутой работе продемонстрирован результат поиска всего одной буквы «н» в двух словах. Желательно ознакомиться с более представительным набором результатов для лучшего представления возможностей метода.

Преимущества онлайн распознавания

Знания о характере движения пишущего инструмента позволяют значительно улучшить результаты распознавания. Это происходит не только потому, что данная информация является дополнительной к оптической информации. В основном, этому способствует факт неоднократного прохождения пишущего узла по одной и той же траектории. Рассмотрим два похожих по написанию, но различных по смыслу слова (рис. 3).

шижа

гимжа

Рис. 3. Два «одинаковых» слова

Если с точки зрения оптического распознавания разница между словами заключается только в незначительной детали (рис. 4), то разница с «онлайн позиций» весьма существенная.

Рис. 4. Отличительная деталь

Буквы «а» и «о» представлены на рисунке ниже в виде последовательности движений, необходимых для их написания в слове «па(о)лка» (рис. 5). Эти траектории затем используются в качестве наблюдаемых признаков марковской цепи. Для более успешного распознавания, модель слова тренируется на несколько различных вариантов написания.

Рис. 5. Написание букв «а» и «о»

Если для оптического распознавания наложение букв одна на другую может стать непреодолимым препятствием, то в данном случае алгоритм будет корректно работать, даже если все символы написать один над другим. Немаловажно, что после завершения написания слова, можно дополнительно использовать офлайн анализ для рассмотрения спорных моментов, которые могут возникнуть, например, при изменении порядка написания элементов букв.

Комплексный подход

Проработав представленные в списке литературы источники, я сделал вывод, что на сегодняшний момент самые большие

перспективы в оптическом распознавании у методов, основанных на скрытых марковских моделях. Главная их проблема - это нахождение в изображении слова таких признаков, которые позволят выделить

характерные различия однотипных букв. Видится перспективным анализ, проводимый в несколько этапов. Сначала при помощи СММ можно определить несколько конкурирующих вариантов, а затем выполнить детальный анализ характерных зон для принятия

окончательного решения. Также возможен

обратный порядок действий.

Как вариант, можно попробовать использование сложных характеристических векторов [1б]. Но, по моему мнению, ширину сканирующего окна стоит брать больше чем в один пиксель. Только тогда окно сможет «почувствовать» небольшие относительные всплески в изображении символа. Узкое сканирующее окно может справиться с этой задачей, только при условии идеального написания символа или при его идеальном нормировании.

В работе [17] использовалось 180 характеристик признаков марковской цепи, которые затем редуцировались до 20. Относительно большой процент ошибок (18,9%) говорит о завышенном количестве характеристик. Больше - не значит лучше.

а

Даже для онлайн распознавания этот метод продемонстрировал результат в 5% ошибок. Минимальное количество характеристик - это такое количество, которое позволит описать весь распознаваемый алфавит. Для двадцати шести букв английского алфавита и десяти арабских цифр 180 характеристик - явный перебор.

Вероятно, что перспективным окажется использование особенностей языка. Часть букв русского алфавита можно довольно просто предварительно идентифицировать по характерным признакам. Только две буквы: «б» и «в» имеют типичные элементы - «хвостики», направленные вверх. Причём в случае с буквой «в» - это петля, а для «б» - изогнутая линия. Эти элементы однозначно «вскрывают» расположение соответствующих букв в слове. Для «хвостиков» направленных вниз ситуация более сложная, но также вполне разрешимая.

Заключение

Значительный прогресс в области онлайн распознавания, достигнутый за последние несколько лет, позволяет надеяться на успех и в оптическом (офлайн) распознавании.

Очень интересным кажется вопрос принципиальной возможности достижения качества распознавания рукописных текстов, выполненного машиной, уровня человеческих возможностей. Можно ли этого достичь без знания машиной контекста?

Литература

1. Yadana Thein High Accuracy Myanmar Handwritten Character Recognition using Hybrid approach through MICR and Neural Network / Yadana Thein, San Su Su Yee - IJCSI International Journal of Computer Science Issues, Vol. 7, Issue 6, November 2010.

2. Rao M. S. Online Recognition of Handwritten Telugu Characters / M.S. Rao, Gowrishankar, V.S.Chakravarthy - International Conference on Universal Knowledge and Language Goa,India,25th-29th November 2002.

3. Chomtip Pornpanomchai Thai Handwritten Character Recognition by Genetic Algorithm / Chomtip Pornpanomchai, Verachad Wongsawangtham, Satheanpong

Воронежский институт высоких технологий

Jeungudomporn, Nannaphat Chatsumpun - IACSIT International Journal of Engineering and Technology, Vol3, No.2, April 2011.

4. Holambe A.N. Printed and Handwritten Character & Number Recognition of Devanagari Script using Gradient Features / A.N. Holambe, R.C. Thool, S.M. Jagade International Journal of Computer Applications (0975 - SSS7) Volume 2 - No.9, June 2010.

5. Thungamani M. Off-line Handwritten Kannada Text Recognition using Support Vector Machine using Zernike Moments / М. Thungamani, P. Ramakhanth, K.K. Prasanna, S.K. Rau - IJCSNS International Journal of Computer Science and Network Security, VOL.ll No.7, July 2011.

6. Burrow P. Arabic Handwriting Recognition / P.Burrow - Master of science thesis. School of Informatics, university of Edinburg, England, 2004.

7. Kala R. Offline Handwriting Recognition using Genetic Algorithm / R. Kala, H.Vazirani, A. Shukla, R.Tiwari

- IJCSI International Journal of Computer Science Issues, Vol. 7, Issue 2, No l, March 20l0.

S. Prema K.V. Two-tier architecture for unconstrained handwritten character recognition. / K.V. Prema, N.V. Subba

- Sadhana Vol. 27, Part 5, October 2002, pp. 5S5-594.

9. Khalil R.A. Handwritten Arabic Alphanumeric Character Recognition using BP and SOFM Neural / R.A.Khalil - Computer Science Department, Al-Hadbaa University College Mosul, Iraq.

10. Toselli A.H. Integrated Handwriting Recognition and Interpretation using Finite-State Models / A. H. Toselli -IJPRAI, vol. 1S, no. 4, 2004, pp. 519-5З9.

11. Romero V. Handwritten Text Recognition for Marriage Register Books / V. Romero, J.Sanchez, N.Serrano, E.Vidal - 2011 International Conference on Document Analysis and Recognition.

12. Juan A. Handwritten Text Recognition for Ancient Documents / A. Juan, V.Romero, J.Sanchez, N.Serranto, A.Toselli, E.Vidal - JMLR: Workshop and Conference Proceedings 11 (2010), pp. 58-б5.

13. Castro-Bleda M.J. Handwritten Text Recognition / M.J. Castro-Bleda, S. Espana-Boquera, F.Zamora-Martinez -Universidad Politecnica de Valencia Spain, Avignon 9 December 2010.

14. Запрягаев С.А. Сегментация рукописных и машинописных текстов методом диаграмм Вороного / С.А. Запрягаев, А.И. Сорокин - Вестник ВГУ, Серия: системный анализ и информационные технологии, 2Q1Q, №1.

15. Кучуганов А.В. Распознавание рукописных текстов / А.В. Кучуганов, Г.В. Лапинская - Материалы международной научной конференции Ижевск, 13-17 июля 2QQ6 г.

16. Liwicki M., Handwriting Recognition of Whiteboard Notes / M. Liwicki, H. Bunke - IAM, June 28, 2005.

17. Pastor M., Bi-modal Handwritten Text Recognition (BiHTR)/ M. Pastor, R. Paredes - ICPR 2010 Contest Report. 1-1З Istambul, Turkey, August 2З-2б, 2010.

THE PROBLEMS OF EXISTING TECHNIQUES HANDWRITTEN TEXT RECOGNITION A.A. Mozgovoy

Review of methods for optical handwriting recognition used for different languages. Consideration possibilities for an integrated approach to the problem. Analysis of the reasons of success online recognition and optical character recognition problems

Key words: optical recognition, handwriting, HMM, ANN

i Надоели баннеры? Вы всегда можете отключить рекламу.