Научная статья на тему 'Модель распознавания изображений рукописного текста'

Модель распознавания изображений рукописного текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
983
93
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фаворская М.Н., Горошкин А.Н.

Построена модель сегментации рукописного текста на отдельные символы. Введены меры сходства между изображениями символа и эталона на основе гипотезы компактности. Приведена классификация различных грамматик для распознавания слов. Сделан вывод о необходимости разработки стохастической грамматики с фиксированной стратегией, определяемой структурой естественного языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE INVARIANT MODEL FOR IMAGE RECOGNITION OF HAND-WRITTEN TEXT

The invariant model for segmentation of hand-written text on separate symbols is built. The similarity measures between real and pattern symbols based on hypothesis of compactness are introduced. Classification of different grammars for words recognition is discussed. It is necessary to design the probability grammar with fixed strategy defined by structure of nature language.

Текст научной работы на тему «Модель распознавания изображений рукописного текста»

поиск лучшего решения. В генетических алгоритмах мутация применяется к генам с очень низкой вероятностью.

Условия останова - по числу поколений. Генетический алгоритм эволюционирует в соответствии с приведенными операторами, пока число поколений не достигнет заданного значения. В качестве ответа получаем оценку пригодности лучшего индивида (по всем поколениям).

Подход состоит в том, что мы решаем генетическим алгоритмом задачу (2); при этом индивиды, соответствующие максимальной длине выполнимого маршрута, копируются в одно из последних поколений генетического алгоритма решения задачи (3).

Во время работы генетического алгоритма происходят два взаимно противоположных процесса. С одной стороны, отбор пытается исключить из популяции индивидов с худшими значениями функции пригодности и увеличить число индивидов с лучшими оценками. С другой стороны, репродукция приводит к появлению новых индивидов, предотвращая преждевременную остановку алгоритма в точке локального минимума. Необходимое равновесие между этими двумя процессами осуществляется при помощи набора параметров. Для простейшего генетического алгоритма такими параметрами являются следующие: размер популяции, число поколений, длина хромосомы в битах, вероятность скрещивания, вероятность мутации. Эти параметры должны быть идентифицированы в ходе численных экспериментов.

В результате проведенных расчетов можно сформулировать несколько утверждений относительно влияния параметров алгоритма на его работу:

- интенсивная мутация снижает скорость алгоритма и может серьезно повлиять на сходимость, т. е. алгоритм работает дольше и может не найти оптимального решения;

- слишком малая вероятность мутации затрудняет выход алгоритма из локальных минимумов, т. е. алгоритм сходится достаточно быстро, но не к глобальному решению;

- большие популяции сходятся дольше (требуют большего времени до остановки);

- при малом размере популяции возрастает вероятность остановки в локальном минимуме.

Для каждой решаемой задачи выбор параметров должен осуществляться отдельно в ходе численного эксперимента.

Библиографический список

1. Гэри, М. Вычислительные машины и трудноре-шаемые задачи / М. Гэри, Д. Джонсон. М. : Мир, 1982. 416 с.

2. Семенкин, Е. С. Оптимизация технических систем / Е. С. Семенкин, О. Э. Семенкина, С. П. Коробейников ; Сиб. ин-т бизнеса упр. и права. Красноярск, 1996. 285 с.

3. Joao, P. Pedroso. Niche search: an evolutionary algorithm for global optimization / P. Joao // Parallel Problem Solving from Nature IV. Vol. 1141 of Lecture Notes in Computer Science. Berlin : Springer, 1996.

4. Хоролич, Г. Б. Решение задач смешанного целочисленного математического программирования эво-люционнымиалгоритмами / Г. Б. Хоролич // I Всеси-бирский конгресс женщин-математиков : тез. докл. конгр. / ИВМ СО РАН. Красноярск, 2000. с. 246.

T. R. Ilina, G. B. Khorolich

FORMALIZING AND SOLVING WITH GENETIC ALGORITHMS THE VEHICLE ROOTING PROBLEM FOR INDUSTRIAL TRANSPORT

Vehicle rooting problem for industrial transport is formalized as a mixed-integer zero-one problem. Specially designed genetic algorithms are used for solving the problem.

УДК 681.3.07

М. Н. Фаворская, А. Н. Горошкин МОДЕЛЬ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ РУКОПИСНОГО ТЕКСТА

Построена модель сегментации рукописного текста на отдельные символы. Введены меры сходства между изображениями символа и эталона на основе гипотезы компактности. Приведена классификация различных грамматик для распознавания слов. Сделан вывод о необходимости разработки стохастической грамматики с фиксированной стратегией, определяемой структурой естественного языка.

Процесс распознавания изображений рукописного текста характеризуется зависимостью не только от типичных факторов шумов, вносимых способом представления информации - двумерных изображений, но и проявляет сильную чувствительность к особенностям почерка того или иного человека. Именно этот факт привел к тому, что до сих пор

системы распознавания изображений рукописного текста в режиме off-line демонстрируют низкую точность распознавания. Несмотря на кажущуюся простоту и естественность постановки задачи, автоматическое распознавание изображений рукописного текста остается сложной технической проблемой.

Пусть на изображении Ек представлена символьная информация, которая в общем случае группируется в виде следующих множеств:

- 2 = (2Ь 22, ..., 2М} - конечное множество эталонных образов строчных и прописных букв, цифр, специальных символов;

- Бс = (с1 , С2, ..., Сдг} - конечное множество нормализованных образов строчных и прописных букв, принадлежащих выбранному алфавиту, цифр, специальных символов;

-Бс = (Сь С2, ..., С} - конечное множество подмножеств образов строчных и прописных букв, принадлежащих выбранному алфавиту, цифр, специальных символов, при этом подмножества образов символов С^ включают неограниченные варианты написания конкретных символов;

- = ^2, ...} - неограниченное множество слов, принадлежащих различным частям речи и составленных из элементов конечного множества Вс, при этом Ж- з Вс;

- В8 = {£ь 82, ...} - неограниченное множество предложений, составленных из элементов множества Бцг. Элементы множества предложений образуют текстовые зоны, представленные на изображении.

Система распознавания хранит эталонное множество описаний конкретных символов 2 = (2Ь 22, ..., 2М}, которое должно быть инвариантно как к бесконечному разнообразию почерков, так и к параметрам аффинных преобразований (сдвигов, ориентаций, масштабных искажений). Теоретически возможны реализации таких систем по методу полного перебора или на базе обучаемых нейронных сетей с обратными связями. Однако в первом случае мы получаем неприемлемое время принятия решения с заданной погрешностью е, а во втором - неприемлемое время обучения с практической возможностью настройки на ограниченное количество почерков людей. Следовательно, необходимо искать другие решения, которые давали бы практически значимые результаты.

В общем случае систему распознавания изображений рукописного текста можно представить в виде трехуровневой структуры: сегментация текстовых зон и отдельных символов, синтаксический и семантический анализ слов и семантический анализ предложений и фрагментов текста. Поскольку самый высший уровень относится к проявлениям искусственного интеллекта, системам понимания и смысловой интерпретации, что на сегодняшний день крайне трудно реализуемо даже с учетом высокого уровня развития ком -пьютерной техники, остановимся на первых двух этапах распознавания.

Проанализируем процесс перехода от изображения, на котором представлен рукописный текст, в пространство признаков эталонов. Пусть Е - некоторое множество изображений, на котором задано разбиение на подмножества V/, V/,..., V/ такие, что

Е = V/ V V/ V... V V/, V/ а V/ = 0 при I Ф]. (1)

Сами подмножества V/, V/,..., V/ назовем классами данного разбиения.

Пусть / : Е ® - отображение множества Е на множество предложений ш: ® Б№ - отображение множества на множество слов 0№, а ф: ® Бс - отображение множества слов на множество ненормализованных образов символов Бс. Тогда ф: Бс ® Бс - отображение множества ненормализованных образов символов Бс на множество нормализованных образов символов Бс , а 6: Бс ® 2 -отображение множества нормализованных образов символов Бс на множество эталонов символов 2.

Тогда модель порождения изображения Ек можно представить в следующем виде. Каждому образу соответствует один эталонный объект Бс- , из которого посредством некоторого отображения 6: Бс ® 2 порождаются все возможные нормализованные образы символов Бс , а посредством отображения ф: Бс ® Бс порождаются все возможные ненормализованные образы символов Бс. Отображение ф: Вс ® Б№ порождает множество слов в соответствии с синтаксическими правилами языка, а отображение ш: ® порождает множество предложений в соответствии с семантическими правилами языка. Наконец, изображение Ек е Е порождается в результате отображения / ® Е множества предложений на множество изображений Е. Таким образом, каждому элементу множества Ос- с Ос соответствует подмножество Ек с Е. Причем, на множестве Е можно задать бинарное отношение эквивалентности, гарантирующее, что в каждом подмножестве разбиения (1) отображаются элементы только одного образа [1].

Преобразования 6, ф, ш, ф, и / принято называть прямыми преобразованиями изображений, а 6, ф, ш, ф, и/ - обратными преобразованиями. Цель состоит в том, чтобы на этапе сегментации символов найти однозначные правила переходов обратных преобразований, а на этапе распознавания определить правила переходов прямых преобразований (см. рисунок). В работе [1] показано, что модель порождения изображений должна учитывать шумы, возникающие в процессе отображения объектов наблюдения на воспринимающем устройстве. Однако в данной модели такие шумы не являются значимыми, поскольку большую шумовую составляющую вносит многообразие почерка даже одного человека. При необходимости от шумов, вносимых способом представления информации, можно избавиться на этапе предварительной обработки изображений с использованием глобальных или локальных адаптивных фильтраций.

Рассмотрим процесс сегментации образов символов рукописного текста. Преобразования /: Е ® и ш: ® можно заменить одним преобразованием (/ш): Е ® которое определяет зоны слов на изображении. В качестве такого преобразования можно использовать морфологическую операцию расширения:

Е © В = (сЩБ^ П Е) с Е}, которая в данном случае размывает изображения символов в словах, не оказывая влияния на пробелы между словами и межстрочные интервалах. При этом В представляет собой примитив операции расширения, на основе которого получают центральное отражение

относительно его начала координат (В'), а затем сдвиг полученного множества в точку йу. Далее строятся прямоугольники, охватывающие отдельные слова. Здесь необходима операция предварительной нормализации текстовых зон относительно системы координат, позволяющая длинную ось прямоугольника расположить параллельно оси ОХ. В общем случае эту процедуру необходимо провести для всех выделенных слов, однако ее можно упростить, анализируя отдельные строки или даже отдельные абзацы, если выяснено, что направление написания слов не превышает заданного порога расхождения. Операцию «размытия» слов можно выполнить и другими средствами, например, фильтрацией Гаусса, однако подстройка параметров под конкретное изображение рукописного текста будет затруднительна.

Однако на данном этапе возникают трудности, связанные с определением знаков пунктуации в предложениях, поскольку такие знаки (точки, запятые, двоеточия, точки с запятой) можно принять за шум. Составные слова с дефисом также требуют проведения дополнительного анализа на принадлежность к одному слову. Поэтому преобразование (/ш)': ^ ® Б№ должно включать следующий набор операторов:

- оператор предварительной нормализации тексто-

вых зон О

(/ш).

нечным многообразием почерков и написаний. Здесь действуют следующие операторы:

- оператор усиления центральной части символа

О®';

- оператор определения верхней части символа

О®';

- оператор определения нижней части символа

О^;

- оператор поиска и анализа предлогов, союзов и т.

п. О

(Ф).

адаптивный оператор нахождения символов в

слове О

(Ф)

- оператор расширения Ое(/ш);

- оператор категоризации символов Ос^/ш);

- оператор нахождения специальных символов

Тогда модель определения текстовых зон на изображении выражается формулой

(/ш)' = <{Ои(/ш)'}, {О^}, {Ос(/ш)'}, {О,(/ш)'}>.

Следующим, возможно, самым трудно реализуемым этапом в распознавании рукописного текста яв -ляется разделение слов на отдельные символы (преобразование ф: Б№ ® Бс), которые отличаются беско-

В качестве оператора усиления центральной части символа Оф можно использовать морфологическую операцию расширения для размытия образов символов и морфологическую операцию сжатия для сужения линий соединения символов:

Бс ® В = К|((В%с П Бс) Е Бс }, Бс 9 В = К|(В)г с Бс}.

Сжатие множества Бс по примитиву В определяется как множество всех таких точек йс, при сдвиге в которые множество В целиком содержится во множестве Бс. Операторы определения верхней Ои(ф и нижней О}ф частей символов необходимы для выявления графологических особенностей написания букв типа «б», «в», «д», «й», «р», «у», «ф» и т. д. кириллического алфавита и «Ь», «й», «/», «к» и т. д. латинского алфавита. Оператор поиска и анализа предлогов, союзов и т. п. Оф необходим для накопления статистики о примерном соотношении высоты и ширины символов, характерных для конкретного почерка. Этот оператор функционирует на основании гипотезы о равномерности соотношения высоты и ширины символов рукописного текста.

/: Бэ ® ^

б

Модель распознавания рукописного текста: - обратные преобразования; б - прямые преобразования

а

а

Адаптивный оператор нахождения символов в слове 0ф подстраивает размеры прямоугольного окна, описывающего символ, и выполняет маркировку исходя из гипотезы о пропорциональности символов кириллического и латинского алфавитов.

Модель определения отдельных символов на изображении слова выражается формулой

Ф' = <{Ос(ф)'}, {0М(Ф)'}, {O^'}, {0®'}, {0/ф)'}>.

Этап перехода к нормализованным образам отдельных символов j: DC ® DC связан с выделением внешнего контура символа, параметризацией векторного представления контура и нормализацией векторного представления. Если задачи выделения внешнего контура объекта и параметризация его векторного представления исследованы в большом количестве работ, то нормализация векторного представления (особенно в контексте поставленной задачи) требует дополнительных усилий. Особенностью распознавания рукописных символов является наличие не только замкнутых, но и разомкнутых контуров. Поэтому некоторые известные методы получения инвариантов для описания контуров, например, спектральные методы, являются не пригодными для решения данной задачи. Предлагается инвариантность к масштабу обеспечивать приведением суммы длин векторов к единице, а инвариантом выбора начальной точки обхода контура считать вектор с минимальной длиной. При наличии нескольких векторов с минимальной длиной используются специальные правила выбора начальной точки обхода, реализуемые на этапе обучения системы. Таким образом, модель нормализации образа символа можно представить в виде

j'=<{00(j)'}, {0v(j)'}, {0„(j)'}>, где {0„(ф)} - оператор выделения внешнего контура символа, {0„(<р)} - оператор параметризации векторного представления контура, {0и(ф)} - оператор нормализации векторного представления.

Этап 6 : DC ® Z отображения множества нормализованных образов символов DC на множество эталонов символов Z можно отнести к процессу распознавания образов текстовых символов. Здесь можно использовать хорошо исследованные меры сходства в метрических пространствах признаков с целью нахождения минимальных различий между образом и эталоном. Можно считать, что отображение 6: DC ® Z переводит изображение символа в точку многомерно -го векторного пространства. Тогда в соответствии с гипотезой компактности образов можно сформулировать следующие требования к мере сходства L(Fk, Fz) между изображениями символа и эталона:

а) мера сходства должна быть неотрицательной величиной, т. е. L(Fk, Fz) > 0;

б) мера сходства изображения с самим собой должна быть максимальной L(Fk,Fk) ® max;

в) мера сходства должна обладать свойством симметрии, т. е. L(Fk, Fz) = L(FZ, Fk);

г) мера сходства в случае компактных образов должна быть монотонной функцией удаления точек, соответствующих сравниваемым изображениям.

Указанные требования к мере сходства легко выполняются в метрических пространствах. Если в пространстве изображений введена мера расстояния, то любая невозрастающая функция этого расстояния удовлетворяет изложенным выше требованиям. Так, для эвклидова пространства можно выбрать в качестве меры сходства некоторую функцию Q от расстояния:

L( Fc, Fz) = Q

E (fcc - fz ) 2

® min,

где п - размерность пространства. Также для измерения сходства можно использовать упрощенную формулу

L(Fc,Fz) = Q I E|fc -f

® min.

При наличии векторного описания меру близости символа с j-м эталоном Lj(Fk, Fz) можно определить через множество двух признаков: Alpha,- - угол наклона и Len,- - длину вектора:

Lj (Fc, Fz) = E( (Alpha,,Len,) - (Alphaj ,Lenj ))2,

где Alpha j - угол наклона и Len j - длина вектора j-го эталона.

К сожалению, гипотеза компактности может не выполняться на выбранном пространстве признаков, что требует нахождения дополнительных признаков и перехода в новое пространство, в котором образы легко бы разделялись. Однако иногда в реальных системах эту процедуру компенсируют этапом обучения с целью повышения быстродействия и сокращения объема памяти.

Теперь рассмотрим процесс распознавания рукописного текста в целом. Возможны две стратегии, первая из которых последовательно выполняет процесс сегментации и распознавания образов символов и затем в соответствии с лингвистическими правилами языка корректирует возможные ошибки в отдельных позициях. Вторая стратегия реализует изложенный выше процесс сегментации и распознавания образов символов только в начальных позициях слов, а потом ускоряет процесс распознавания с учетом распознанных символов в словах на основе, например, скрытых марковских моделей. Тем не менее, для любой стратегии необходимы лингвистическая база правил и лингвистический словарь языка. Первая стратегия объективно имеет более низкое быстродействие, поскольку не учитываются известные лингвистические конструкции языка, а вторая - требует составления и хранения моделей множества слов. Компромиссным вариантом является построение дерева вывода слова (дерева грамматического разбора), которое позволяет ограничить количество сравнений нормализованных образов символов с эталонными образами при реализации преобразования 6'.

Структурный подход к распознаванию образов дает возможность описывать множества сложных изображений, используя небольшой набор непроизводных элементов (в данном случае образов символов) и

грамматических правил. Правила конструирования композиций из непроизводных элементов (в данном случае символов) обычно задаются с помощью специальных грамматик, называемых грамматиками описания изображения. Грамматическое правило может быть применено любое количество раз. Язык, обеспечивающий структурное описание изображений слов в терминах множества непроизводных элементов и конструирование композиций этих элементов, называют языком описания изображений. Для рассматриваемой задачи распознавания рукописного текста язык описания изображений эквивалентен естественному лингвистическому языку. Отметим, что в естественных языках часто возникает проблема неоднозначности. Одно предложение может иметь несколько различных значений в зависимости от различных способов его грамматического разбора. Порождающая грамматика считается неоднозначной, если существует последовательность, имеющая более одного вывода. При этом различными выводами считаются такие последовательности, которые нельзя преобразовать друг в друга, изменяя лишь порядок применения правил. Понятно, что при формировании языков описаний стремятся избегать неоднозначности, вследствие чего возникает задача поиска семейства неоднозначных грамматик.

Различные виды грамматик различаются формой правил подстановки. Самый широкий класс грамматик характеризуется отсутствием каких-либо ограничений на вид правил подстановки. Известны бесконтекстные грамматики, представленные в виде выводов предложений или с использованием деревьев вывода. Для описания сильно зашумленных изображений применяются стохастические грамматики, которые отличаются тем, что на множестве правил подстановки вводится некоторое распределение вероятностей. Известны два основных подхода к построению алгоритмов стохастического синтаксического анализа изображений: стохастический порождающий алгоритм и детерминированный алгоритм возврата. При этом различают два типа стохастических алгоритмов синтаксического анализа. В алгоритмах первого типа (алгоритмы с фиксированной стратегией) выбирается правило подстановки с наибольшей вероятностью применения, а в алгоритмах второго типа (алгоритмы со случайной стратегией) правила из списка переходов выбирается случайно, но в соответствии с распределением вероятностей применения на множестве всех правил подстановки из этого списка. Также разработан метод эталонных последовательностей, основная особенность которого заключается в том, что с помощью некоторой грамматики задается не множество распознаваемых изображений, а множество специальным образом подобранных эталонов. Специфика задачи распознавания рукописного текста требует разработки стохастической грамматики с фиксированной стратегией, определяемой структурой естественного языка.

Существует несколько подходов к реализации стохастической грамматики для решения задачи распознавания рукописного текста. Укажем основные стратегии по мере усложнения:

- стохастическая грамматика, основанная на вычислении вероятностей появления отдельных символов в текстовых документах больших объемов;

- стохастическая грамматика, вычисляющая вероятности появления лингвистических единиц (слогов, словосочетаний);

- грамматика, построенная на методах сокращения поиска в виде интерпретационного дерева.

Нельзя сказать, что все три грамматики идеально подходят для решения поставленной задачи. Тем не менее, рассмотрим, каким образом использование грамматики языка повышает достоверность распознавания отдельных символов и текста в целом. Первая стратегия не учитывает условной вероятности появления последующих символов в слове. В основе этой грамматики лежит вероятность появления того или иного символа Рс, которая вычисляет по формуле

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

N

I с„

Р = ±±_

Р N '

где с^ - количество появлений /-го символа в]-м слове; N - количество слов.

Использование статистической информации о символах заключается в том, что при распознавании текущих символов в слове вначале анализируются такие эталоны символов, у которых вероятность вхождения символа в слово велика, и лишь затем рассматриваются остальные эталоны символов.

Вторая стратегия является обобщением первого подхода с тем отличием, что элементами анализа становятся слоги и устойчивые словосочетания, присущие естественному языку. Здесь можно применить функцию максимального правдоподобия или байесовский подход вычисления апостериорной вероятности появления слога при условии существования части распознанного слова г = г\г2...гк состоящей из / символов.

Эффективной формальной моделью третьего вида грамматики может служить скрытая марковская модель (СММ). Ее основными составляющими являются следующие допущения [2]:

- наличие последовательности случайных переменных, каждая из которых условно независима от всех других, кроме предшествующей переменной;

- каждая случайная переменная характеризуется измерениями, распределение вероятностей которых зависит от состояния.

Третий вид грамматики является самым трудоемким на этапе обучения и самым ресурсоемким на этапе функционирования. Проблематичность построения и хранения СММ отдельных слов в контексте поставленной задачи (поскольку начальные символы в слове могут быть распознаны не верно, что приведет к отрицательному результату) может быть частично снята использованием СММ слогов и устойчивых словосочетаний. В процессе работы алгоритма распознавания построение моделей отдельных слов производится динамически объединением моделей составных частей, входящих в их состав. В то же время модель словаря должна содержать вероятности написания слов и,

желательно, вероятности взаимных переходов между словами.

Задача распознавания рукописного текста осложняется тем, что принятие решения о принадлежности изображения рукописного символа определенному образу основывается на неполных данных из-за особенностей почерка. При этом возникает задача нахождения оптимального решающего правила, которое может быть построено по методу, близкому к методу максимального правдоподобия. Пусть задано изображение Е, имеющее признаки х\, ..., хп-к, где к - число недостающих признаков. Тогда для определения принадлежности этого изображения одному из образов следует воспользоваться следующим правилом:

Р(У /х,, ..., хп-к)

F е V,,

если

P(Vj /х,, ..., x„-k)

> 1.

Принимая во внимание, что для каждого образа

ру /х„ ..., Хп-к) = р(У) РР; -'хп-к ;),

Р(хи ..., хп-к)

решающее правило можно сформулировать как

F е V,

P(xi, ..., хп-к /V,) P(Vj)

если —^-n-k—— >-—.

P(Xi, ..., Xn-k /V:) P(V)

Решения, принимаемые на основании такого правила, могут сильно отличаться от оптимальных вариантов. Тем не менее, на этапе распознавания в предлагаемой модели уже известно количество символов в слове (± 1 символ), что позволяет убирать из рассмотрения неприемлемые гипотезы. Использование любой из приведенных стохастических грамматик будет дополнительным фактором, повышающим достоверность распознавания текста.

Представленная в статье модель легла в основу построения системы распознавания изображений рукописных символов, написанных с использованием кириллического и латинского алфавитов [3]. Программа осуществляет построение векторного представления изображения внешнего контура отдельного символа, имеется режим обучения на конкретный стиль и почерк написания символов. Проведенные исследования

подтверждают высокую эффективность разработанной модели распознавания. Для тестирования использовалась база данных эталонных векторных моделей, включающая 10-15 моделей на каждый символ. Каждая модель состоит из 20 векторов, нормализованных по 16 направлениям. В режиме функционирования без обучения система обеспечивает точность распознавания 68-75 %. В случае, когда система использует режим обучения на конкретный почерк, точность распознавания повышается до 80-95 %, что является вполне допустимым из-за сложности решаемой задачи. В настоящее время проводятся работы по расширению программного комплекса и созданию модуля распознавания рукописного текста для ввода и обработки документов в системах электронного документооборота. Планируется разработка и подключение электронных лингвистических словарей различной тематики (технической, экономической, юридической), что также должно способствовать повышению точности распознавания рукописного текста.

Библиографический список

1. Фаворская, М. Н. Инвариантные решающие функции в задачах распознавания статистических изображений / М. Н. Фаворская // Вестник Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева : сб. науч. тр. / под ред. проф. Г. П. Белякова ; Сиб. гос. аэро-космич. ун-т. Красноярск, 2007. Вып. 1 (14). С. 65-70.

2. Фаворская, М. Н. Прогнозирование в системах распознавания образов на основе скрытых марковских моделей / М. Н. Фаворская, Н. Д. Торгашин, А. Г. Зо-тин // Вестник Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева : сб. науч. тр. / под ред. проф. Г. П. Белякова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2006. Вып. 1 (8) С. 59-63.

3. Горошкин, А. Н. Программный продукт векторизации (Уе^о^айг) : свидетельство об официальной регистрации программ ЭВМ / А. Н. Горошкин. № 2007612407 ; зарегистрирован в Российском реестре программ для ЭВМ г. Москва, 7.06.2002.

M. N. Favorskaya, A. N. Goroshkin THE INVARIANT MODEL FOR IMAGE RECOGNITION OF HAND-WRITTEN TEXT

The invariant model for segmentation of hand-written text on separate symbols is built. The similarity measures between real and pattern symbols based on hypothesis of compactness are introduced. Classification of different grammars for words recognition is discussed. It is necessary to design the probability grammar with fixed strategy defined by structure of nature language.

i Надоели баннеры? Вы всегда можете отключить рекламу.