Методы распознавания текста на узбекском языке на основе клеточных автоматов

Туркменова Рухие Тохировна; Ахатов А.Р.

УДК: 658.512.011

МЕТОДЫ РАСПОЗНАВАНИЯ ТЕКСТА НА УЗБЕКСКОМ ЯЗЫКЕ НА ОСНОВЕ КЛЕТОЧНЫХ АВТОМАТОВ

Туркменова Рухие Тохировна, магистрант (e-mail: ruha.5202155@yandex.ru) Нучныйруководитель: Ахатов А.Р., д.т.н.

Самаркандский филиал Ташкентского университета информационных технологий, г.Самрканд, Узбекистан

В статье рассматривается использование метода клеточных автоматов в распознавании текста на узбекском языке на основе алгоритмов выделения пересечений, концов и петель символа, выделения конечных точек и пересечений.

Ключевые слова: клеточные автоматы, распознавание, изображение, признаки символов, алгоритмы, выделение конечных точек, выделение пересечения.

В век информационных технологий, так называемый «информационный взрыв» или рост диспропорции между объёмом информации, произведённой человечеством, и объёмом информации, которую люди способны потребить и усвоить, не маловажной проблемой является как точность информации, ее подача и оформление, так и грамматическая «правильность» подачи информации или достоверность передачи сообщения. От достоверности информации зависит работа информационных систем, правильная работа предприятий и др. достоверность информации зачастую снижается при ошибках, допускаемых человеком, машиной, сбоями связи, погрешностями в распознавании. При обработке большого количества информации. например в системах электронного документооборота, часто встречаются орфографические ошибки.[1]

Обнаружение ошибок в контексте напрямую связанно с применением методов распознавания, когда контролируемые участки текста необходимо выделить и сверить с эталонными образцами, хранящимися в базах данных соответствующих информационных систем.

Одним из сложнейших разделов области распознавания образов является область распознавания текста. Известно множество методик для распознавания текста. Одной из них является методика распознавания текста методом клеточных автоматов.

Клеточные автоматы являются дискретными динамическими системами, поведение которых полностью определяется в терминах локальных зависимостей. Пространство представлено равномерной сеткой, каждая ячейка или клетка которой содержит несколько битов данных; любая клетка на каждом шаге вычисляет своё новое состояние по состояниям её близких соседей. Методы вычисления в такой системе являются локальными и повсюду одинаковыми.[2]

До процесса выделения признаков символов в программе распознавания текстов, необходимо решить несколько задач: необходимо изображение текста обработать от шума, привести его в состояние, которое позволяет выполнить условия алгоритмов распознавания, и выделить из него отдельные изображения и признаки символов.

Каждый символ текста, в частности на узбекском языке, имеет свои уникальные признаки. Данные признаки уникальным образом отличают символы друг от друга.

Символы текста имеют большое число признаков: положение и наклон линий, дуг, наличие петель, вертикальных - горизонтальных линий, выступы и их наклон, пересечения. Основными признаками можно считать выступы, петли и пересечения, а также их взаимное расположение.

После обработки и фильтрации выделяются признаки символов. После этого предполагается процесс классификации, который на основании полученных признаков определит название символа. Классификация наиболее часто основывается на методы, которые на основе накопленной информации о признаках определяют символ.

Система распознавания предполагает наличие блока обучения. Обучение системы напрямую связано с классификацией, оно позволяет изменять и поправлять коэффициенты на основе ассоциации результата классификации с названием символа.

Клеточные автоматы также участвуют в процессе классификации признаков. Идеей классификации служит создание характерного клеточного автомата для каждого признака и его коррекция, с учетом определенных признаков в процессе обучения.

Формально клеточный автомат можно определить как набор

(О, 7, К, Г},

где О - метрика поля, на котором действует клеточный автомат;

Ъ - множество состояний каждой клетки;

N - окрестность клетки, которая влияет на состояние данной клетки;

Г - правила клеточного автомата, которые в математическом виде могут быть записано

г х г1м1

Свойствами клеточного автомата являются: локальность правил, однородность системы, конечность множества состояний клетки, одновременность изменений для всех клеток.

Так как, основными элементами символов являются петли, пересечения, положение концов, то по этим элементам проводится сегментация и идентификация изображения, соотнесение с конкретным символом. Существует множество стратегий выделения описанных признаков на основе клеточных автоматов. Ниже описаны две таких стратегии, которые используют клеточные автоматы с метками. [3]

Шэг 1. Изображение символа

Рис. 1. Схема работы последовательности клеточных автоматов для первого алгоритма выделения признаков символов

Стратегия выделения конечных точек и пересечений. Стратегия состоит в том, что от верхнего края символа вдоль точек, составляющих данный символ, пускается эхо. Это эхо разделяется на составляющие, повторяя контур изображения символа. В определенный момент составляющие эха встречаются или затухают на конце символа. [4]

При создании алгоритмов распознавания текстов на узбекском языке, составляющие эхо сегментации определенны в следующем виде:

1. «Область эха» - точки символа, которые передвигаются от одного конца изображения символа к другому.

2. «Хвост эха» - это точки изображения, в которых в предыдущий момент времени находилась область эха.

3. «Точки пройденного пути» - это точки изображения, где присутствовал «область эха», а затем и «хвост эха», в этих точках процесс не возобновляется.

Изначально все точки не помечены метками. После того, как первая точка эха помечается, алгоритм начинает свою работу.

Алгоритм основан на следующей идее. В процессе прохождения эха в какой-то момент «область эха» угаснет, в то время как хвост все еще будет присутствовать. Данное событие может случиться только на конце символа либо на месте встречи двух составляющих эха. Позиция хвоста эха в этот момент запоминается.

Также, событие встречи двух составляющих эха регистрируется на основании факта, что хвосты двух составляющих эха в момент встречи не связаны между собой. Таким образом, запоминается позиция петли символа (рисунок 1).

Рис.2. Направление распространения «эха» вдоль символа «А» с отмечани-ем позиций концов символов и петель, а также распространение «отзвука»

с отмечанием позиции пересечений

Да

Ш аг 1. Из об ражен ие сим в ол а

Шаг2. Верхняя левгн черная клетка помечается к расно й и серо й метками

ШагЗ. Создание хвоста

С

Шаг 4. Создание области *

Ш аг 5. Одна метка рядом с красной меткой заменяет си ню ю м етку з ел ей о й

С

Шаг 6. Пооход по хвосту

I

-Ч

I Шаг7. Проход по области 1

+ Ч

£ ШагЗ. Есть изменения ^^

Да

с

Шаг 5. Удаление зеленых

)

<

Шаг 10. Ьсть и зг/енения

I

Шаг 20. Есть изменения

Шаг 21. Верхняя левая черна? клетка помечается сине! метком

С

Шег 22, Удаление нижних лиши их плеток

Шаг 23. Удаление лишних клеток

С1ШИ И*)

У

< с

Шаг М. Ьсть измене

Результат

д=>

<

с <

с

С

Шаг 19. Есть изменения

Ш аг 15. Удаление малиновых меток

Шаг 17. Есть изменения

Шаг 16. Проход п о области отзвук

>

I) >

Шаг 15. Проход по хвосту отзвука

Шаг14. Одна клетка рядом с к ор т нев ой м етк ой з ам еня ет ж ел тую метку коричневой

С

с

Шаг 13. Создание области отзвука

Шаг 12. Создание хвоста отзвука

С

Шаг 11. Создание отзвука

3

Рис. 3. Схема работы последовательности клеточных автоматов для алгоритма выделения признаков символов

Стратегия выделения пересечений, концов и петель символа. Эта

стратегия представляет собой усовершенствованную стратегию выделения конечных точек и пересечений и развивает ее. В процессе распространения «эха» в момент, когда определяется клетка конца символа или клетка встречи двух составляющих «эха», генерируется ответное «эхо» - «отзвук» вдоль уже пройденных клеток. «Эхо» проходит путь в обратном направлении и отмечает клетки, в которых начальное эхо было разделено на составляющие. Это позволяет найти позиции пересечений отрезков, из которых состоят символы, а также петли, которые имеются в буквах узбекского алфавита.

Стратегия выделения пересечений, концов и петель символа определяет позиции пересечений линий в изображении символа (рисунки 2 и 3).

Алгоритм может показаться, громоздким, но он содержит в себе две составляющих, аналогичных первому алгоритму. Правила автоматов данного алгоритма аналогичны правилам автоматов первого алгоритма по выделению признаков символов. Достоинством этого алгоритма считается выделение большего количества признаков символов, чем с помощью предыдущего алгоритма. Он выполняет больше шагов и работает дольше.

Список литературы

1 - М. М. Камилов, А. Р. Ахатов Система контроля достоверности текстовой информации на основе n-граммных парсинговых моделей.

2 - Тоффоли Т., Марголус Н. Машины клеточных автоматов. М.: Мир, 1991. 280 с.

3 - Д.И.Суясов Разработка алгоритмов распознавания текстов на основе клеточных автоматов, Санкт-Петербург. 2007. 34 с.

4 - Д.И.Суясов Разработка алгоритмов распознавания текстов на основе клеточных автоматов, Санкт-Петербург. 2007. 35 с.

Turkmenova Rukhie Takhirovna, master

(E-mail: ruha.5202155@yandex.ru)

Samarkand branch of the Tashkent University of Information Technologies, Samrkand, Uzbekistan.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

METHODS OF THE PATTERN RECOGNITION IN THE UZBEK LANGUAGE ON THE BASIS OF CELLULAR AUTOMATA.

Abstract: The article describes the usage of the method of cellular automata in the OCR in the Uzbek language on the basis of the intersecting allocation algorithms, ends and symbol loops, allocation of endpoints and intersections.

Keywords: cellular automata, pattern recognition, image, signs of symbols, algorithms, selection of endpoints, the selection of intersection.

Методы распознавания текста на узбекском языке на основе клеточных автоматов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Туркменова Рухие Тохировна, Ахатов А.Р.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Туркменова Рухие Тохировна, Ахатов А.Р.

Текст научной работы на тему «Методы распознавания текста на узбекском языке на основе клеточных автоматов»