Научная статья на тему 'Улучшение качества метода оптического распознавания текстов с помощью совместного применения вейвлет-преобразований, курвлет-преобразований и алгоритмов словарного поиска'

Улучшение качества метода оптического распознавания текстов с помощью совместного применения вейвлет-преобразований, курвлет-преобразований и алгоритмов словарного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
733
129
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОРОГОВОЕ ПРЕОБРАЗОВАНИЕ / ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / КУРВЛЕТ-ПРЕОБРАЗОВАНИЕ / ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ / ПРЕФИКСНОЕ ДЕРЕВО / СЛОВАРНЫЙ ПОИСК / THRESHOLDING / WAVELET-TRANSFORM / CURVELET-TRANSFORM / DYNAMIC PROGRAMMING / TRIE-TREE / VOCABULARY SEARCH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Григорьев Дмитрий Сергеевич, Хаустов Павел Александрович, Спицын Владимир Григорьевич

Оптическое распознавание символов является комплексной задачей, для решения которой не существует определенного алгоритма. Существует множество подходов и методов для решения данной задачи. Предложенный ранее метод, основанный на совместном применении вейвлет-преобразования для сокращения размерности пространства признаков и вероятностной нейронной сети для классификации, показал приемлемые результаты. Однако предложенный метод может быть дополнен и улучшен алгоритмами предварительной и пост-обработки. Предложен метод предобработки отсканированных изображений на основе адаптивного порогового преобразования в алгоритмах дискретных вейвлет и курвлет-преобразований. Проведены численные эксперименты по выявлению наиболее результативного алгоритма для предобработки. В качестве алгоритма пост-обработки предложен метод улучшения качества распознавания текста на основе алгоритма словарного поиска с использованием динамического программирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Григорьев Дмитрий Сергеевич, Хаустов Павел Александрович, Спицын Владимир Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Optical character recognition is a complex problem, which has no definite solution. There are a lot of approaches and methods to solve this problem. The proposed approach, based on aggregate usage of wavelet-transformation for reducing the feature space and probabilistic neural network for classification, has shown a good quality of recognition. However the proposed approach can be improved with preprocessing and postprocessing algorithms. The algorithm of preprocessing based on adaptive thresholding for curvelet and wavelet transformations is proposed. The numerical experiments are held to determine the most efficient algorithm of preprocessing. The approach based on vocabulary search and dynamic programming is proposed for postprocessing.

Текст научной работы на тему «Улучшение качества метода оптического распознавания текстов с помощью совместного применения вейвлет-преобразований, курвлет-преобразований и алгоритмов словарного поиска»

УДК 004.352.242

УЛУЧШЕНИЕ КАЧЕСТВА МЕТОДА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ ТЕКСТОВ С ПОМОЩЬЮ СОВМЕСТНОГО ПРИМЕНЕНИЯ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЙ, КУРВЛЕТ-ПРЕОБРАЗОВАНИЙ И АЛГОРИТМОВ СЛОВАРНОГО ПОИСКА

Д.С. Григорьев, П.А. Хаустов, В.Г. Спицын

Томский политехнический университет E-mail: _tryGX@sibmail.com, eXceibot@sibmail.com

Оптическое распознавание символов является комплексной задачей, для решения которой не существует определенного алгоритма. Существует множество подходов и методов для решения данной задачи. Предложенный ранее метод, основанный на совместном применении вейвлет-преобразования для сокращения размерности пространства признаков и вероятностной нейронной сети для классификации, показал приемлемые результаты. Однако предложенный метод может быть дополнен и улучшен алгоритмами предварительной и пост-обработки. Предложен метод предобработки отсканированных изображений на основе адаптивного порогового преобразования в алгоритмах дискретных вейвлет и курвлет-преобразований. Проведены численные эксперименты по выявлению наиболее результативного алгоритма для предобработки. В качестве алгоритма пост-обработки предложен метод улучшения качества распознавания текста на основе алгоритма словарного поиска с использованием динамического программирования.

Ключевые слова:

Пороговое преобразование, вейвлет-преобразование, курвлет-ное дерево, словарный поиск.

Введение

Системы оптического распознавания текста состоят из следующих основных блоков, предполагающих аппаратную или программную реализацию:

• сегментации элементов текста;

• предобработки изображения;

• выделения признаков;

• распознавания символов;

• постобработки результатов распознавания. После использования алгоритма оптического

распознавания символов возникает необходимость в улучшении качества распознавания текста. Для того чтобы улучшить качество распознаваемого текста без изменения механизма решения задачи оптического распознавания символов, вводятся блоки предобработки изображений и постобработки результатов оптического распознавания.

Предобработка изображений

Как известно, вейвлет-преобразование широко применяется для анализа сигналов, а также зарекомендовало себя как эффективный инструмент для сжатия и предобработки изображений [1, 2]. Приемлемые результаты исследований в указанных работах обуславливают выбор метода дискретного вейвлет-преобразования (ДВП) для дальнейшего применения. Однако при вейвлет-преобразовании исходные данные претерпевают значительные потери при растяжении и вращении, также в преобразовании отсутствует пространственная ориентированность.

Курвлет-преобразование (curve - кривая, изгиб; curvelet - маленький изгиб) в данном случае является более подходящим инструментом для определения свойств ориентированности объекта на изображении, обеспечивая оптимальное представление о разреженности, предоставляя максимальную концентрацию энергии вдоль краев объекта [3]. Курвлет-преобразование является

преобразование, динамическое программирование, префикс-

многомерным, многоуровневым и локализованным в окне масштаба, пропорционального следующему отношением длины и ширины: «длина2&ши-рина» [4]. Одной из целей данной работы является выявление наиболее подходящего алгоритма предобработки зашумленного изображения.

Курвлет-преобразование

Курвлеты - базовые элементы с высокой чувствительностью к ориентации и высокой анизотропностью [3, 4]. Дискретное курвлет-преобразование функции вариации яркости изображения у(х,у) использует диадические последовательности масштабов и банков фильтров (Р/,Д/,Д/,...). Высокочастотные фильтры Т2Я взаимодействуют с частотами области |||е[228,2т2] и обладают рекурсивной конструкцией х¥2^х)=2^х¥(22х), а низкочастотный фильтр Ф0 взаимодействует с частотами области |£|<1. Суб-полосное разложение выполняется при помощи операции свертки: 4/=%//, Р/=Ф0у. Схема алгоритма курвлет-преобразования приведена на рис. 1.

1. Субполосное разложение. Функция вариаций яркости изображения раскладывается в набор субполос: /^(Ру,Ду,Д/,...). Каждый набор Д/ содержит детали различных частот: Р0 -фильтр нижних частот, Д^Д^... - фильтры высоких частот. Исходное изображение может быть восстановлено по формуле (1):

у = Р>( Р у)+ЕД, (Д sУ). (1)

При этом выражение (2) для сохранения энергии:

I |у I 12 =1 |Ро( Р у)1 I 2 +Ц |Д* (Ду I 2. (2)

2. «Гладкое» разделение. Каждая субполоса локализуется в плавающем окне соответствующего масштаба, Д^^Ду)^. Здесь wQ - это набор окон, локализованных вокруг диадических квадратов:

Рис. 1. Основные этапы алгоритма курвлет-преобразования

в = [к1 /25,(к1 +1)/2х] х [к2/25,(к2 + 1)/2х].

Умножая А/ на тя, производим разделение функции на «квадраты» Н^^-А/.

3. Ренормализация. Происходит центрирование каждого диадического квадрата к единичному: [0,1]х[0,1]. Для каждого в оператор Тч определен выражением (3):

(/Х1,х2) = 2х/(2хХ1 -к,2хХ2 -к2). (3)

Каждый квадрат ренормализуется по формуле (4):

8д = Тд Ьв . (4)

4. Риджлет-преобразование [5]. Разделение частотной области на диадическую «корону» определяется как |^|е[2®,28+1]. Каждый элемент риджлет-преобразования в частотной области задается выражением (5):

Р я(® =

= 21-С' ^у,к(1^) '®-.I(в) + Уу,к (-1^1) ‘®/,I(9+л)) (5)

где (оц - периодические вейвлеты, определенные на [-ж,ж); I - угловой масштаб и ?е[0,2;-1-1] - расположение угла; щк - вейвлеты Мейера на ЭТ; ] - масштаб риджлета и к - расположение риджлета. Каждый нормализованный квадрат подвергается анализу в риджлет-системе ост=(§(1,рг), где каждый фрагмент обладает соотношением сторон 2-2Ях2Л После ренормализации квадрат обладает частотой локализированной в полосе |||е[28,28+1] [3-5, 6].

Обратное курвлет-преобразование

Обратное курвлет-преобразование происходит в четыре основных этапа:

1. Риджлет-синтез (формула (6)):

£в =Е 6 в

в, л ) ■ Сё •

2. Ренормализация (формула (7)):

(6)

(7)

3. «Гладкая» интеграция (формула (8)):

А./ = Х ^кв • (8)

4. Субполосная реконструкция (формула (9)):

/ = Ро( Р /) + 1А, (А / )• (9)

Удаление шумов

Входное изображение представлено функцией вариации яркости двух переменных/ху). Пусть зашумленное изображение/(х,у)=/(х, у)+огг(х,у), где о -это стандартное отклонение шума, а г(х,у) - значение белого шума с нулевым математическим ожида-

нием (^=0) и единичной дисперсией о/=1. Ставится задача нахождения оптимальной конфигурации фильтра для очистки зашумленного изображения перед его последующей бинаризацией. Очищенное изображение на следующем этапе подвергается сегментации с целью выделения отдельных символов для распознавания. В данной работе представлены два метода для удаления шумов на изображениях.

В первом методе удаление шумов осуществляется на основе применения вейвлет-преобразования, а во втором методе - на основе применения курвлет-преобразования.

Метод вейвлет-преобразования

Метод предобработки, основанный на применении вейвлет-преобразования, представлен на рис. 2.

На представленной схеме обозначены основные блоки этапа предобработки изображения. На поступившее исходное изображение добавляется импульсные и Гауссовы шумы. Далее изображение подвергается двухуровневому дискретному вейвлет-преобразованию с базисной функцией Хаара для извлечения соответственно коэффициентов детализации и коэффициентов аппроксимации. Основным этапом шумоподавления является применение порога Я для набора коэффициентов деталей, который задается выражением (10):

Я у = О 21о8( N )• (10)

Формула порогового преобразования приведена в [2]. Здесь индекс ] - уровень преобразования, а N - размер матрицы коэффициентов на соответствующем уровне преобразования. Значение о вычисляется при помощи медианного абсолютного отклонения высокочастотных вейвлет-коэффициентов детализации (11):

жеё1ап(\ юк |)

о = -

0,6745

(11)

На следующем этапе вычисляется обратное дискретное вейвлет-преобразование, и в результате на выходе получается очищенное изображение. Затем очищенное изображение подвергается бинаризации.

Метод курвлет-преобразования

Метод предобработки, основанный на применении курвлет-преобразования, представлен на рис. 3.

После добавления шума изображение подвергается дискретному курвлет-преобразованию. Затем извлекаются соответствующие зашумленному изображению курвлет-коэффициенты. Происходит вычисление стандартного отклонения значения шума, и производится оценка порогового преобразования для каждого масштаба аналогично (10). После оцен-

л

Коэффициенты

детализации

I

Применение порога

Рис. 2. Схема метода предобработки при помощи вейвлет-преобразования

Рис. 3. Схема метода предобработки при помощи курвлет-преобразования

ки применяется пороговое преобразование для кур-влет-коэффициентов [6]. На следующем этапе производится обратное курвлет-преобразование. Очищенное изображение подвергается бинаризации.

Applications req implemented mo the required bits. For applications

a

Applicationsreq implemented mo the required bits. For applications

Applications req implemented mo the required bits. For applications

e

Applications req implemented mo the required bits. For appl nations

Рис. 4. а) Исходное изображение с импульсным шумом; б) исходное изображение, зашумленное при помощи гауссовского и импульсного шумов; в) выходное бинаризированное изображение после обработки методом курвлет-преобразования; г) выходное би-наризированное изображение после обработки методом вейвлет-преобразования

Сравнение результатов вейвлет и курвлет-преобразований

Результаты численных экспериментов по применению вейвлет и курвлет-преобразований для

удаления гауссовского и импульсного шума на изображениях представлены на рис. 4. Обработке подвергалось изображение, представленное на рис. 4, б.

Полученные результаты показывают, что алгоритм, основанный на курвлет-преобразовании, позволяет получить изображение более высокого качества по сравнению с алгоритмом, основанным на вейвлет-преобразовании.

Словарный поиск

В случае распознавания не отдельных символов, а целых слов или даже текстов вероятностный смысл выходов PNN-сети рационально использовать для поиска наиболее вероятного совпадения текущего слова с некоторым словом в словаре [7]. Количество слов в словаре, как правило, достигает нескольких сотен тысяч, поэтому возникает необходимость в алгоритме, обладающем высоким быстродействием.

Тривиальным решением является использование взвешенного расстояния Левенштейна, где весами являлись бы вероятности с выходов PNN-сети, а также вероятности корректности распознавания и сегментации, полученные статистическими методами. Фактически при таком подходе будет определяться математическое ожидание расстояния Левенштейна

[8] для всех возможных вариантов распознавания и сегментации слова. Для определения расстояния Ле-венштейна используется метод динамического программирования, который, в свою очередь, использу-

г

ет рекуррентное задание функции F(cx,c2), заданной выражением (12) - значение функции расстояния Левенштейна для суффиксов двух строк, начинающихся с позиций c1 и c2 соответственно:

F(Cj,c2) = min(F(c +1,c2)-Wj,F(c1;c2 +1) x

xW2, F (c1 +1, c2 +1) -W3). (12)

Существенным недостатком такого подхода является необходимость в нахождении расстояния Левенштейна до каждого из слов в словаре. Стоит учесть, что сложность вычисления расстояния Ле-венштейна линейно зависит от произведения длины распознаваемого слова и длины словарного слова. Учитывая, что размер словаря может быть достаточно большим, данный алгоритм обладает недостаточным быстродействием - его асимптотическая оценка O(KL2), где K - количество слов в словаре, L - среднестатистическая длина слова. Однако преимуществом этого алгоритма является то, что он рассматривает каждое слово словаря.

Для того чтобы улучшить быстродействие этого алгоритма, можно воспользоваться тем фактом, что достаточно большое количество слов в большинстве языков имеют общий префикс. Так, например, в английском языке слова «preposition», «predicate» и «present» имеют одинаковый префикс «pre». Очевидно, для подобных префиксов функцию расстояния Левенштейна считать более одного раза не имеет смысла. Следовательно, имеет смысл использовать следующее улучшение алгоритма. Для хранения словаря целесообразно применить префиксное дерево [9]. В префиксном дереве каждому ребру соответствует определенный символ. Каждое слово в этом дереве представлено путем от корня к некоторой вершине, которая является терминальной. Терминальными вершинами являются только вершины, в которых заканчивается путь некоторого слова. Теперь при поиске расстояния Левенштейна будет использоваться не позиция символа в конкретном слове, а вершина префиксного дерева. В таком случае для всех возможных префиксов значение функции расстояния Левен-штейна будет посчитано ровно один раз. Фактически расстояние Левенштейна будет считаться параллельно для всех слов с одинаковым префиксом.

На рис. 5 можно увидеть префиксное дерево, построенное по словам: «car», «card», «carry», «cart», «cat», «cel», «celery», «close», «closely», «closet» и «clue». Терминальные вершины, соответствующие этим словам, выделены черным цветом.

При таком подходе функция расстояния Левенштейна принимает следующий вид: F(c,v) задается выражением (13), где v - вершина в префиксном дереве, а c - текущий символ, для которого будет искаться соответствие при переходе по ребрам из вершины v: F(c,v) = min(F(c +1,v,') ■Wi). (13)

При переходе по ребрам дерева значение вероятности распознавания соответствующего символа является значением вероятности перехода в вершину, в которую ведет это ребро. Таким образом, наиболее

вероятен переход по ребру, соответствующему символу, к которому отнесен соответствующий образ с наибольшей вероятностью. Фактически функция F(v,c) позволяет найти наиболее вероятный путь в дереве, ведущий к терминальному состоянию.

Рис. 5. Пример префиксного дерева

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Очевидно, стоит учесть, что при распознавании могла быть допущена ошибка. Для этого необходимо задать некоторую величину вероятности PE, с которой PNN-сеть допустила ошибку при распознавании. Значение вероятности PE можно определить эмпирическим путем. Тогда с вероятностью (РЕ/А) необходимо осуществлять переход по каждому из ребер, ведущих из вершины V, где А - количество ребер, выходящих из вершины V.

Операции удаления и добавления символа при поиске расстояния Левенштейна используются для учета ошибок сегментации. Вероятность ошибки сегментации Р3 можно так же, как и вероятность ошибки при распознавании РЕ, определить экспериментальным путем.

Можно дать асимптотическую оценку сложности работы полученного алгоритма. Пусть количество вершин в дереве префиксов равно V, а среднестатистическая длина слова в языке равна Ь, тогда асимптотическая оценка алгоритма равна О^Ь). Для реально существующих языков V намного меньше, чем Е! (из-за большого количества слов с одинаковыми префиксами), отсюда можно сделать вывод, что использование префиксного словарного дерева увеличивает быстродействие алгоритма.

При поиске слова в словаре необходимо учитывать некоторые особенности этого слова. Так, например, необходимо посчитать вероятность того, что первая буква этого слова является заглавной. Если эта вероятность более 0,5, следует пересчитать вероятности принадлежности каждому из классов и при поиске искать то же самое слово, но без учета заглавной буквы. Можно также посчитать математическое ожидание количества заглавных букв, чтобы определять слова, являющиеся

аббревиатурами. Стоит отметить, что предыдущее правило не применимо для аббревиатур, что тоже необходимо учесть.

Для того чтобы не искать в словаре слова, которые содержат маленькое количество букв, можно заранее посчитать математическое ожидание количества букв в слове. Если это значение недостаточно велико, то словарный поиск осуществлять не имеет смысла. Так, например, нет смысла искать в словаре числа или какие-либо численно-буквенные обозначения. Также можно отбрасывать первый и последний символы, если они являются знаками препинания с достаточно большой вероятностью. Такое достаточно часто случается из-за того, что знаки препинания присоединяются к слову в результате сегментации или при наличии небольшого пиксельного шума в строке с этим словом.

Зачастую из-за ошибок сегментации некоторые слова склеиваются с использованием знаков препинания. Подобное возможно из-за пиксельного шума, который ошибочно воспринимается как точка, запятая, апостроф или двоеточие. При этом, казалось бы, поиск по словарю не имеет смысла, ведь даже информация о реальном количестве символов в слове является утерянной. В таком случае возникает необходимость в алгоритме, способном находить наиболее вероятное разбиение полученной лексемы на словарные слова.

Идея алгоритма, предложенного для решения такого рода задачи, также основывается на принципе динамического программирования. Будем считать некоторую последовательность символов словарнопредставимой, если она состоит только из знаков препинания или образует слово, которое содержится в словаре. Тогда требуется найти наиболее вероятное разбиение имеющейся лексемы на словарно-представимые последовательности символов. Если применить идею динамического программирования, то для каждого суффикса полученной лексемы можно находить наиболее вероятное разбиение на словарно-представимые последовательности. Для того чтобы найти наиболее вероятное разбиение некоторого суффикса Ряот(0 достаточно перебрать все последовательности символов, начинающиеся с этой позиции. Затем для каждой из них необходимо найти вероятность Ряивятд(1,;-1) того, что эта последовательность является словарно-представимой, умножить ее на вероятность наиболее вероятного разбиения оставшейся суффиксной части лексемы Рзиг(О) и выбрать из всех этих значений максимум (14):

РБШ

(/) = тах((У)

■ ривхгя О', У -1)). (14)

Таким образом, искомое разбиение для суффикса наибольшей длины и будет являться наиболее вероятным разбиением на словарно-представимые последовательности всей лексемы.

Результат применения алгоритма словарного поиска

Для апробации предложенного метода был использован электронный словарь «ewords», все слова которого хранятся в абстрактном типе данных -

префиксном дереве (Ше-дерево). Целесообразность такого способа хранения была обусловлена ускоренным способом подсчета функции Левен-штейна для всех слов словаря. Однако для оценки эффективности такого представления данных следует также оценить различия в быстродействии и в потребляемой оперативной памяти.

Для того чтобы сравнить объем памяти, потребляемой при тривиальном способе хранения, с объемом памяти, который требуется для хранения префиксного дерева, достаточно воспользоваться нативными средствами языка С++ и оператором sizeof.

Для словаря «ewords» были определены следующие значения объема потребляемой памяти. При тривиальном способе хранения задействуется 5419672 байт оперативной памяти. При способе хранения с использованием префиксного дерева -4520710 байт. Как можно заметить, объемы потребляемой памяти для двух описанных способов хранения паритетны. Небольшое преимущество способа хранения с использованием префиксного дерева объясняется существенной экономией потребляемой памяти из-за большого количества словоформ и других слов с одинаковыми префиксами.

Для сравнения быстродействия был выбран один из текстов ранее обработанного набора данных с большим количеством пиксельного шума. Для всех слов этого текста поиск по словарю занял 1136,788 секунд при тривиальном проходе по всем словам и нахождении функции Левенштейна для каждого из них независимо. При использовании предложенного алгоритма, который позволяет осуществлять поиск функции Левенштейна параллельно сразу для нескольких слов словаря с одинаковым префиксом, время работы существенно ниже - 415,445 секунд.

Несложно объяснить такое преимущество времени обработки, если еще раз обратить внимание на асимптотические оценки алгоритмов. Тривиальный подход имеет сложность О(ЬТЬА), где ЬТ - суммарная длина всех слов в словаре, а ЬА - средняя длина слова. При подходе с использованием префиксного дерева асимптотическая сложность алгоритма - О(УЬА), где V - количество вершин в префиксном дереве. Очевидно, зависимость отношения количества времени в первом случае к количеству времени во втором будет оцениваться примерно, как отношение ЬТ к V. И действительно, для проведенного эксперимента количество вершин в полученном префиксном дереве равно 502302, суммарная длина всех слов равна 1354918. Отношение ЬТ к V примерно равно 2,7. Это соответствует экспериментально полученным данным.

Заключение

1. Апробированы два метода предобработки изображений - вейвлет- и курвлет-преобразования для удаления пиксельного шума с отсканированных изображений.

2. Установлено, что наиболее подходящим алгоритмом для удаления пиксельного шума с от-

сканированных изображений является кур-влет-преобразование.

3. Предложен оригинальный метод словарного поиска с использованием префиксного дерева и динамического программирования.

4. Экспериментально установлено, что хранение словаря с использованием префиксного дерева позволяет улучшить быстродействие, что подтверждено асимптотическими оценками.

5. В дальнейшем планируется применение предложенных методов в системе оптического распознавания текстов. При этом предполагается использовать не только пороговые преобразования, но и морфологические для предобработки изображений и удаления пиксельного шума. Работа выполнена при финансовой поддержке гранта РФФИ № 12-08-00296а.

СПИСОК ЛИТЕРАТУРЫ

1. Misiti M., Misiti Y., Oppenheim G., Poggi J. Wavelets and their applications. - London: ISTE, 2007. - 352 p.

2. Gnanadurai D., Sadasivam V. An efficient adaptive thresholding technique for wavelet based image denoising // World Academy of Science, Engineering and Technology. - 2006. - V. 1 (2). -P.114-119.

3. Donoho D.L., Duncan M.R. Digital curvelet transform: strategy, implementation and experiments // Proc. Aerosense2000, Wavelet Applications VII, SPIE. - Stanford, California, 2000. -V. 4056. - P. 12-29.

4. Donoho D.L. De-noising by soft thresholding // IEEE Transaction on Information Theory. - Stanford, California: IEEE, 1995. -V. 41. - P. 613-627.

5. Cande's E.J. Ridgelets: theory and applications: Ph.D. Thesis. -Stanford, 1998. - 13 p.

6. Starck J., Candes E.J., Donoho D.L., The curvelet transform for image denoising // IEEE transactions on image processing. -2002. - V. 11. - №6. - P. 61-66.

7. Круглов В.В., Дли М.И., Голунов Р.Ю. Нечеткая логика и искусственные нейронные сети. - М.: Физматлит, 2000. - 224 с.

8. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. - М.: Проспект, 2009. - С. 56-59.

9. Кормен Т., Лейзерсон Ч., Ривест Р., Штайн К. Алгоритмы: построение и анализ. - М.: Изд. дом «Вильямс», 2011. - 1293 с.

Поступила 03.09.2013 г.

UDC 004.352.242

IMPROVING THE QUALITY OF OPTICAL CHARACTER RECOGNITION METHOD BY JOINT APPLICATION OF WAVELET-AND CURVELET-TRANSFORMS AND VOCABULARY SEARCH ALGORITHM

D.S. Grigoryev, P.A. Khaustov, V.G. Spitsyn Tomsk Polytechnic University

Optical character recognition is a complex problem, which has no definite solution. There are a lot of approaches and methods to solve this problem. The proposed approach, based on aggregate usage of wavelet-transformation for reducing the feature space and probabilistic neural network for classification, has shown a good quality of recognition. However the proposed approach can be improved with preprocessing and postprocessing algorithms. The algorithm of preprocessing based on adaptive thresholding for curvelet and wavelet transformations is proposed. The numerical experiments are held to determine the most efficient algorithm of preprocessing. The approach based on vocabulary search and dynamic programming is proposed for postprocessing.

Key words:

Thresholding, wavelet-transform, curvelet-transform, dynamic programming, trie-tree, vocabulary search.

REFERENCES

1. Misiti M., Misiti Y., Oppenheim G., Poggi J. Wavelets and their applications. London, ISTE, 2007. 352 p.

2. Gnanadurai D., Sadasivam V. An efficient adaptive thresholding technique for wavelet based image denoising. World Academy of Science, Engineering and Technology, 2006, vol. 1 (2), pp. 114-119.

3. Donoho D.L., Duncan M.R. Digital curvelet transform: strategy, implementation and experiments. Proc. Aerosense2000, Wavelet Applications VII, SPIE. Stanford, California, 2000, vol. 4056, pp. 12-29.

4. Donoho D.L. De-noising by soft thresholding. IEEE Transaction on Information Theory. Stanford, California, IEEE, 1995, vol. 41, pp. 613-627.

5. Cande's E.J. Ridgelets: theory and applications. Ph.D. thesis. Stanford, 1998. 13 p.

6. Starck J., Candes E.J., Donoho D.L. The curvelet transform for image denoising. IEEE transactions on image processing, 2002, vol. 11, no. 6, pp. 61-66.

7. Kruglov V.V., Dli M.I., Golunov R.Yu. Nechetkaya logika i iskus-stvennye neyronnye seti [Fuzzy Logic and Artificial Neural Networks]. Moscow, Fizmatlit Publ., 2000. 224 p.

8. Levenshteyn V.I. Dvoichnye kody s ispravleniem vypadeniy, vsta-vok i zameshcheniy simvolov [Binary codes with corrections of removed, inserted and replaced characters]. Doklady Akademij Nauk SSSR [Reports of USSR scientific academy]. Moscow, Pro-spekt Publ., 2009. pp. 56-59.

9. Kormen T., Leyzerson Ch., Rivest R., Shtayn K. Algoritmy: po-stroenie i analiz [Introduction to Algorithms]. Moscow, Williams Publ., 2011. 1293 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.