ПРИМЕНЕНИЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ХААРА, МЕТОДА ГЛАВНЫХ КОМПОНЕНТ И НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ НА ИЗОБРАЖЕНИЯХ В ПРИСУТСТВИИ ИМПУЛЬСНОГО ШУМА
В.Г. Спицын 1, Ю.А. Болотова 1, Н.Х. Фан 2, Т.Т. Ч. Буй 2 1 Томский политехнический университет, (национальный исследовательский университет) (ТПУ), Томск, Россия, 2 Университет Ба Риа-Вунг, Вьетнам
Аннотация
В работе предложен новый алгоритм распознавания символов в условиях импульсного шума на основе применения вейвлет-преобразования, метода главных компонент и нейронных сетей. В предлагаемом алгоритме для устранения шума и извлечения признаков из исходного изображения и его отдельных частей с помощью вейвлет-преобразования Хаара выделяются низкочастотные компоненты. Сокращение размерности извлечённых признаков осуществляется методом главных компонент. В качестве классификатора используется многослойная нейронная сеть, на входы которой подаётся сокращённый набор признаков. Одной из ключевых особенностей предлагаемого подхода является создание отдельной нейронной сети для каждого типа символа. Результаты экспериментов показывают, что разработанный алгоритм сравним по точности распознавания с системами ABBYY FineReader и Tesseract в условиях импульсного шума.
Ключевые слова: распознавание символов, вейвлет-преобразование, метод главных компонент, нейронные сети.
Цитирование: Спицын, В.Г. Применение вейвлет-преобразования Хаара, метода главных компонент и нейронных сетей для оптического распознавания символов на изображениях в присутствии импульсного шума / В.Г. Спицын, Ю.А. Болотова, Н.Х. Фан, Т.Т.Ч. Буй // Компьютерная оптика. - 2016. - Т. 40, № 2. - С. 249-257. - DOI: 10.18287/2412-6179-2016-40-2-249-257.
Введение
Распознавание объектов на изображениях востребовано в различных сферах деятельности современного общества. Распознавание символов является одной из актуальных задач направления распознавания образов. Решение этой задачи может применяться в системах распознавания текстов, при аннотировании изображений, автоматическом переводе, для распознавания автомобильных номеров, регистрации железнодорожных составов и т.п. [1-7].
Основной трудностью при распознавании символов на изображениях, полученных путём сканирования, фотографирования или видеосъёмки, является наличие искажений и шумов. Точность распознавания даже признанными в данной области лидерами, такими как ABBYY FineReader или Tesseract OCR, значительно снижается в присутствии шума и искажений [6, 7].
К настоящему времени для решения задачи оптического распознавания символов предложено множество алгоритмов. Исторически первыми появились методы сопоставления с шаблонами, затем методы, анализирующие структуру символа [8]. Например, процесс распознавания в системе Tesseract основывается на полигональной аппроксимации символа и последующем сопоставлении полученной аппроксимации с сохранёнными на этапе обучения шаблонами [9]. В OCR-решениях ABBYY задействованы шесть классификаторов: растровый, признаковый, признаково-дифференциальный, контурный, структурный и структурно-дифференциальный, применяющиеся в зависимости от контекста документа, вход-
ных параметров изображения и задач распознавания [10]. В последнее время популярными стали методы, не требующие предварительной сегментации, такие как иерархические скрытые модели Маркова и свёр-точные нейронные сети [18, 19]. Ввиду возникновения новой волны популярности нейросетевых классификаторов, в последнее время они часто используются в исследовательских работах по оптическому распознаванию символов [11].
Вейвлет-преобразование является эффективным методом выделения признаков объектов при решении задач распознавания. При разложении изображения вейвлет-преобразование разделяет его на субдиапазоны в низких и высоких частотных областях различного разрешения. Отбрасывание высокочастотных компонент, полученных при вейвлет-преобразовании, позволяет снизить размерность исходного изображения, а также избавиться от высокочастотного шума. К преимуществам вейвлет-преобразования относится и его быстрая вычислимость. В ряде работ показано, что при использовании вейвлет-преобразований для выделения признаков изображения точность классификации изображений составляет 76-99,7 % [12]. Кроме того, вейвлет-преобразование успешно используется при решении задач распознавания образов, в особенности задачи распознавания лиц [13, 14]. Точность распознавания лиц при этом составляет 9098,5 %.
В данной работе предлагается новая технология оптического распознавания зашумлённых символов, основанная на комбинации алгоритма вейвлет-преобразо-вания, метода главных компонент и нейронных сетей.
Предлагаемый алгоритм
Предлагаемый алгоритм для распознавания символов состоит из двух основных этапов: обучения и распознавания.
Этап 1. Обучение.
1.1. Выделение низкочастотных компонент изображения символа обучающей выборки с помощью вейвлет-преобразования Хаара.
1.2. Уменьшение размерности векторов выделенных признаков методом главных компонент.
1.3. Обучение нейронных сетей на полученных векторах признаков.
Этап 2. Распознавание символа.
2.1. Выделение низкочастотных компонент распознаваемого символа тестовой выборки на основе применения вейвлет-преобразования.
2.2. Уменьшение размерности вектора выделенных признаков с помощью метода главных компонент.
2.3. Распознавание символа обученными нейронными сетями.
Выделение признаков изображения символа с помощью преобразования Хаара
Выделение характерных признаков символов осуществляется с помощью вейвлет-преобразования Хаара [13]. Преобразование Хаара является базисным вейвлет-преобразованием. Пусть имеется одномерный дискретный сигнал/(/1,Д...,/), преобразование Хаара разлагает каждый сигнал на две составляющие равного размера. Первая составляющая называется средней, а вторая - детализирующей.
Средняя составляющая сигнала а(а1,й2,..,аы/2) определяется как:
Ля-1 + Л« ,п = 1,2,3,...,ы/2.
42
(1)
Детализирующая составляющая ^(^1,^2,..,^ы/2) описывается формулой (2):
=
/2п-1 /2п « = 1,2,3,...,N/2.
42
(2)
В данной работе преобразование Хаара применяется для выделения глобальных и локальных признаков.
Выделение глобальных признаков происходит следующим образом: область, содержащая символ, приводится к размеру 64*64 пикселя, затем к полученному изображению применяется вейвлет-преобра-зование, извлекаются низкочастотные вейвлет-коэффициенты, в результате чего получается матрица, состоящая из 32*32 низкочастотных вейвлет-коэффициентов.
Для выделения локальных характерных признаков символа его изображение делится на 12 частей одинакового размера - 32*32 пикселя согласно рис. 1, затем к каждой части применяется вейвлет-преобразо-вание и извлекаются низкочастотные вейвлет-коэффициенты.
Исходное изображение I
Вейвлет-преобразование
ЛЗЮИЕЯ , , ЯШИН
Вейвлет-преобразование
4 4
12 локальных Вектор признаков
частей размерности N
Рис. 1. Выделение признаков символа «А»
В результате получаются 12 матриц, каждая из которых состоит из 16*16 низкочастотных вейвлет-коэффициентов.
После этого формируется вектор характерных признаков символа, элементами которого являются все низкочастотные вейвлет-коэффициенты, полученные на предыдущих шагах. В результате формируется вектор характерных признаков символа, состоящий из 32*32 + 12*16*16 = 4096 элементов.
Снижение размерности вектора признаков
Перед подачей на входы нейронных сетей размерность вектора признаков необходимо уменьшить. Для решения этой задачи предлагается использовать метод главных компонент [14].
Для использования данного метода требуется его предварительное обучение.
Сначала с использованием множества М обучающих изображений символов создаётся пространство «собственных символов». При этом М<< Ы, где N = 4096. Создание пространства собственных символов выполняется следующим образом.
К каждому из М изображений применяется разработанный способ выделения характерных признаков. В результате получается набор векторов признаков
/1,..., 1м, размерность каждого из которых равна N. Затем составляется средний вектор, значение каждого элемента которого по всем М векторам признаков вычисляется по формуле:
^ 1 М ^
^ = м 5/п
(3)
Далее из обучающих векторов формируется матрица А размерностью Ы*М. Столбцами матрицы А является разность вектора признаков обучающих изображений и среднего вектора:
Ф« = /« -,« = 1,...,М,
А = [Ф1, Ф2,..., Ф м ].
(4)
(5)
Вычисляются собственные векторы ковариационной матрицы С размера Ы*Ы, определяемой соотношением (4):
С = ААТ. (6)
ап =
Но ввиду её большой размерности можно рассмотреть матрицу Ь [М^М], определяемую:
Ь = АТА. (7)
В книге А. А. Лукьяница [15] доказано, что собственные векторы и[Ы*М] матрицы С могут быть получены путём линейной комбинации А и собственных векторов V матрицы Ь:
и = AV. (8)
После этого создаётся пространство, состоящее из К собственных векторов ик, имеющих наибольшие собственные значения. При этом каждый к-й вектор ик удовлетворяет условию максимизации следующего выражения (9):
1 м
l = M Z u Fn )2
n=1
и условию ортогональности (10):
'1, l = k 10, otherwise
ui Uk
(9)
(10)
Векторы ик и величины 1к представляют собственные векторы и собственные значения ковариационной матрицы С. Пространством «собственных символов» является набор выбранных К собственных векторов (рис. 2).
Выделение признаков
Вычисление собственных векторов
Вектора признаков размерности N
Рис. 2. Создание пространства собственных символов
Вектора признаков размерности К
После того как создано пространство «собственных символов», уменьшение размерности вектора характерных признаков символа /¡п осуществляется
следующим образом [14].
Сначала вектор признаков символа разлагается по К имеющимся «собственным символам» щ и вычисляются соответствующие коэффициенты разложения, определяющиеся по формуле (11):
^ = иТ (4 -О '=1,..., к. (11)
Затем составляется вектор, описывающий вклад каждого собственного символа в представление входного вектора признаков символа:
WT = {Wi,..., wK }.
(12)
В результате уменьшения размерности получается
новый вектор признаков символа О, состоящий из К элементов. При этом К<<Ы (рис. 3).
Вектор признаков размерности N
ш
Выделение признаков
Вектор признаков размерности К
г
v_
77;
векторов
Рис. 3. Уменьшение размерности вектора признаков символа
Распознавание символов набором нейронных сетей
В качестве классификатора для распознавания символов предлагается использование многослойных нейронных сетей. Особенностью данного подхода является создание для каждого символа специальной нейронной сети, обучаемой алгоритмом обратного распространения ошибки [16].
Структура нейронных сетей идентична и представлена 1 входным, 1 скрытым и 1 выходным слоем. Входом каждой нейронной сети является вектор характерных признаков О размерности К. Количество нейронов в скрытом слое равно 70 % от количества входных нейронов. Выходной слой имеет только один нейрон, возвращающий значение в пределах от 0 до 1.
Сети обучаются алгоритмом обратного распространения ошибки, состоящим из следующих этапов:
1. Инициализация. Случайная генерация синап-тических весов с помощью датчика равномерно распределённых чисел со средним значением 0.
2. Предъявление примеров обучения. На входы сети подаётся вектор значений текущего экземпляра п обучающей выборки (х(п), с1(п)), где х(п) - входной вектор, й(п) - желаемый отклик сети на выходе.
3. Прямой проход. Последовательно для каждого слоя /, начиная с первого, вычисляется индуцированное поле каждого нейрона у по формуле (13):
j (п) = Z w® (n)
(13)
где у( )(п) - выходной сигнал нейрона I предыдущего слоя (/-1), (п) -
синаптический вес связи
нейрона j слоя l с нейроном j слоя 1-1.
i=0
Выходной сигнал нейрона вычисляется по формуле (14):
У?(п) — ф, (V, (п)), (14)
где ф(у,(п)) - активационная функция.
Нейроны первого скрытого слоя (I = 1) транслируют входные данные нейронам следующего слоя: у(0)(п) = X, (п). (15)
Для нейронов выходного слоя (I = Ь):
у^(п) — о, (п) . (16)
После осуществления прямого прохода вычисляется ошибка для нейрона выходного слоя:
е, (п) = dJ (п)-о, (п). (17)
4. Обратный проход. Локальные градиенты узлов сети вычисляются по формуле (18), где ф, (•) - дифференцирование по аргументу:
5(' )(п) —
е, ' (п)ф, ' (п)) для нейрона , выходного слоя Ь ф,. (V® (п))5 5к+1) (п) для нейрона , скрытого слоя I
(18)
Изменение синаптических весов осуществляется по формуле (19):
■ Л* + П — л,,<г> +«5Й (п)уС "
>(п +1) — ^>(п) + Л5;,'
(п)
(19)
где п - параметр скорости обучения.
5. Итерации. Повторение шага 2 для следующего экземпляра обучающей выборки. При обработке всей обучающей выборки считается, что пройдена 1 эпоха обучения. Переход на следующую эпоху обучения осуществляется в случае, если критерий останова не был достигнут [17].
Использование отдельной нейронной сети для каждого символа позволяет ускорить процесс обучения за счёт параллельного обучения сетей. Каждая
Вектор признаков размерности N
нейронная сеть определяет степень близости распознаваемого символа только к одному из символов обучающей выборки.
Распознавание входного символа нейронными сетями происходит следующим образом. Вначале извлекается вектор признаков символа и уменьшается его размерность. Затем полученный вектор признаков подаётся на входы всех обученных нейронных сетей, осуществляется распознавание с помощью прямого прохода по нейронной сети. Входной символ распознаётся как символ обучающей выборки, нейронная сеть которого возвращает наибольшее значение (рис. 4).
0,01743
0,78818 - первое пр2ед—
0,17611 - второе предположение
'г"
к
Рис. 4. Распознавание с Оценка сложности алгоритма
Вейвлет-преобразование, применяемое в данной работе, является однократным и имеет квадратичную сложность О^ 2).
Метод главных компонент требует вычисления собственных векторов и собственных значений матрицы ковариации размерности ^^ сложность этой операции составляет О^ 3). При N>>М в работе используется модификация [15], сложность составляет О(М 3).
При создании многослойного персептрона строится нелинейная модель физического явления, обеспечивающия определённый выходной сигнал в ответ на входную информацию. Применяемый в данной работе алгоритм обучения обратного рас-
ола нейронными сетями
пространения ошибки имеет линейную сложность О(^) по синаптическим весам V При прямом проходе синаптические веса задействованы для вычисления выходных значений отдельных нейронов сети путём линейной комбинации со входными значениями. При обратном проходе синаптические веса используются для вычисления локальных градиентов скрытых нейронов и последующего изменения самих синаптических весов.
Заметим, что метод главных компонент обладает наибольшей сложностью среди всех этапов предлагаемого алгоритма, однако вычисление главных компонент требуется только во время обучения. На этапе распознавания сложность метода определяется как О(тК).
Эксперименты по распознаванию рукописных и печатных символов
В первом эксперименте предложенный алгоритм был применён для распознавания рукописных цифр базы ММБТ, созданной Яном Лекуном [18]. База состоит из 60000 изображений для обучения и 10000 тестовых изображений. Цифры центрированы на изображении размером 28*28 пикселей.
В этом эксперименте авторами статьи была создана дополнительная тестовая выборка путём добавления к исходным изображениям импульсного шума с вероятностью 5, 10, 15, 20, 25 и 30 %. Пример зашум-лённого изображения приведён на рис. 5 (слева направо: изображение рукописных цифр с шумом 0, 10, 20 и 30 % соответственно).
Рис. 5. Пример тестовых изображений рукописных цифр базы ЫЖБТ с добавлением шума
Исследования влияния размерности вектора признаков на точность, достигнутую разработанным алгоритмом при распознавании рукописных цифр базы ММБТ, показали более устойчивую работу алгоритма при увеличении количества использованных признаков. При использовании вектора из 5 признаков точность распознавания составляет только 70,3 %. При количестве использованных признаков, равном 37, точность распознавания составляет 97 %. При количестве признаков больше 37 точность распознавания находится в пределах от 97 % до 97,5 %. При использовании вектора из 49 признаков точность распознавания достигает максимального значения 97,5 %. Таким образом, для проведения дальнейших численных экспериментов по распознаванию рукописных цифр на зашумлённых выборках был выбран вектор, состоящий из 49 признаков.
Результаты распознавания предложенного алгоритма (табл. 1) оказались сопоставимыми с лучшими алгоритмами, представленными другими авторами [18-20].
Табл. 1. Результаты распознавания рукописных цифр MNIST различными алгоритмами
Алгоритм Мин. ошиб- Макс.
ка, % ошибка, %
Линейный классификатор [19] 7,б 12
Нелинейный классификатор [19] 3,3 3,б
Модель иерархической 1,5 1,5
временной памяти [20]
Boosted Stumps [19] 0,87 7,7
K-ближайших соседей [19] 0,б3 5
Машины опорных векторов [19] 0,5б 1,4
Нейронные сети [19] 0,35 4,7
Свёрточные нейронные сети [19] 0,23 1,7
Предложенный алгоритм 2,5 3
Анализ табл. 1 показывает, что предложенный алгоритм является сопоставимым с нелинейным классификатором и нейронными сетями, превосходит по
точности линейный классификатор, boosted stumps, к-ближайших соседей, уступает модели иерархической временной памяти, машинам опорных векторов и свёрточным нейронным сетям, однако данные алгоритмы имеют большую вычислительную сложность по сравнению с предложенным.
При тестировании разработанного алгоритма на зашумлённой выборке рукописных цифр базы MNIST также использовался вектор из 49 признаков. Результаты распознавания рукописных цифр разработанным алгоритмом на зашумлённых выборках представлены на рис. 6.
Точность, %
Рис. б. Результаты распознавания рукописных цифр
в зависимости от уровня шума
Следует отметить, что разработанный алгоритм обеспечивает возможность распознавания рукописных цифр в присутствии шума на изображениях. При этом точность распознавания существенно уменьшается, когда уровень шума превышает 20 %. Эксперименты по распознаванию печатных символов
Проводились эксперименты по распознаванию печатных символов латинского алфавита. Обучающая выборка состоит из 1488 изображений 10 цифр (0-9) и 52 букв латинского алфавита (a-z, A-Z). Каждый символ представлен 2 типами шрифтов: Times New Roman и Arial с жирным и нормальным начертанием, 1б, 18, 20, 22, 24 и 2б кегля. Таким образом, в обучающей выборке каждый символ представлен 24 изображениями.
Тестирование проводилось на символах 8 популярных шрифтов: 4 шрифта с засечками - Times New Roman, Garamond, Courier New и Bookman Old Style, 4 шрифта без засечек - Arial, Lucida Sans, Tahoma и Verdana. Тестовая выборка состоит из 2480 изображений. Каждый символ представлен нормальным и жирным начертанием 12, 14, 1б, 18, 20, 22, 24, 2б, 28 и Зб кегля.
В случае распознавания символов проводились эксперименты по учёту второго предположения. Второе предположение в данном случае - это решение нейронной сети, возвратившей второе по величине значение. Учёт второго предположения применяется при распознавании символов, имеющих «похожее» написание заглавных и строчных букв, таких как {c, C}, {o, O}, {p, P}, {s, S}, {u, U}, {v, V}, {w, W}, {x, Y} и {z, Z}.
Суть использования второго предположения заключается в том, что если в результате распознавания текущего символа первое и второе предположения представляют собой одну из вышеперечисленных пар, то вводится дополнительная проверка, при которой распознаваемый символ подаётся на вход специальной нейронной сети, предварительно обученной разделять символы вышеперечисленных пар строчных и прописных букв. Таким образом, для этой дополнительной проверки на этапе обучения создаётся ещё 9 дополнительных нейронных сетей (по одной на каждую пару «похожих» символов).
Результаты экспериментов показали (табл. 2), что предложенный алгоритм, обученный на 2 типах шрифтов, способен успешно распознавать символы других шрифтов.
Табл. 2. Результаты распознавания печатных символов разных шрифтов
Шрифт Точность распознавания, %
Второе Первое
предположение предположение
Times New Roman 96,5 91,5
Courier New 77,4 63,5
Garamond 94,0 84,3
Bookman Old Style 88,5 78,6
Arial 97,1 92,4
Lucida Sans 90,6 85,4
Tahoma 91,5 80,4
Verdana 91,6 80,2
Результаты, приведённые в табл. 2, показывают, что точность распознавания предложенного алгоритма для всех тестируемых шрифтов является приемлемой. Точность распознавания на шрифтах без засечек выше и стабильнее, чем на шрифтах с засечками. Наилучшие результаты достигнуты при использовании 27 значимых признаков, полученных методом главных компонент. Вектор такого размера был использован для тестирования печатных символов с шумом.
Тестовая выборка была увеличена добавлением к исходным изображениям импульсного шума 5, 10, 15, 20, 25 и 30 %. Пример чистых и зашумлённых изображений приведен на рис. 7 (процент зашумления - 0, 10, 20 и 30 % слева - направо).
Рис. 7. Пример изображений «чистых» и «зашумлённых» печатных символов Сопоставление точности распознавания систем ABBYY FineReader 11 и Tesseract OCR на зашумлённых печатных символах шрифтов Times New Roman и Arial проводилось на тех же выборках, результаты распознавания приведены в табл. 3 и 4.
Показано, что при увеличении шума точность распознавания системами ABBYY FineReader 11 and Tesseract OCR значительно снижается при зашумлении от 10 до 30 %, точность предложенного алгоритма снижа-
ется медленнее. Таким образом, можно сделать вывод, что предложенный алгоритм более эффективен при распознавании зашумлённых изображений символов, чем ABBYY FineReader 11 и Tesseract OCR. При уровне шума более 15 % разница в точности распознавания становится более заметной (табл. 3, 4).
Табл. 3. Сравнение точности распознавания зашумленных символов шрифта Times New Roman различными алгоритмами
Алгоритм распознавания Уровень шума, %
0 5 10 15 20 25 30
FineReader 99,9 86,3 79 65,8 59,8 54,8 43,6
Tesseract 99,8 86,5 84,8 77,3 69,4 64 53
Предложенный алгоритм 91,5 89,8 89,6 86,8 83,2 81,5 78,1
Предложенный алгоритм с учётом второго предположения 96,5 95,9 95 93,2 90,8 89,8 86
Табл. 4. Сравнение точности распознавания зашумлённых символов шрифта Arial различными алгоритмами
Алгоритм распознавания Уровень шума, %
0 5 10 15 20 25 30
FineReader 99,8 90,6 83,7 76,8 67,8 59 55,2
Tesseract 99,4 86,5 83,6 75,7 69,6 62,7 52,2
Предложенный алгоритм 92,4 88,5 87,8 85,6 85,4 81,5 78,3
Предложенный алгоритм с учётом второго предположения 97,1 96,3 95,2 93,5 92,4 90,2 88
Заключение
В данной работе представлен эффективный алгоритм распознавания рукописных и печатных символов, основанный на совместном применении вейвлет-преобразования, метода главных компонент и нейронных сетей. Преимуществом данного алгоритма над существующими решениями является его способность более качественно распознавать символы в присутствии импульсного шума. Этого удалось достичь благодаря применению вейвлет-преобразования Хаара и нейронных сетей. Заметим, что точность распознавания увеличивается в результате использования второго предположения. В работе показано, что предложенный алгоритм позволяет эффективно распознавать зашумлённые изображения рукописных и печатных символов.
Литература
1. Bolotova, Yu.A. License plate recognition with hierarchical temporal memory model / Yu.A. Bolotova, A.A. Druki, V.G. Spitsyn. - In: Proceedings of 9th International Forum on Strategic Technology (IFOST-2014), Chittagong, October 21-23, 2014. - Chittagong: CUET, 2014. - P. 121-124.
2. Болотова, Ю.А. Распознавание автомобильных номеров на основе метода связных компонент и иерархической временной сети / Ю.А. Болотова, В.Г. Спицын, М.Н. Рудомёткина // Компьютерная оптика. - 2015. -Т. 39, № 2. - С. 275-280.
3. Болотова, Ю.А. Распознавание символов на цветном фоне на основе иерархической временной модели с предобработкой фильтрами Габора / Ю.А. Болотова, А.К. Кермани, В.Г. Спицын // Электромагнитные волны и электронные системы. - 2012. - Т. 16, № 8.- С. 14-19.
4. Казанский, Н.Л. Распределённая система технического зрения регистрации железнодорожных составов / Н.Л. Казанский, С.Б. Попов // Компьютерная оптика. - 2012. -Т. 36, № 3.- С. 419-428.
5. Изотов, П.Ю. Технология реализации нейросетевого алгоритма в среде CUDA на примере распознавания рукописных цифр / П.Ю. Изотов, С.В. Суханов, Д.Л. Голо-вашкин // Компьютерная оптика. - 2010. - Т. 34, № 2.-С. 243-251.
6. Breuel, T.M. High-Performance OCR for Printed English and Fraktur using LSTM Networks / T.M. Breuel, A. Ul-Hasan, M.Al Azawi, F. Shafait // Proceedings of 12th International Conference on Document Analysis and Recognition. - 2013. - P. 683-687.
7. Helinski, M. Report on the comparison of Tesseract and ABBYY FineReader OCR engines / M. Helinski, M. Kmieciak, T. Parkola. - Technical report. - Poznan, Poland: Poznan Supercomputing and Networking Center, 2012. - 24 p.
8. Mori, Sh. Historical review of OCR research and development / Sh. Mori, Ch.Y. Suen, K. Yamamoto // Proceedings of the IEEE. - 1992. - Vol. 80, Issue 7. - P. 1029-1058.
9. Smith, R. An overview of the Tesseract OCR Engine / R. Smith // Proceedings of 9th International Conference on Document Analysis and Recognition (ICDAR2007). -2007. - Volume II. - P. 629-633.
10. Крупин, А. ABBYFineReader: взгляд изнутри [Электронный ресурс] / А. Крупин. - URL: http://www.3dnews.ru/software/632560/.
11. Breuel, T.M. The OCRopus Open Source OCR System Tech / T.M. Breuel // Proceedings of SPIE. - 2008. -Vol. 6815. - 68150F. - DOI: 10.1117/12.783598.
12. Mehdi, L. Combining wavelet transforms and neural networks for image classification / L. Mehdi, A. Solimani,
A. Dargazany. - In: 41st Southeasten Symposium on System Theory, Tullahoma, TN, USA. - Tullahoma, TN, USA: 2009. - P. 44-48.
13. Буй, Т.Т.Ч. Распознавание лиц на основе применения метода Виолы-Джонса, вейвлет-преобразования и метода главных компонент / Т.Т.Ч. Буй, Н.Х. Фан, В.Г. Спи-цын // Известия Томского политехнического университета. - 2011. - Т. 320, № 5. - С. 54-59.
14. Turk, M.A. Face Recognition Using Eigenfaces / M.A. Turk, A.P. Pentland // Proceedings of the IEEE. - 1991. - P. 586-591.
15. Лукьяница, А. А. Цифровая обработка видеоизображений / А.А. Лукьяница, А.Г. Шишкин. - М.: Ай-Эс-Эс Пресс, 2009. - 518 с.
16. Спицын, В.Г. Интеллектуальные системы: учебное пособие / В.Г. Спицын, Ю.Р. Цой. - Томск: Изд-во Томского политехнического университета, 2012. - 176 с.
17. Хайкин, С. Нейронные сети. Полный курс: / С. Хайкин; пер. с англ. - 2-е изд. - М.: Издательский дом «Виль-ямс», 2006. - 1104 с.
18. LeCun, Y. Gradient based learning applied to document recognition / Y. LeCun, L. Bottou, Y. Bengio, P. Haffner // Proceedings of the IEEE. - 1998. - Vol. 86, Issue 11. -P. 2278-2324.
19. LeCun, Y. Convolutional networks and applications in vision / Y. LeCun, K. Kavukcuoglu, C. Farabet. // International Symposium on Circuits and Systems. - Paris: 2010. -P. 253-256.
20. Bolotova, Yu.A. Analysis of hierarchically-temporal dependencies for handwritten symbols and gesture recognition / Yu.A. Bolotova, V.G. Spitsyn // 7th International Forum on Strategic Technology (IFOST-2012), Tomsk. - 2012. -Vol. 1. - P. 596-601.
Сведения об авторах
Спицын Владимир Григорьевич, 1948 года рождения, в 1970 году окончил Томский государственный университет по специальности «Радиофизика и электроника», профессор, д.т.н., профессор Национального исследовательского Томского политехнического университета. Область научных интересов: нейронные сети, обработка изображений, распространение электромагнитных волн в случайно-неоднородных средах.
E-mail: [email protected] .
Болотова Юлия Александровна, 1986 года рождения, в 2009 году окончила Томский политехнический университет по специальности «Программное обеспечение вычислительной техники и автоматизированных систем», к.т.н., доцент кафедры вычислительной техники Томского политехнического университета. Область научных интересов: обработка изображений, распознавание образов, биологически-подобные алгоритмы.
E-mail: [email protected] .
Фан Нгок Хоанг, 1983 года рождения, в 2008 году окончил государственное образовательное учреждение высшего профессионального образования «Иркутский государственный технический университет», к.т.н., зам. декана факультета информационных технологий, Университет Ба Риа-Вунг Тау, Вьетнам. Область научных интересов: обработка изображений, вейвлет-преобразования, нейронные сети, распознавание образов.
E-mail: hoangpn285@gmail. com .
Буй Тхи Тху Чанг, 1984 года рождения, в 2009 году окончила государственное образовательное учреждение высшего профессионального образования «Томский политехнический университет», к.т.н., зав. кафедрой вычислительной техники факультета информационных технологий, Университет Ба Риа-Вунг Тау, Вьетнам. Область научных интересов: обработка изображений, вейвлет-преобразования, нейронные сети, распознавание образов. E-mail: trangbt. [email protected] .
Поступила в редакцию 3 февраля 2016 г. Окончательный вариант - 16марта 2016 г.
USING A HAAR WAVELET TRANSFORM, PRINCIPAL COMPONENT ANALYSIS
AND NEURAL NETWORKS FOR OCR IN THE PRESENCE OF IMPULSE NOISE
V.G. Spitsyn 1,Yu.A. Bolotova 1, N.H. Phan 2, T.T.T. Bui 2 1 Tomsk Polytechnic University, Tomsk, Russia, 2 Ba Ria-Vung Tau University, Vietnam
Abstract
In this paper we propose a novel algorithm for optical character recognition in the presence of impulse noise by applying a wavelet transform, principal component analysis, and neural networks. In the proposed algorithm, the Haar wavelet transform is used for low frequency components allocation, noise elimination and feature extraction. The principal component analysis is used to reduce the dimension of the extracted features. We use a set of different multi-layer neural networks as classifiers for each character; the inputs are represented by a reduced set of features. One of the key features of the proposed approach is creating a separate neural network for each type of character. The experimental results show that the proposed algorithm can effectively recognize the characters in images in the presence of impulse noise; the results are comparable with ABBYY FineReader and Tesseract OCR.
Keywords: optical character recognition; wavelet transform; principal component analysis; neural networks.
Citation: Spitsyn VG, Bolotova YuA, Phan NH, Bui TTT. Using a Haar wavelet transform, principal component analysis and neural networks for OCR in the presence of impulse noise. Computer Optics 2016; 40(2): 249-257. DOI: 10.18287/2412-6179-2016-40-2-249-257.
References
[1] Bolotova YuA, Druki AA, Spitsyn VG. License plate recognition with hierarchical temporal memory model. Proceedings of 9th International Forum on Strategic Technology (IFOST-2014). Chittagong: CUET; 2014: 121-124.
[2] Bolotova YuA, Spitsyn VG, Rudometkina MN. Lisence plate recognition algorithm on the base of connected components method and hierarchical temporal memory model. Computer Optics 2015; 39(2): 275-280.
[3] Bolotova YuA, Kermani AK, Spitsyn VG. Colored background symbols recognition on the base of hierarchical temporal memory model with Gabor filter preprocessing [In Russian]. Electromagnetic Waves and Electronic Systems 2012; 17(1): 14-19.
[4] Kazanskiy NL, Popov SB. The distributed vision system of the registration of the railway train. Computer Optics 2012; 36(3): 419-428.
[5] Izotov PY, Sukhanov SV, Golovashkin DL. Technology of implementation of neural network algorithm in cuda environment at the example of handwritten digits recognition. Computer Optics 2010; 34(2): 243-251.
[6] Breuel TM, Ul-Hasan A, Azawi MAl, Shafait F. High-Performance OCR for Printed English and Fraktur using LSTM Networks. Proc. of 12th International Conference on Document Analysis and Recognition 2013: 683-687.
[7] Helinski M, Kmieciak M, Parkola T. Report on the comparison of Tesseract and ABBYY FineReader OCR engines. Technical report. Poznañ, Poland: Poznañ Supercomputing and Networking Center; 2012.
[8] Mori Sh, Suen ChY, Yamamoto K. Historical review of OCR research and development. Proceedings of the IEEE 1992; 80(7): 1029-1058.
[9] Smith R. An overview of the Tesseract OCR Engine. Proceedings of 9th International Conference on Document Analysis and Recognition (ICDAR2007) 2007; II: 629-633.
[10] Krupin A. ABBYFineReader: View from Inside [In Russian]. Source: (http://www.3dnews.ru/software/632560/).
[11] Breuel TM. The OCRopus Open Source OCR System Tech. Proceedings of SPIE 2008; 6815: 68150F.
[12] Mehdi L, Solimani A, Dargazany A. Combining wavelet transforms and neural networks for image classification. In: 41st Southeasten Symposium on System Theory. Tullahoma, TN, USA; 2009: 44-48.
[13] Bui TTT, Phan NH, Spitsyn VG. Face recognition using Viola-Jones method, wavelet transforms and pricipal component analysis [In Russian]. Bulletin of the Tomsk Polytechnic University 2011; 320(5): 54-59.
[14] Turk MA, Pentland AP. Face Recognition Using Eigenfaces. Proc IEEE 1991: 586-591.
[15] Luk'janica AA, Shishkin AG. Digital video processing [In Russian]. Moscow: ISS Press; 2009.
[16] Spitsyn VG, Tsoy YuR. Intelligent systems. Tomsk: Tomsk Polytechnic University Press; 2012.
[17] Haykin S. Neural Networks: A Comprehensive Foundation Second Edition [In Russian]. Moscow: Wiliams Publishing; 2006.
[18] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient based learning applied to document recognition. Proceedings of the IEEE 1998; 86(11): 2278-2324.
[19] LeCun Y, Kavukcuoglu K, Farabet C. Convolutional networks and applications in vision. International Symposium on Circuits and Systems. Paris; 2010: 253-256.
[20] Bolotova YuA, Spitsyn VG. Analysis of hierarchically-temporal dependencies for handwritten symbols and gesture recognition. Proceedings of the 7th International Forum on Strategic Technology (IFOST-2012) (Tomsk) 2012; 1: 596-601.
Authors' information
Vladimir Grigorievich Spitsyn (b. 1948) graduated from Tomsk State University in 1970, Radio-Physics department. He works as the Professor of Tomsk Polytechnic University. His research interests are currently focused on neural networks, image processing, and electromagnetic wave propagation in random discrete media. E-mail: [email protected] .
Yuliya Alexandrovna Bolotova (b. 1986) graduated from Tomsk Polytechnic University in 2009, PhD, associate professor of Computer Science department of Tomsk Polytechnic University. Her research interests are image processing, object recognition, biologically-inspired models. E-mail:[email protected] .
Ngoc Hoang Phan (b. 1983) graduated from Irkutsk State University in 2008, PhD, Deputy Dean of Information Technology faculty, Ba Ria-Vung Tau University, Vietnam. His research interests are currently focused on image processing, wavelet-analysis, neural networks, image recognition. E-mail: [email protected] .
Thi Thu Trang Bui (b. 1984) graduated from Tomsk Polytechnic University in 2009, PhD, head of the Computer Science department, Information Technology faculty, Ba Ria-Vung Tau University, Vietnam. Her research interests are currently focused on image processing, wavelet-analysis, neural networks, image recognition. E-mail: trangbt. 084@gmail. com .
Received February 3, 2016. The final version - March 16, 2016.