118
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015 № 1 (198). Выпуск 33/1
УДК 004.932.2
О СУБПОЛОСНОМ АНАЛИЗЕ ИЗОБРАЖЕНИЙ1
Е. Г. ЖИЛЯКОВ Н. О. ЕФИМОВ
Белгородский
государственный
национальный
исследовательский
университет
e-mail:
n.o.efimov@gmail.com
Исследование существующих методов распознавания изображений текста позволяет говорить о том, что в общем случае задача решена только для изображений печатного текста. В случае рукописного текста каждое решение является индивидуальным и зачастую требует многочасового обучения либо вмешательства оператора.
В статье предложена новая решающая процедура обнаружения идентичных фрагментов текста по заданному образцу, реагирующая на различия нормированных трансформант Фурье в заданных частотных интервалах. Исследовано поведение решающей функции на искусственно созданных изображениях. Определены вероятности принятия ошибочных решений.
Ключевые слова: обработка изображений, распознавание текстовых и рукописных изображений, субполосный метод, решающая функция, мера близости, трансформанты Фурье.
К настоящему времени накопилось множество цифровых изображений текста: сканированные книги, статьи, журналы, документы, как офисные, так и персональные (например изображения паспорта, ИНН и др). На многих интернет ресурсах, во избежание копирования и плагиата различного рода документов (например дипломных и диссертационных работ), интересующая пользователя информация представляется в формате изображений. Однако, обработка информации, представленной в подобной форме затруднена невозможностью осуществить такие операции, как поиск по тексту, обнаружение и выделение интересующих фрагментов.
Разработанный подход позволяет осуществлять поиск интересующих фрагментов на изображениях текста (в том числе и рукописного). Так, возможно выделить одно слово на изображении и осуществить поиск этого слова по всему документу, не изменяя формат файла. В случае цифрового документооборота, возможно найти все документы, подписанные одним и тем же человеком. Также представленный подход позволяет искать на изображениях заранее заданные слова, для установления его содержания (например для обнаружения пропаганды терроризма, наркотиков и т.д.). Предлагаемый метод прецедентного распознавания фрагментов изображений основан на использовании субинтервальных методов в частотной области [1, 2].
В общем случае, системы распознавания имеют следующую структуру. Входные данные, подлежащие распознаванию, подаются на вход системы и подвергаются предобработке с целью их преобразования в необходимый для следующего этапа вид или для выделения из них необходимых характерных признаков. Далее на этапе принятия решения над обработанным массивом данных производится ряд вычислений и на основе их результатов формируется ответ, содержащий ожидаемые от системы сведения о входных данных. Содержание входных и выходных данных определяется назначением системы.
Цифровое изображение можно определить как двумерную функцию /&, где i=i,2, ...,M; k=i,2,...,N - координаты в пространстве (конкретно на плоскости), а значение f в любой точке, задаваемой парой координат, называется интенсивностью изображения в этой точке.
Частотным представлением функции fk называется следующее выражение [3]:
1 M N
fik XX Fu vj , (1)
4^ u=1v=1
i=i,2,...,M; k=i,2,...,N
1 Исследования проведены в рамках государственного контракта № 14.581.21.0003 с Министерством образования и науки РФ и при поддержке Государственного задания НИУ «БелГУ» (код проекта № 358)
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015. №1 (198). Выпуск 33/1
119
где j — мнимая единица (j2 = -1), аргументы и и v — пространственные частоты, отражающие периодичность (цикличность) изменений исходной функции fk с изменением аргументов i и k.
Частотной областью называется координатная система, задающая соответствие между аргументами F(u,v) и частотными переменными и и v [4,5].
Прямоугольную область размера М х N, задаваемую при и = о, 1, 2, ..., M - 1 и v = 0, 1, 2, ..., N - 1, принято называть частотным прямоугольником. Частотный прямоугольник имеет те же размеры, что и исходное изображение.
Так как изображение является функцией не времени, а координаты, используется термин пространственные частоты (волновые числа), которые подразумеваются под словом «частота» далее по тексту.
В качестве весовой функции F(u,v) можно использовать трансформанту Фурье:
M N
F(u,v) = ЕЕ f,ke ~ju(h1>e --чкА 1 , (2)
i=1 к=1
где i=1,2,...,M; k=1,2,...,N
Величины F(u,v) в уравнениях (1), (2) принято называть коэффициентами разложения Фурье.
На основе равенства Парсеваля [5] энергию изображения можно представить в виде суммы:
M N 1 * 2 R R
ЕЕ fik =— №(j, v)| dudv = е Е Por
i=1 к=1
4П
r=1m=1
-n
(3)
где значение доли энергии
Q:
Pq двумерного сигнала
ftk в двумерной частотной области
PQr,m = -^2 Я \F(j’Vf djdV
4П juVU
(4)
где интервалы Qrr определяют разбиение частотной области на интервалы.
Qrr : {®(u,v) \(j e [о1 ,0 r J v e [71, Yr V u (j e [o1 ,0 r 1v e [- Yr ~Y\ ]) U u(je [-0r ,-01J v e [-Yr ,-71 ]) U (ue [-Or,-01J ve [71, Jr]) },
Одна из проблем дискретного преобразования Фурье - приближенное нахождение доли энергии в некотором частотном интервале. В данном случае оно строится, как сумма дискретных значений, попадающих в интервал, что приводит к неточным результатам.
В связи с этим для нахождения точных значений долей энергии изображений в заданных частотных интервалах в работах [1, 6, 7, 8] был разработан и исследован следующий субинтервальный метод.
Если в правую часть представления (4) подставить определение (2), то после преобразований можно получить соотношение [6]:
(м Y n 11
(5)
M ( N (M 1 ( N
Pq= Е Е Е ai1i2f \k1 bk1k^/i'2k2
h = 4 k1=i 4i1=1 ) чk2=1 ))
где
rSin(a2 (ij - i2))- Sin{al (ix - i2)) *(ix - i'2) ’
h ^ i2,
“lu =
<
a -a
h = h>
(6)
n
120
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015 № 1 (198). Выпуск 33/1
bkik2 '
Sin{p2 (ki — k2)) — Sin{px k - к2))
р2 - Pi
п
п(к1 —к2) к1 = k 2-
ki ^ k 2 ’
(7)
Введем матрицы А=(аш2) и B=(bklk2), размерности MxM и NxN, в соответствии с выражениями (3, 4). Матрицы А и В, в соответствии с определением, данным в работах [1, 2, 6, 7], называются субполосными матрицами.
Тогда, выражение (5) позволяет записать формулу вычисления точных значений энергии р дискретного двумерного сигнала Ф в частотной двумерной области Q, используя матричные обозначения, в следующем виде:
PQ= trec(A -Ф-B -ФТ), (8)
где Ф - исходное изображение, А и В - субполосные матрицы.
Соотношение (8) определяет метод субинтервальной обработки изображений на основе частотных представлений и позволяет для нахождения точных значений энергии двумерного сигнала в любой частотной двумерной области построить вычислительную процедуру, не вычисляя при этом трансформанту Фурье.
Концептуальные основы процедуры идентификации фрагментов изображений текста.
Исходные условия: На изображении текста Ф0, размерностью MxN выделяется прямоугольная область ФР, размерностью MPxNP, которая в дальнейшем именуется эталонным фрагментом (индекс p здесь означает прецедент).
Далее из изображения Ф0 определенным образом формируется множество фрагментов Фк, размерностью МРхЫР,где k-количество полученных фрагментов, каждый из которых необходимо сопоставить с прецедентом. В случае изображений с текстом процедура поиска фрагментов заключается в перемещении маски по строкам текста, с шагом в 1 пиксель.
На исходном изображении Ф0 необходимо найти идентичные фрагменты. Для сопоставления фрагментов Фк с эталоном ФР необходимо иметь решающую функцию, которая задает меру идентичности, значения которой вычисляются по значениям пикселей в сравниваемых фрагментах. Область значений решающей функции, используемой в данной работе — положительные вещественные числа.
Исходная гипотеза Но имеет вид: сравниваемые фрагменты идентичны. Для проверки гипотезы используется решающая функция. Гипотеза отвергается, когда значение решающей функции больше порога, величина которого выбирается исходя из требования обеспечения заданного уровня вероятности ошибок первого рода (ложных тревог). Решающая функция должна отвечать принципу максимизации вероятности правильного принятия противоположной гипотезы, когда она верна (минимизации вероятности ошибок второго рода).
Рис. Множество значений гипотетической решающей функции. Штрихпунктирной линией обозначено пороговое значение
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015. №1 (198). Выпуск 33/1
121
Для определения порога необходимо провести предварительное обучение системы, превышение порога свидетельствует о неидентичности сравниваемых объектов. Обучение проводится на основе единственного образца, который искусственно трансформируется в соответствии с возможными реальными трансформациями.
Решающая функция на основе субполосной меры близости спектров двумерных дискретных сигналов.
В качестве решающей функции предлагается использовать расстояние между нормированными спектрами в заданном частотном интервале:
S„
55.
»e.Q
р(» ) F2(ala2 )
l
рФр
rm
у[РФ,
d> da2 =
Я.
»e.Q
Fl(ala2) 2 _ 2 Fl(ala2)F2(ala2) | F2(ala2) 2
JP^
V rm
yjpl’P?
rm rm
d> da2
(9)
2
где F, F2 - трансформанты Фурье эталонного и сравниваемого объектов соответственно,
рфр =
1 rm
tr(АгфрВт фТр )
(10)
рфк 1 rm
tr (АФА ФТ )
(11)
Где Аг, Bm-субполосные матрицы, элементы которых вычисляются согласно выражениям (6)(7)
В основе этой меры используются нормированные субполосные коэффициенты корреляции в частотном интервале:
Р
pk
rm
2п
Я ^”2 )F2 >>2 ) d^^
a>m2^Q лРФр рФк
i 2 v rm 1 rm
(12)
Для сопоставления фрагментов цифровых изображений в данной работе используется мера близости следующего вида:
где
нтов.
s
pk
rm
1
R 2 R 1
2(—- yl о -ppm))
RR
■2 j=1 i=1
(13)
p
pk
rm
tr (АгФрВтФтк)
Ip0? рФк
\jp rm 1 rm
(14)
Выражение 8 является используемой в данной работе мерой идентичности фрагме-
Также, для проведения сравнительного анализа, предлагается использовать относительную евклидову норму S с коэффициентом а:
8
YYФ - Ф)
i=1 к=1__
££ф p
pik
i k
2
M N
(15)
где Фpik - эталонный фрагмент;
Фkik- фрагмент, сравниваемый с эталоном; a - коэффициент, который вычисляется:
122
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015 № 1 (198). Выпуск 33/1
Основная гипотеза (Но -выполнении неравенства:
a
Ф p,t
i k
ЕЕФ 2 pk
(16)
ik
сравниваемые фрагменты идентичны) отвергается при
5
pk
rm
> К
(17)
где hp - граница критической области, которая определяется на этапе обучения.
Для изучения предлагаемой решающей функции был проведен ряд экспериментов, наиболее значимые из результатов представлены ниже.
Эксперимент 1.
Целью вычислительного эксперимента является исследование эффективности разработанного алгоритма для изображений разного размера.
Таблица1
Значения вероятности ошибок первого и второго рода при распознавании объектов с использованием субполосной меры близости на текстовых изображениях различных размеров
Размер изображения
1000x714 900x638 800x567 700x500 600x428 500x354 400x283
Вероятность ошибки первого рода 0 0 0 0 0 0.02 0
Вероятность ошибки второго рода 0 0 0 0 0 0 0
Таблица 2
Значения вероятности ошибок первого и второго рода при распознавании объектов с использованием евклидовой нормы с коэффициентом на текстовых изображениях различных размеров
Размер изображения
1000x714 900x638 800x567 700x500 600x428 500x354 400x283
Вероятность ошибки первого рода 0 0 0.02 0.02 0.02 0.02 0.02
Вероятность ошибки второго рода 0 0.0003 0.0003 0.001 0.0012 0.002 0.03
Из таблицы 1 видно, что предлагаемый субполосный метод инвариантен к изменению размеров изображения текстового фрагмента, и используемого шрифта. При использовании евклидовой нормы вероятность ошибок второго рода выше, так как данная мера идентичности зачастую относит фрагменты, соседние с эталонным к заданному классу.
Эксперимент 2. Целью вычислительного эксперимента является исследование эффективности предлагаемого метода для эталонных фрагментов разной длины.
Таблица 3
Значения вероятности ошибок первого и второго рода при распознавании объектов различной длины с использованием субполосной меры
близости на текстовых изображениях
Эталонный фрагмент
ф фр фра фраг фрагм фрагмент
Вероятность ошибки первого рода 0.0067 0 0 0 0 0
Вероятность ошибки второго рода 0 0 0 0 0 0
Для субполосной меры близости в результате прецедентного распознавания буквы ф было обнаружено 150 объектов из 151. 100 объектов в составе слова «фрагмент», и 50 в сос-
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015. №1 (198). Выпуск 33/1
123
таве других слов. В результате прецедентного распознавания эталона «фр» было обнаружено 106 объектов из 106. 100 объектов в составе слова «фрагмент», и 6 в составе других слов.
Таблица 4
Значения вероятности ошибок первого и второго рода при распознавании объектов различной длины с использованием евклидовой нормы с коэффициентом
Эталонный фрагмент
ф фр фра фраг фрагм фрагмент
Вероятность ошибки первого рода 0.14 0.09 0.09 0.07 0.01 0
Вероятность ошибки второго рода 0.17 0.32 0.45 0.5 0.17 0.32
Мера близости, основанная на относительной евклидовой норме с коэффициентом менее эффективна, если эталонный фрагмент имеет малый размер (например одна буква), что подтверждается высокой вероятностью ошибок первого и второго рода (таблица 4).
Эксперимент 3. Целью вычислительного эксперимента является исследование решающей функции при обработке изображений рукописного текста.
Таблица 5
Вероятности ошибок первого и второго рода для разных значений порога.
Используется субполосная мера близости. Прецедентом является первый фрагмент. max-наибольшее значение эталонной выборки для данного фрагмента.
Общее число фрагментов равно 1 308 150
Численное значение порога
max 0.984*max 0.872*max 0.96*max 0.936*max 0.904*max 0.88*max
Количество отнесенных к заданному классу объектов 6888 4335 2919 2020 952 346 165
Количество верно отнесенных объектов (всего 82 объекта) 82 81 78 77 68 48 39
Количество неверно отнесенных объектов 6788 4254 2841 1943 884 298 126
Вероятности ошибки первого рода 0 0.012 0.048 0.06 0.17 0.41 0.524
Вероятность ошибки второго рода 0.0053 0.00325 0.00217 0.00149 0.00068 0.00023 0.0001
Таблица 6
Вероятности ошибок первого и второго рода для разных значений порога. Используется евклидова норма с коэффициентом. Прецедентом является первый фрагмент. max-наибольшее значение эталонной выборки для данного фрагмента.
Общее число фрагментов равно 1 303 400
Численное значение порога
max 0.984*max 0.872*max 0.96*max 0.936*max 0.904*max 0.88*max
Количество отнесенных к заданному классу объектов 407882 386689 371550 342469 329655 296956 275574
Количество верно отнесенных объектов (всего 82 объекта) 82 80 79 78 74 70 61
Количество неверно отнесенных объектов 407800 386609 37147 342391 329581 296886 275513
Вероятности ошибки первого рода 0 0.02 0.04 0.05 0.1 0.15 0.26
Вероятность ошибки второго рода 0.31 0.295 0.284 0.26 0.251 0.226 0.21
124
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2015 № 1 (198). Выпуск 33/1
На основании представленных в таблицах 5 и 6 данных, можно сделать следующие выводы: задача распознавания фрагментов рукописного текста является более трудоемкой, нежели задача распознавания печатного текста. Разработанный алгоритм, использующий субполосную меру близости показывает меньшие ошибки первого и второго рода, чем относительная евклидова норма. Относительная евклидова норма с коэффициентом подвержена ошибкам второго рода.
Проведенные исследования позволяют говорить о высокой эффективности предлагаемого метода прецедентного распознавания изображений сканированного печатного текста, что подтверждается данными из раздела. Предлагаемый алгоритм инвариантен к изменению размеров изображения текстового фрагмента, и используемого шрифта; осуществляет распознавание эталонных фрагментов с близкой к нулю вероятностью ошибок первого и второго рода. В условиях интенсивного зашумления исходного изображения и неискаженного эталона алгоритм превосходит человеческие возможности.
В том случае, если на вход системы распознавания подается изображение сканированного рукописного текста возникают ошибки первого и второго рода. Это связано с особенностями написания слов. В процессе письма изменяется угол написания, нажим, ширина слов, этим и объясняются ошибки алгоритма. Возможно достижение лучшего результата, на изображениях рукописного текста, при проведении дальнейших исследований.
Литература
1. Жиляков, Е. Г., Черноморец А.А. Вариационные алгоритмы анализа и обработки изображений на основе частотных представлений: [Моногр] /- М.: ГиК, 2009. - 146 с.
2. Жиляков, Е.Г. Метод определения точных значений долей энергии изображений в заданных частотных интервалах / Е.Г. Жиляков, А.А. Черноморец, И.В. Лысенко - М.: Вопросы радиоэлектроники, 2007. - Вып. 4. - С.115-123.
3. Семенов, Ю.А. Алгоритмы телекоммуникационных сетей. В 3 частях. Часть 1. Алгоритмы и протоколы каналов и сетей передачи данных [Текст] / Ю.А. Семенов. - М.: Бином. Лаборатория знаний, 2007. - 640 с.
4. Рабинер, Л. Теория и применение цифровой обработки сигналов [Текст] / Л. Рабинер, Б. Гоулд. - М.: Мир, 1978.
5. Сергиенко, А.Б. Цифровая обработка сигналов [Текст] / А.Б. Сергиенко. - СПб.: Питер, 2002. - 603с.
6. Жиляков, Е.Г. Частотный анализ речевых сигналов / Е.Г. Жиляков, Е.И. Прохоренко /
М.: Научные ведомости Белгородского государственного университета, 2006. - №2 (3.118), выпуск
3. - С. 201-208. - (Серия: информатика и прикладная математика).
7. Черноморец А.А., Иванов О.Н. Метод анализа распределения энергий изображений по заданным частотным интервалам // Научные ведомости БелГУ. Серия: История. Политология. Экономика. Информатика. 2010. 8. Черноморец А.А., Жиляков Е.Г., Голощапова В.А., Болгова Е.В. Оценка эффективности субполосного внедрения данных в изображение // Научные ведомости БелГУ. Серия: История. Политология. Экономика. Информатика. 2014. №8-1 (179).
8. Черноморец А.А., Жиляков Е.Г., Голощапова В.А., Болгова Е.В. Оценка эффективности субполосного внедрения данных в изображение // Научные ведомости БелГУ. Серия: История. Политология. Экономика. Информатика . 2014. №8-1 (179).
ABOUT SUBBAND IMAGE ANALYSIS
Е. G. ZHILYAKOV E. N. EFIMOV
Belgorod state
national-research
university
e-mail:
n.o.efimov@gmail.com
The research of existing methods of identification scanning text images allow to draw a conclusion, what in general case problem solve only for printed text images. In case of handwritten text each solution is individual, and frequently need a long time education or operator inspection.
In the article introduce new decision procedure of precedential identical fragment detection, which react on normalized Fourier transform differences in defined frequency slots. The behavior of decision function was researched on the artificial image. Probability of erroneous decision-making was evaluated. In comparison with Euclidean norm, substrip measure have a greater reactivity by similar variability.
Key words: image processing, identification images of printed and handwritten text, substrip method, decision procedure, measure of proximity, Fourier transform.