Научная статья на тему 'Анализ дефектов и подбор параметров в алгоритмах обработки изображений текстов'

Анализ дефектов и подбор параметров в алгоритмах обработки изображений текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
209
32
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Южиков Владимир Сергеевич

При построении систем обработки изображений часто возникает проблема выбора алгоритма обработки, оценки его эффективности и подбора оптимальных параметров. В статье описана техника сравнения общей эффективности работы алгоритмов на примере задачи очистки изображений старопечатных текстов. Проанализированы отдельные подзадачи процесса очистки, показаны возможные варианты их решения, а также продемонстрированы преимущества и недостатки каждого из вариантов. Для отдельных параметров алгоритмов проведен анализ зависимости качества очистки от их значения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ дефектов и подбор параметров в алгоритмах обработки изображений текстов»

УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Том 149, кн. 2

Физико-математические пауки

2007

УДК 519.688

АНАЛИЗ ДЕФЕКТОВ И ПОДБОР ПАРАМЕТРОВ В АЛГОРИТМАХ ОБРАБОТКИ ИЗОБРАЖЕНИЙ ТЕКСТОВ

B.C. Южиков

Аннотация

При построении систем обработки изображений часто возникает проблема выбора алгоритма обработки, оценки его эффективности и подбора оптимальных параметров. В статье описана техника сравнения общей эффективности работы алгоритмов па примере задачи очистки изображений старопечатных текстов. Проанализированы отдельные подзадачи процесса очистки, показаны возможные варианты их решения, а также продемонстрированы преимущества и недостатки каждого из вариантов. Для отдельных параметров алгоритмов проведен анализ зависимости качества очистки от их значения.

Введение

Коночной целыо задач реставрации и восстановления изображений является повышение качества изображения в некотором заранее определенном смысле. При восстановлении делается попытка реконструировать или воссоздать изображение, которое до этого было искажено, используя некоторую информацию о явлении, вызвавшее ухудшение изображения. В случае с реставрацией изображений старопечатных текстов и рукописей таких искажающих факторов, как правило, достаточно много старение бумаги, появление различных пятен, проступание текста с обратной стороны листа, наложение шума при оцифровке и т. д. Все это делает задачу комплексного восстановления таких изображений весьма нетривиальной.

Алгоритмы обработки изображений текстов (например, алгоритмы реставрации старопечатных текстов [1, 2]) практически всегда содержат ряд настраиваемых параметров. От их значений зависит степень эффективность обработки изображений. Возникает вопрос, как можно найти такие значения, которые будут являться оптимальными (либо достаточно близкими к оптимальным) для решения конкретной задачи. Чтобы объективно оценивать результаты работы алгоритма, необходимо иметь исходное загрязненное изображение и некий эталон для количественного сравнения степени очистки изображения. Это можно было бы сделать, выполнив очистку вручную (например, используя графический редактор Adobe Photoshop). Однако этот процесс весьма трудоемок, и к тому же результат будет зависеть от субъективных представлений человека, реставрирующего изображение. Поэтому в данной работе предложен подход, основанный на моделировании изображения. В работе будут рассматриваться старинные рукописи XVIII века.

1. Модель процесса искажения

Пусть на вход подается полутоновое изображение f (x, y). Дальнейшие рассуждения могут быть использованы также и для цветных изображений путем последовательного применения всех действий к каждому цветовому каналу. Шум обозначим через n(x, y) • Тогда искаженное изображение g(x, y) может быть представлено

в пространственной области в виде:

g(x,y) = h{x,y) х /(x,y) + n{x,v), (!)

где h(x, y) - функция, представляющая искажающий оператор в пространственной х

ний. Из известно [3. с. 529]. что свертка в пространственной области эквивалентна умножению в частотной области, поэтому формула (1) может быть переписана соответствующим образом в частотной области:

G(u, v) = H(y, v)F(u, v) + N(u, v),

где обозначенные большими буквами функции являются Фурье-образами соответствующих функций в (1).

Конечной целыо задачи реставрации является построение некоторого приближения /'(x, y) (либо F'(x,y) в частотной области), максимально похожего на исходное изображение. Такой подход обычно включает использование некоторых критериев качества или метрик, которые дают возможность объективно оценить полученный результат. Подобных метрик разработано достаточно много. Рассмотрим основные метрики.

2. Основные метрики качества

PSNR [4]. Стандартная метрика, которую часто используют на практике, называется мерой отношения сигнала к шуму (peak-to-peak sigrial-to-rioise ratio PSNR):

2552nm

d(f,g) = 101og10 -,

E (/(x,y) - g(x,y))2

x=1,y=1

где / - исходное изображение, g - искаженное изображение, n - ширина изобра-m

Она, по сути, аналогична среднеквадратичному отклонению, однако пользоваться ей несколько удобнее за счет логарифмического масштаба шкалы. Ей присущи те же недостатки, что и среднеквадратичному отклонению, а именно добавление к исходному изображению небольшой (от 1 до 3) константы в виде:

g(x,y) = / (x,y) + C

дает в итоге большие значения метрики d(/, g), хотя визуально изображение осталось прежним, так как небольшое увеличение яркости всего изображения визуально практически незаметно.

Такой же результат дают и некоторые другие метрики, основанные на анализе отклонения значений яркости соответствующих пикселей.

MSAD. Значением данной метрики является усреднённая абсолютная разность значений яркости в соответствующих точках сравниваемых изображений. Эта метрика используется, например, для отладки кодеков или фильтров:

n,m

Е |/(x,y) - g(x,y)| d(f,g) =х-—--.

Сигнал X

Сигнал Y '

SSIM Index

Рис. 1. Блок-схема алгоритма вычисления значения SSIM Index

SSIM Index.

Для задачи сравнения оценки качества изображения желательно использовать такие метрики, которые учитывают психофизические особенности зрительной системы человека. Одной из таких метрик является SSIM Index (Structural SIMilarity Index), предложенная в работе [5]. SSIM Index основывается на замере трёх компонент (на сходности по яркости, по контрасту и структурного сходства) и объединении их значений в итоговый результат. На рис. 1 показана блок-схема алгоритма вычисления значения этой метрики.

Первым этапом является определение среднего значения яркости изображения, которое вычисляется по формулам:

1

N, M

V

NM ^ '

i=1,j=1

'i,j >

Vy

1

N, M

NM S i=1, j=1

yi,j,

пиксели изображения Y, N - ширина

где Хг^ - пиксели изображения X, Уг,з изображения, М - высота изображения.

Функция сравнения яркости двух изображений 1(Х, У) будет функцией от цх и цу. Далее найденные средние значения вычитаются из значений яркости пикселей соответствующих исходных изображений. Таким образом, мы получаем изображения, нормализованные по яркости:

Х ' Хг,0 = Хг>^ — Цх, У : уг,з = уг,з — цу,

где г = з = 1 ,...,М.

В качестве значение контраста изображения используется формула стандартного отклонения:

Ox =

1

N, M

(N - 1)(M - 1)

i=1,j = 1

N, M

(N - 1)(M -1) i=1j=1

(yi,j - Vy)2.

Функция сравнения контраста двух изображений с(Х, У) - это функция двух переменных ах и ау . Далее изображения X' и У' нормализуются по контрасту путем деления яркости их пикселей па соответствующие значения ах и ау . Функция

160

B.C. южиков

Video Measure Files: lighthouse vs. lighthouse_1 Frame: 0

YYUV-SSlM; 0.90

Исходное

Обработанное

SSM

Рис. 2. Демонстрация метрики S SIM Index

сравнения текстурного (структурного) сходства s(X,Y) определяется на основе полученных изображений, нормализованных по яркости и контрасту.

И наконец, три функции сравнения объединяются в одну итоговую метрику:

S(X, Y) = /(1(X, Y), c(X, Y), s(X, Y)).

Более подробное описание метрики SSIM Index приведено в работе [5]. На рис. 2 продемонстрирован результат работы этой метрики. Слева показано исходное изображение. в середине обработанное (искаженное), справа представлено распределение значения SSIM Index по всему изображению. Для построения этого распределения все изображение делилось на квадратные области размером 5 на 5 пикселей, и в каждой из них считалось значение метрики, нулевому значению ставился в соответствие черный цвет, единичному белый цвет. Далее полученное изображение сглаживалось для более наглядного отображения.

В данной работе оценки качества реставрации строились с применением указанной метрики. Использовалась программная реализация MSU Quality Measurement Tool [4].

3. Удаление цифрового шума

Основной источник шума на цифровом изображении это сам процесс получения (оцифровки изображения). Работа сенсоров сканера/фотоаппарата зависит от различных факторов, таких как внешние условия в процессе съемки и качество сенсоров. На величину шума влияют в основном такие факторы, как уровень освещенности и температура сенсоров. В данной работе предполагается, что шум не коррелирован с исходным изображением и является аддитивным. Вначале рассмотрим изображение, искаженное только шумом, тогда формула (1) будет иметь

д(х,у) = / (х,у) +

Значения п(х, у) могут рассматриваться как случайные величины с некоторым распределением. В силу физических причин работы сенсора ПЗС генерируемый им шум является гауссовым и. соответственно, имеет функцию плотности, которая задается следующим выражением:

1 (-(г -

р(г) = . ехр '

v7^ V 2 а2

где z - значение яркости, ^ — среднее значение случайной величины z, а -ее срсднсквадратичсское отклонение.

Как ужо было сказано выше, параметры шума меняются в зависимости от внешних факторов. В случае цифрового шума, как правило, среднее значение ^ равно нулю, а среднеквадратическое отклонение а зависит от освещенности при съемке и от температуры сенсора. В итоге имеем один параметр, характеризующий шум. Возникает проблема, как оценить а на реальных изображениях. Если на изображении присутствуют достаточно большие области с однородной яркостью, то можно довольно точно измерить все необходимые параметры. На изображениях старопечатных текстов, казалось бы, есть такие области бумага, но при детальном изучении оказывается, что на бумаге присутствует фактура, обусловленная технологией ее изготовления. В терминах полиграфии такая фактура бумаги называется шероховатостью. Она напрямую характеризует микрорельеф поверхности бумаги и измеряется в микрометрах [6]. Для той технологии изготовления бумаги, которая существовала в момент написания рукописей XVIII века, характерно высокое значение шероховатости порядка 200 мкм (для современных сортов бумаги оно составляет 2 10 мкм). Фактура на оцифрованном изображении, как правило, представляет собой небольшие флуктуации яркости основного фона. Отличием фактуры от шума является то, что она имеет зерно. Все это сильно усложняет автоматическую оценку параметров шума. Приходится либо использовать усредненные типовые значения параметров, либо использовать адаптивные алгоритмы шумоподавления.

Алгоритмы шумоподавления обычно предназначены для подавления какого-то конкретного вида шума. Не существует пока универсальных фильтров, детектирующих и подавляющих все виды шумов. Однако многие шумы можно довольно хорошо приблизить моделью белого гауссовского шума, поэтому большинство алгоритмов ориентировано на подавление именно этого вида шума. Основная проблема при пространственном шумоподавлении заключается в том, чтобы не испортить четкость краев предметов на изображении, а также мелкие детали, соизмеримые по амплитуде с шумом, в данном случае это фактура бумаги и мелкие элементы букв.

4. Сравнение алгоритмов шумоподавления

Для оценки эффективности алгоритмов шумоподавления согласно методике, предложенной ранее в [7], предлагается использовать пару «загрязненное изображение эталонное очищенное изображение». С помощью алгоритмов, описанных в [7], моделируется (генерируется) изображение, максимально похожее на оцифрованное изображение страницы с бумагой среднего качества без загрязнений, которое будет эталоном. После этого на полученное изображение накладывается аддитивный гауссов шум.

Таким образом, мы получаем загрязненное изображение, которое имитирует реальную текстовую страницу с шумом, внесенным на этапе оцифровки. Далее «загрязненное изображение» подается на вход алгоритма шумоподавления с текущими параметрами, затем запускается процесс очистки и полученное изображение сравнивается с эталонным по значению метрики SSIM Index.

Сравним два алгоритма для удаления шума усредняющий фильтр и метод, предложенный в [7] и основанный на преобразовании Фурье (в дальнейшем будем называть его фильтром Фурье).

Основная идея первого фильтра усреднять значения пикселей в пространственной окрестности. Для каждого пикселя анализируются соседние для него пиксели, которые располагаются в некотором прямоугольном окне вокруг этого пикселя. Чем больше взят размер окна, тем сильнее происходит усреднение.

Рис. 3. Вид передаточной функции H(u, v)

Самый простой вариант фильтрации в качество нового значения центрального пикселя брать среднее арифметическое всех тех его соседей, значение которых отличается от значения центрального не более чем на некоторый порог. Чем больше величина этого порога, тем сильнее происходит усреднение.

Поскольку качество такого фильтра оказалось недостаточно хорошим (размывались резкие границы и мелкие детали), был разработан фильтр на основе преобразования Фурье. Процедура фильтрации состоит из следующих шагов.

1. Исходное изображение умножается на ( — 1)x+y, чтобы его Фурье-преобразование оказалось центрированным.

2. Вычисляется прямое дискретное преобразование Фурье (ДПФ) F(u, v) изображения. полученного после шага 1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Функция F(u, v) умножается та функцию фильтра H(u, v).

4. Вычисляется обратное ДПФ от результата шага 3.

5. Выделяется вещественная часть результата преобразования.

6. Полученный результат умножается на ( — 1)x+y для восстановления изображения после центрирования на шаге 1.

Основная трудность описанной выше процедуры состоит в выборе передаточной H(u, v)

жониом:

тг, л i0, (u,v) ^ а,

[1, (u,v) > а,

где а задает пороговое значение частот, которые будут удаляться. Графически H(u, v)

Однако такая передаточная функция имеет некоторые недостатки, а именно при увеличении радиуса отсечения на изображении появляются ложные контуры. От этого недостатка свободна передаточная функция Баттерворта [3, с. 317]:

Hiii.v) =-к—,

1 + [F(u,v)M2n'

где а - радиус, n - порядок передаточной функции.

Экспериментально было установлено, что наилучшие результаты получаются при использовании функции Баттерворта третьего порядка.

а

ющего фильтра, на рис. 5 - для фильтра Фурье при дисперсии шума D = 3px (небольшой шум). На рис. 6 и 7 показаны зависимости метрики SSIM от величины а при дисперсии шума D = 4.5px (средний шум) для усредняющего фильтра и фильтра Фурье соответственно. Случай большого шума не рассматривался, по-

D

Рис. 4. Зависимость метрики 881М от а для усредняющего фильтра при дисперсии шума Б = 3рх

Рис. 5. Зависимость метрики 881М от а для фильтра Фурье при дисперсии шума Б = 3рх

На приведенных рисунках хорошо видно, что при малых значениях радиуса а график достаточно пологий. Далее идет быстрое возрастание значения метрики ББЕМ, особенно хорошо это видно на рис. 4. Данное явление объясняется тем, что при малых размерах окна эффективно удаляется шум, при этом практически не искажаются фактура бумаги и начертание букв. Но при возрастании а, когда его значение становится сравнимым с размером зерна бумаги, фактура начинает удаляться вместе с шумом. Для некоторых случаев реставрации такой «побочный» эффект является вполне приемлемым, но в общем случае это недопустимо, так как нарушается исходная постановка задачи (реставрация это процесс построения изображения, максимально приближенного к первоначальному).

а

большая потеря качества, что и отражено на правой части графиков. Кроме того,

Рис. 6. Зависимость метрики 881М от а для усредняющего фильтра при дисперсии шума Б = 4.5 рх

Рис. 7. Зависимость метрики 881М от а для фильтра Фурье при дисперсии шума Б = = 4.5 рх

хорошо видно, что фильтр Фурье является более предпочтительным с точки зрения эффективности удаления шума, так как в меньшей степени вносит дополнительные искажения.

Для случая более сильного шума (рис. 5, 6) вид графиков меняется: появляются четко выраженные минимумы. Это объясняется тем, что при малых радиусах а (как для усредняющего фильтра, так и для фильтра Фурье) подавление шума становится недостаточным. При дальнейшем увеличении радиуса фильтров качество

а

затрагиваться фактура бумаги, что приводит к ухудшению общего качества по метрике ББЕМ.

Для вычисления статистической погрешности построенных графиков и усрод-

а

с помощью варьирования параметров алгоритма генерации, описанного в [9], было

получено по 15 изображений для каждого метода. Затем вычислялись усредненные графики, соответствующие каждому методу (для случая слабого и сильного шумов).

Максимальное отклонение значения ББЕМ составило 11% (относительно усредненного значения по всей выборке).

Для улучшения эффективности перебора параметров используем метод деформируемого многогранника. Данный метод состоит в том. что для минимизации функции «переменных / (ж) в п-мерном пространстве строится многогранник, содержащий (п + 1) вершину. В данном случае целевой функцией является значение метрики ЭЭШ, в качестве элементов вектора ж берется множество подбираемых параметров. Очевидно, что каждая вершина соответствует некоторому вектору ж. Вычисляются значения целевой функции / (ж) в каждой из вершин многогранника, определяются максимальное из этих значений и соответствующая ему вершина ж [Л.]. Через эту вершину и центр тяжести остальных вершин проводится проецирующая прямая, па которой находится точка ж[д] с меньшим значением целевой функции, чем в вершине ж[Л] (рис. 8). Затем исключается вершина ж [Л]. Из оставшихся вершин и точки ж[д] строится новый многогранник, с которым повторяется описанная процедура. В процессе выполнения данных операций многогранник изменяет свои размеры, что и обусловило название метода.

Рис. 8. Геометрическая интерпретация метода деформируемого многогранника Введем следующие обозначения:

где г = 1,..., п +1; к = 0,1,..., — г-я вершина многогранника на к-м этапе поиска; ж [Л, к] - вершина, в которой значение целевой функции максимально, то есть /(ж[Л, к]) = шах{/(ж[1, к]),..., / (ж[п + 1, к])}; ж[1, к] - вершина, в которой значение целевой функции минимально, то есть /(ж[1, к]) = шш{/(ж[1, к]),..., /(ж[п + 1, к])}; ж[п+2, к] — центр тяжести всех вершин, за исключением ж [Л, к]. Координаты центра тяжести вычисляются по формуле

Алгоритм метода деформируемого многогранника состоит в следующем. 1. Осуществляют проецирование точки ж [Л, к] через центр тяжести:

ж[п + 3, к] = ж[п + 2, к] + а (ж[п + 2, к] — ж [Л, к]),

где а > 0 - некоторая константа. Обычно а = 1.

5. Подбор оптимальных параметров

ж[г, к] = (ж1 [г, к], . .., ж^ [г, к], .. ., ж„[г, к])Т ,

166

B.C. южиков

2. Выполняют операцию растяжения вектора x[n + 3, k] — x[n + 2, k]:

x[n + 4, k] = x[n + 2, k] + y (x[n + 3, k] — x[n + 2, k]),

где y > 1 _ коэффициент растяжения. Наиболее удовлетворительные результаты получают при 2.8 < y < 3.

Если f (x[n + 4, k]) < f (x[/,k]), то x[h, k] заменяют на x[n + 4, k] и продолжают вычисления с п. 1 при k = k +1. В противном случае x[h, k] заменяют на x[n + 3, k] и переходят к п. 1 при k = k + 1.

3. Если f (x[n + 3, k]) > f (x[i, k]) для всех i, не равных h, то сжимают вектор x[h, k] — x[n + 2, k] :

x[n + 5, k] = x[n + 2, k] + в (x[h, k]--x[n + 2, k]),

где в > 0 — коэффициент сжатия. Наиболее хорошие результаты получают при 0.4 < в < 0.6.

Затем точку x[h, k] заменяют на x[n + 5, k] и переходят к п. 1 при k = k + 1.

4. Если f (x[n + 3, k]) > f (x[h, k]), то все векторы x[i, k] — x[/, k], i = 1,..., n +1, уменьшают в два раза:

x[i, k] = x[/, k] + 0.5 (x[i, k] — x[/, k]) .

Затем переходят к п. 1 при k = k + 1.

Условием выхода будет выполнение следующего условия:

n n

max (xj [i, k] — Xj [n + 2, k])2 < ^^ e2,

j=i j=1

где e = (e1,..., en) - заданный вектор точности.

С помощью операции растяжения и сжатия размеры и форма деформируемого многогранника адаптируются к топографии целевой функции. В результате многогранник вытягивается вдоль длинных наклонных поверхностей, изменяет направление в изогнутых впадинах, сжимается в окрестности минимума, что определяет эффективность рассмотренного метода.

Заключение

В работе представлена методика подбора оптимальных параметров для алгоритмов обработки изображений сканированных страниц. Приведены практические результаты на примере алгоритма очистки изображений старинных книг и рукописей. Предложенный метод позволяет автоматизировать процесс подбора, повысить качество работы алгоритмов обработки, а также дает возможность проанализировать особенности их поведения при разных наборах параметров. Рассмотрены основные метрики, применяющиеся для оценки качества изображения. Выбранная метрика SSIM Index, основанная на психофизических особенностях зрительной системы человека, показала хорошие результаты. Ее значение достаточно хорошо согласуется с оценкой качества, сделанной человеком.

Описанная методика также может быть использована для определения оптимальных параметров в других областях обработки изображений, имеющих дело с документами и допускающих модель эталонного изображения. Для этого требуется сформировать модель изображения и составить список предполагаемых дефектов.

Summary

V.S. Yuzhikov. The delects analysis and parameters selection in processing algorithms for image of old-printed text.

The choice of appropriate processing algorithm and its optimal parameters is one of the common problem in building image-processing systems. The article presents the technique of efficiency comparison of image-processing algorithms 011 the example of old-printed texts images clearing. Individual sub-cleaning process problems, their possible solutions and advantages and disadvantages of each method have been analyzed. The dependency of image-processing quality 011 certain algorithm certain parameters has been examined.

Литература

1. Ю-жлжов B.C. Обработка изображений старопечатных и рукописных текстов // Тр. Казан, школы по компьютерной и когнитивной лингвистике TEL-2004. Казань: Отечество. 2004. С. 161 168.

2. Ramponi С., Stanco F. Digital Automated Restoration of Manuscripts and Antique Printed Books // Proc. EVA-2005. Florence, 2005. P. 78.

3. Гоиеалее P. Цифровая обработка изображений. M.: Техносфера, 2005. 584 с.

4. MSU Quality Measurement Tool [Электронный ресурс]. MSU Graphics & Media Lab. 2005. Режим доступа: http://compression.ru/video/quality_measure/ video_measurement._t.ool.html, свободный.

5. Wang Z. Image quality assessment: from error visibility to structural similarity // IEEE Trans. Image Process. 2004. V. 13, No 4. P. 600 612.

6. Масеаич А.Ц., Савельев E.A., Багажжов А.К. К созданию электронных коллекций старопечатных книг в библиотеке Российской академии паук: па примере работы над двумя проектами // Тр. копф. «Новые технологии в информационном обеспечении пауки». М.: Виоипформсервис, 2001. С. 132 140.

7. Соловьев В.Д., Ю-жлжов B.C. Автоматический подбор оптимальных параметров для алгоритмов обработки изображений старинных текстов // Тр. 8-й междупар. копф. « Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-8-2007). Йошкар-Ола, 2007. С. 120 124.

8. Грузмап И.С., Киричук B.C., Косых В.П., Перетягип Г.И., Спежтор А.А. Цифровая обработка изображений в информационных системах. Новосибирск: Изд-во НГТУ, 2000. 371 с.

9. Yuzhikov V. Testing method for image restoration algorithms comparing // Proc. of 7t.li Open German/Russian Workshop 011 Pattern Recognition and Image Understanding (OGRW-7-2007). Ettlingen, Germany, 2007. P. 97 101.

Поступила в редакцию 12.09.07

Южиков Владимир Сергеевич аспирант кафедры теоретической кибернетики Казанского государственного университета. E-mail: Y- VladiinirQyandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.