Научная статья на тему 'Адаптивный метод обнаружения текстовых зон в видеопотоке на основе яркостных карт'

Адаптивный метод обнаружения текстовых зон в видеопотоке на основе яркостных карт Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
253
40
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зотин Александр Геннадьевич

Рассмотрены вопросы, связанные с обнаружением текстовых зон в видеопотоке. Приведен пример обработки на основе контурных изображений и спектральных характеристик изображения. Проанализирована возможность применения различных пространственных фильтров. Приведены алгоритмы формирования масок.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The adaptive method of text zones detection in a videostream based on brightness maps

The questions of text zones detection in a videostream are considered. The example of processing based on edge detection and spectral characteristics of the image are presented. The opportunity of application of various spatial filters is analyzed. Algorithms of masks formation are presented.

Текст научной работы на тему «Адаптивный метод обнаружения текстовых зон в видеопотоке на основе яркостных карт»

8. Бабкин, Е. В. Анизотропия магнитокалорического эффекта в ферромагнитных кристаллах / Е. В. Бабкин, X. О. Уринов // Физика твердого тела. 1990. Т. 32. Вып. 7. С. 2025-2028.

9. Ивановский, В. И. Магнитокалорический эффект кобальта в области полей вращения / В. И. Ивановский // Физика металлов и металловедение. 1959. Т. 7. С. 29-39.

10. Бабкин, Е. В. Тепловые и диэлектрические свойства кристалла магнетита вблизи перехода Вервея / Е. В. Бабкин // Физика твердого тела. 1987. Т. 29. Вып. 1. С. 226-228.

11. Бабкин, Е. В. Магнитокалорический эффект в одноосных ферромагнетиках в области ориентационного фазового перехода / Е. В. Бабкин, О. А. Яровая // Физика твердого тела. 1993. Т. 35. Вып. 4. С. 1101-1104.

12. Babkin, E. V. Unisotropy magnetocaloric effect in thin magnetic films / E. V. Babkin, Kh. O. Urinov // Sov. Phys. J. 1989. Vol. 32. P. 889-902.

13.Бабкин, Е. В. Магнитокалорический эффект в тонких магнитных пленках / Е. В. Бабкин, X. О. Уринов // Физика твердого тела. 1987. Т. 29. № 1. С. 236-288.

14. Бабкин, Е. В. Термомагнитные явления в пленках с поверхностной анизотропией / Е. В. Бабкин, X. О. Уринов // Физика твердого тела. Т. 32. N° 9. С. 2623-2626.

15. А. с. 1746161 РФ. Рабочее тело магнитной холодильной машины / Е. В. Бабкин, X. О. Уринов. Опубл. 8.03.92.

16. Brown, С. Magnetic heaf pumping near room temperature / С. Brown // J. Appl. Phys. 1981. Vol. 21. P. 579-584.

17. Rosenblum, S. A continuous magnetic refregerator operaiting near room temperature / S. Rosenblum, W. Steyert, W. Praff Prepr. NLa-6581, Uc. 38. Los Alamos : University of California, 1986. 16 p.

18. Бабкин, Е. В. Магнитное охлаждение композиционного ферромагнетика / Е. В. Бабкин, Г. И. Баринов, X. О. Уринов // Письма в Журн. техн. физики. 1991. Т. 17. С. 10-12.

E. V. Babkin

MAGNETOCALORIC EFFECT IN THE MAGNETOORDERING CRYSTALS. PROBLEMS AND PERSPECTIVES OF APPLICATIONS

We present the theory of the magnetocaloric effect in the cubic, unaxial and polycrystallic ferromagnetics taken into account rotation of magnetic moment. We discussed questions of the creating new magnetic refrigerators.

Принята к печати в январе 2006 г.

УДК 681.3

А. Г. Зотин

АДАПТИВНЫЙ МЕТОД ОБНАРУЖЕНИЯ ТЕКСТОВЫХ ЗОН В ВИДЕОПОТОКЕ НА ОСНОВЕ ЯРКОСТНЫХ КАРТ

Рассмотрены вопросы, связанные с обнаружением текстовых зон в видеопотоке. Приведен пример обработки на основе контурных изображений и спектральных характеристик изображения. Проанализирована возможность применения различных пространственных фильтров. Приведены алгоритмы формирования масок

При обнаружении текстовой информации в видеопотоке возникают два аспекта, связанные с временной и пространственной обработкой данных. Пространственные фильтры производят обработку пикселей по каждому отдельному кадру (изображению), временные же фильтры ведут обработку пикселей, используя данные последовательности кадров. В большинстве существующих алгоритмов первым применяется пространственный фильтр, поскольку после его работы процедура обнаружения движения во временном фильтре становится проще и точнее и, как следствие, временное шумоподавление становится более эффективным. Но обратный порядок применения этих фильтров также имеет свои преимущества: временной фильтр, как правило, понижает общий уровень шума и предотвращает излишнее размытие, характерное для любого пространственного фильтра. Поскольку текстовые зоны (титры, бегущая строка, банеры и т. п.) появляются на экране в течение нескольких секунд, то одинаковый текст должен размещаться на нескольких последовательных кад-

рах. Для этого случая целесообразно выбрать следующую последовательность работы фильтров: в начале применяется временная частичная фильтрация, а затем - пространственная фильтрация.

Получение данных может происходить двумя путями: открытием файла, содержащего видеопоток, или получением данных с внешнего источника. Роль внешнего источника могут выполнять ТВ-тюнер, платы видеомонтажа или устройства, использующие универсальные порты ввода для цифровой видеоаппаратуры. После получения данных из видеофайла, когда производится считывание нескольких кадров, происходит их декодирование, в результате чего создаются цветовые матрицы. В свою очередь при получении информации с внешнего источника данные формируются в виде цепочки кадров и преобразуются в соответствующий формат, понятный для восприятия с точки зрения программной реализации. После этого генерируются цветовые матрицы, представляющие собой внутренний формат данных, с которыми и ведется дальнейшая работа.

Если изображение или видеопоследовательность были получены с помощью оцифровки аналогового сигнала, то на них, как правило, присутствуют шумы различного характера. При декодировании кадров видеопоследовательности также возникают дефекты изображения (в основном это дефекты, связанные с размытием цветов, а также блочная структура изображения, которая зависит от степени его сжатия).

Источники шума могут быть следующими:

- неидеальное оборудование для захвата изображения (видеокамера, сканер и т. п.);

- плохие условия съемки (например, сильные шумы, возникающие при ночной фото- и видеосъемке);

- помехи при передаче по аналоговым каналам (наводки от источников электромагнитных полей, собственные шумы активных компонентов (усилителей) линии передачи);

- искажение данных при их передаче через цифровые каналы или повреждение информации на носителе;

- неточности при выделении яркостного и цветоразностных сигналов из аналогового композитного сигнала ит. п.

Шумы также бывают различных видов, к самым распространенным из которых относятся следующие:

- белый шум - сигнал, отсчеты которого не коррелируют друг с другом. Его разновидность является белый гауссовский шум, который возникает, в частности, при плохих условиях приема сигнала и описывается следующей функцией плотности распределения амплитуд:

p(d) =

1

л/2ру

каждому отдельному кадру (изображению). А временные фильтры ведут обработку пикселей, используя данные последовательности кадров. На практике обычно используется сочетание пространственного и временного методов шумоподавления - так называемый 3D-фильтр.

Для решения проблемы фильтрации в качестве временной компоненты фильтрации было решено использовать фильтрацию по порогу яркости - пороговую стабилизацию цветов изображения. При стабилизации цветов изображения также возможно формирование так называемых мертвых зон - зон, вероятность содержания текста в которых очень мала.

Для стабилизации изображения используется следующее решение. При рассмотрении последовательности кадров выбирается первый кадр, который считается ключевым и формируется матрица яркости С(1, у). Затем анализируется последовательность кадров за сравнительно небольшой промежуток времени (2.. .5 кадров). Для каждого вновь поступающего кадра фоновое изображение корректируется в соответствии с формулой

с„м('> ]) + Я, если у > С„ (г, /) - С оМ (г, /) > д,

С„е„Д J)--

У > Coid (i, j) - C„ (г, j) > Д

где d - амплитуда шума; о - параметр распределения;

- импульсный шум - случайные изолированные точки на изображении, значения которых значительно отличаются от значений окружающих их точек. Обычно он возникает при передаче по аналоговым каналам;

- цветные пятна, характерные для аналогового сигнала (к примеру, присутствуют в видеоизображении, оцифрованном с носителя стандарта VHS);

- биение пикселей - области, точки в которых имеют произвольное значение в связи с ошибкой декодирования.

К менее распространенным видам шумов можно отнести шум, вызываемый помехами в электросети. и вертикальные царапины, характерные для старых черно-белых видеозаписей и возникающие при механическом повреждении эмульсии на пленке.

Шум в видеопотоке можно условно разделить на временной и пространственный. Временным шумом называют визуальный эффект, возникающий в видео из-за случайного или коррелированного изменения пространственного шума от кадра к кадру. Под временным шумом также понимают любое случайное изменение значений каждого пикселя или группы пикселей во времени, в том числе смену яркости от кадра к кадру. Под пространственным шумом понимают визуальные дефекты, присущие одному рассматриваемому кадру из видеопотока или статическому изображению.

Соответственно фильтры шумоподавления также делятся на пространственные и временные. Пространственные фильтры производят обработку пикселей по

Сом('>j) - Д> £CJ . о

Coid ft j) > £СЛИ | С„ (л j) - Coid (i,j) I < Д

где Cold(i, j) - матрица яркостей точек ключевого кадра; C (i, j) - матрица яркостей точек текущего кадра; C (i, j) - матрица яркостей точек последующего кадра; а - порог изменения яркости; 5 - коэффициент коррекции, рекомендуется выбирать в размере 1.. .2% от динамического диапазона яркости.

В качестве пространственной компоненты фильтрации предложено использовать адаптивный метод на основе яркостных карт. Данный метод использует различные виды пространственных фильтров. При этом адаптивный выбор фильтра заключается в его подборе на основе перепадов в яркостных картах. Разные параметры фильтрации позволяют сделать наибольшее сглаживание в местах, имеющих наименьшую вероятность содержания текста. В качестве пространственных фильтров выступают такие фильтры, как медианный фильтр [1], фильтр Г аусса, фильтр 2D Cleaner Filter by Jim Casaburi (далее по тексту - 2D Cleaner). Рассмотрим принципы работы этих фильтров.

Медианный фильтр реализует нелинейную процедуру подавления шумов. Он представляет собой скользящую по полю изображения нечетную апертуру фильтра. Центральный элемент заменяется медианой всех элементов изображения, попавших в апертуру фильтра. Медианой дискретной последовательностиX = {x1, x , ..., xL} для нечетного L называют такой ее элемент, для которого существуют (L - 1) / 2 элементов, меньших или равных ему по величине, и (L - 1) / 2 элементов, больших или равных ему по величине. Другими словами, медианой является средний по порядку член ряда, получающегося при упорядочении исходной последовательности, например med (20, 10, 3, 7, 7) = 7. В качестве апертуры фильтра выступает апертура адаптивного типа, т. е. вид и размер апертуры выбирается автоматически в зависимости от значений элементов яркостной карты, в области которой ведется обработка.

Функция распределения коэффициентов фильтра Гаусса в одномерном пространстве принимает вид

1

ОС х) = -=-72ру

а в двумерном пространстве - вид

1 -х

2у2

G( x, y) =

2у2

2ру2

Отметим, что для фильтра Гаусса в качестве адаптивной компоненты выступает адаптивный подбор размера апертуры. Также возможен адаптивный выбор характера апертуры (одно- или двумерная) для фильтрации краевых точек изображения.

Работа фильтра 2D Cleaner заключается в том, что каждое значение пикселя изображения рассчитывается с учетом окрестности по формуле

r R = Ch(Ts, r)Л

G = Ch(Ts, r)

B = Ch(Ts, r)

V. /

где P%y - пиксель, с окрестностью которого ведется работа; R, G, B, - значения каналов RGB-спектра; Ts - значение порога характеризующего возможность обработки; r - ранг окрестности (вид окрестности - квадрат со стороной 2 • r + 1); Ch(Ts, r) - функция расчета значения канала в спектре, рассчитываемая по формуле

I ±SV(i, j)

Ch(Ts, r) = ' =r~rj °;r---,

I j)

i=-r j=-r

здесь Sv(i, j) - функция отсечения значения спектра по порогу, Cc(i, j) - функция указания пригодности значения спектра по порогу, определяемые следующим образом:

I svi I • Sv(i,j) = ]g, i

Cc(i, j) =

гели

гели

если

если

svi j < Ts, SVj > Ts,

svi, j < Ts, svi j > Ts.

ных сверток. Обработка изображения с применением фильтров такого рода описывается формулой

m п

спеж И ш = ££ ак ,1 Сом ^ - т /2. ] - п /2].

k=0 I=0

в которой коэффициент а определяет эффект, который накладывает фильтр. а константы т и п задают размер фильтра, обладающ^ двумерной апертурой. При наложении фильтра Лапласа коэффициент а может иметь вид

-1 -1 -1 1 1 1

а = -1 8 -1 , а = 1 -8 1

-1 -1 -1 1 1 1

1 0 0 1

0 -1 , Gy = -1 0

Фильтр Робертса, как показывает практика, является самым простым и самым быстродействующим. Он работает с двумерной апертурой 2 х 2 следующего вида: О D D D ’

где О - пиксель, с которым ведется работа; Б - соседние пиксели.

Операторы Робертса вида

Gx =

используются для расчета значения нового пикселя по формулам

О = ^ Ох2 + Оу2, О = |Ох| + |Ох|.

Фильтр Собела работает с апертурой 3 х 3 следующего вида:

D D D D О D,

D D D

где О - пиксель, с которым ведется работа; Б - соседние пиксели.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Операторы Собела в различных комбинаций:

При экспериментально обоснованном выборе величины порога Ts низкоуровневый шум размывается, а резкие детали остаются практически неизменными. Исходя из этого фильтр 2D Cleaner применяется в областях, где количество перепадов значений элементов в яркостной карте единичного радиуса достаточно высоко.

Адаптивный выбор ранга фильтра возможен и на основе яркостной карты.

Поиск текстовых зон осуществляется следующим образом. Вначале происходит формирование масок на основе контурной характеристики изображения и адаптивного спектрального анализа. Далее происходит совмещение масок и принятие решения. Для выделения контуров, т. е. формирования масок контурного изображения, используются такие фильтры, как фильтр Лапласа, фильтр Робертса, фильтр Собела. Рассмотрим их работу более подробно.

Фильтр Лапласа относится к группе цифровых фильтров с конечной импульсной характеристикой, основанных на теории линейных систем и применении двумер-

1 0 -1 1 2 1

Gxj = 2 0 -2 , Gy1 = 0 0 0

1 0 -1 -1 -2 -1

2 1 0 0 1 2

Gx2 = 1 0 • Gy 2 -1 0 1

0 -1 -2 -2 -1 0

- применяются для расчета значения нового пикселя по формулам

G = ^ Gx2 + Gy2, G = |Gx| + |Gx|.

После получения контурного изображения проводится пороговая бинаризация, где величина порога зависит

от значений яркостной карты (обычно это 15____20 % от

динамического диапазона яркости). Это позволяет сократить малые контурные изменения. После получения бинарного представление контурного изображения возникает необходимость в формировании целостных зон, а также в уменьшении количества незначительных контурных единиц. Для этого целесообразно использовать морфологическую фильтрацию (см. рисунок).

Морфологическая фильтрация построена на выполнения операций раскрытия О (opening) и закрытия С (closing):

O( A, B) = A oB = D( E і A, B), B), C і A, B) = A • B = E і D( A, B), B).

В ходе проведения операции раскрытия происходят следующие действия: сначала сужение Е (erosion), потом расширение D (dilation). Применение этой операции позволяет убирать выступы на границах объектов. А в ходе проведения операции закрытия действия происходят в обратной последовательности: сначала расширение, потом сужение. Сужение представлено формулой

D( A, B) = U і A + в),

вєБ

а расширение - формулой

E і A, B) = 1 {A-в).

вєB

Применение операции раскрытия позволяет заполнять отверстия внутри и на границах объектов.

После проведения морфологической фильтрации, заливая внешнюю область поля в цветовой матрице, полученной путем наложения фильтра выделения границ, черным цветом, мы получаем маску белого цвета, характеризующую некоторые объекты.

Для формирования маски на основе спектральных характеристик изображения целесообразно использовать адаптивную цветовую фильтрацию. Результатом работы фильтра будет выделение зон с цветовыми перепадами. В таких зонах содержание текста будет достаточно высоким, потому что текст, который находится на изображении, обладает тремя цветовыми переходами. Эти переходы условно можно разделить на следующие уровни:

- уровень фона, который характеризуется непостоянным цветовым значением;

- уровень рамки (контура текста), представляющий собой постоянный цвет;

- уровень текста, имеющий постоянный цвет и заведомо отличающийся от цвета контура изображения.

Генерация маски на основе адаптивной цветовой фильтрации происходит следующим образом:

-І,

єсли

єсли

ХCL(x + i, y) < Ts,

і=О

j^CL(x + i, y) > Ts,

где - пиксель, с окрестностью которого ведется работа; су, - цветовое значение пикселя; Ts - значение порога, характеризующего цветовой перепад; п - ранг окрестности, в которой происходит расчет, п = 1.. .4; СЬ(х, у) -функция расчета цветового влияния.

Расчет цветового влияния проводится с использованием матрицы влияния А, которая характеризует распределения весов цветового различия с центральным элементом для линейного поиска участков с цветовыми перепадами, матрицы яркостной разницы Ld и коэффициента усиления Lk, оказывающего влияние на цветовое различие. Введение этого коэффициента связано с тем, что разные цвета могут иметь одинаковую яркость.

Для апертуры 3 х 3 элементы матрицы яркостной разницы вычисляются по яркостной карте следующим образом:

,] = |4,2 — 1,] |,

где I - значение яркости пикселя, I = 0,3 • Яу + 0,59 ■ Оу + 0,11 • Ву, здесь Яу, Оу, Ву - значения цвета в спектре RGB для каждого канала

Функция цветового влияния для апертуры размерностью 3 х 3 вид:

г = 1, у = 1 г = 1, у = 2 г = 1, у = 3

Р = г = 2, у = 1 X, У г = 2, у = 3

г = 3, у = 1 г = 3, у = 2 г = 3, у = 3

рассчитывается по формуле

СЬ(х, у) = X X ьксь^и) св (/, 7) л,.^,

1=1 7=1

где А - матрица влияния размерностью 3 х 3; Lk - коэффициент усиления; Ld - матрица яркостной разницы; СБ(г,у) - функция расчета цветового влияния пикселя Р,. на пиксель Р .

і=О

0000000000000000 0000000000000000 0000000000000000 ООО О Do 0000000000

о о ЦП 0 0000000000 о о о о о о о о о о о оП о о о

000000000 С' ОII С' ООО

000000000 оП 0 0 0 0 0 оооооооо оЦ 0 0 0 0 0 0 ооооооо о|о 0 0 0 0 0 0 о о о о о о о П о о о о о о о о 0 0 0 0 0 0 ПП оооооооо 0 0 0 0 О ВПП С' ооооооо О О О О С О ПППП 0 0 0 0 0 0 0000000000000000 0000000000000000

00000000000 00000 00000000000 00000 ооо ИДИоооооооооо

О 0 fSSfООО иНВЯВ о о

ооооооо ^ИПППП ооо

ООО

ООО

ООО

ООО

ООО

Ц о о о о о о ооооооо

ПП ооооо

Коэффициент усиления k определяется следующим образом:

Lk (ld) =

1,10, гели ld < р,

11П 0,15 (ld -P)

1,10---------=-----=——, гели р < ld < P2,

0,95,

гели ld > P

где Ы - элемент матрицы яркостной разницы; Р1, Р2 -верхнее и нижнее пороговые значения яркости коэффициента усиления.

Функция расчета цветового влияния окружающих пикселей на пиксель Рх по одному цветовому каналу имеет вид:

CDv (i, j) = ■

SVU - SVx, y

SVU - SVx, y

еели

еели

sv < TSv sv > Ts„

Общее значение функции СБ рассчитывается как сумма функций цветового влияния по каждому каналу спектра.

После определения всех зон формируются участки для предварительного анализа. Далее происходит выбор областей, содержащих фрагменты текстовых символов с наибольшей вероятностью. Процесс выбора этих областей происходит по определенным правилам. Основным правилом считается соответствие минимальных размеров для текстовой области, в качестве дополнительных правил могут служить определение плотности распределения блоков внутри области или плотности распределения с учетом весового значения блоков. Если находится хотя бы один блок, удовлетворяющий условиям поиска, то считается, что на данном изображении существует область, вероятность содержания текста в которой очень высока. Таким образом, в случае когда количество областей больше двух, происходит объединение близко расположенных областей. В результате выполнения указанных действий формируются текстовые зоны.

На базе приведенного выше подхода была разработана программная реализации алгоритмов. Разработанное программное обеспечение позволило привести тестиро-

вание комбинаций режимов фильтраций и подбора последовательностей применения фильтров. В ходе проведения экспериментов по формированию масок на основе контурного изображения и спектральных характеристик изображения также определялось количество нахождения несущественных контуров и ложных областей в зависимости от комбинаций режимов фильтрации. Тестирование проводилось на группе видеопоследовательностей, длина каждой из которых составляла не менее 30 000 кадров.

В ходе проведенного тестирования в зависимости от типа видеоисточника была определена наиболее приемлемая последовательности фильтров в адаптивной фильтрации изображения на основе яркостных карт:

- медианный фильтр для малых отклонений (менее 15% на области апертуры);

- фильтр Гаусса для средних отклонений (от 15 до 35 % на области апертуры);

- фильтр 2D Cleaner для значительных отклонений (от 35% и выше на области апертуры).

В результате количество нахождения несущественных контуров сократилось в среднем на 14%, количество нахождения ложных областей уменьшилось в среднем на 18%, а количество потерь полезных контуров стало ниже на 17__25 %

Таким образом, применение адаптивного метода обнаружения текстовых зон в совокупности с адаптивным выбором режимов фильтрации позволяет более точно определять положение текстовых зон в изображениях видеопотока. Это дает преимущество в дальнейшей обработке, состоящее в более точном выделении образов символов в найденных текстовых зонах для их последующего распознавания.

Библиографический список

1. Цифровая обработка изображений в информационных системах : учеб. пособие / И. С. Грузман, В. С. Ки-ричук, В. П. Косых и др. Новосибирск : Изд-во Новосиб. гос. техн. ун-та, 2000.

A. G. Zotin

THE ADAPTIVE METHOD OF TEXT ZONES DETECTION IN A VIDEOSTREAM BASED ON BRIGHTNESS MAPS

The questions of text zones detection in a videostream are considered. The example of processing based on edge detection and spectral characteristics of the image are presented. The opportunity of application of various spatial filters is analyzed. Algorithms of masks formation are presented.

Принята к печати в декабре 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.