Научная статья на тему 'Синтез графического антиспам-фильтра корпоративного почтового сервера'

Синтез графического антиспам-фильтра корпоративного почтового сервера Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
104
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛОКАЛИЗАЦИЯ ТЕКСТОВЫХ БЛОКОВ / РАСПОЗНАВАНИЕ ТЕКСТА / ВЫДЕЛЕНИЕ ТЕКСТОВЫХ БЛОКОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цацорин Евгений Анатольевич

Приведено краткое описание синтезируемого корпоративного антиспам-фильтра. Описан штриховой фильтр и способ его приложения к поиску текстовых блоков на изображении. Предложены два способа ускорения процесса обработки и приведено сравнение штрихового фильтра с другими часто использующимися в современной практике фильтрами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Цацорин Евгений Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Синтез графического антиспам-фильтра корпоративного почтового сервера»

Е.А. Цацорин

СИНТЕЗ ГРАФИЧЕСКОГО АНТИСПАМ-ФИЛЬТРА КОРПОРАТИВНОГО ПОЧТОВОГО СЕРВЕРА

Приведено краткое описание синтезируемого корпоративного антиспам-фильтра. Описан штриховой фильтр и способ его приложения к поиску текстовых блоков на изображении. Предложены два способа ускорения процесса обработки и приведено сравнение штрихового фильтра с другими часто использующимися в современной практике фильтрами.

Ключевые слова: локализация текстовых блоков, распознавание текста, выделение текстовых блоков.

1Эсе большую актуальность в мировой информационной ин-

-Я-Мфраструктуре приобретают веб-службы. В связи с этим возрастает потребность в их анализе, синтезе и оптимизации. Одним из актуальных в настоящее время аспектов проблемы повышения эффективности функционирования веб - служб является борьба со спамом. Увеличение объема спама приводит в возрастанию интенсивности входящей нагрузки на веб-службу и наоборот - эффективная борьба со спамом позволяет снижать такую интенсивность.

Электронная почта представляет собой современное и высокотехнологическое средство коммуникации. В настоящее время этот коммуникационный канал активно используется не только для обмена информацией, но и для продвижения товаров и услуг, в том числе и для проведения массовых анонимных незапрошенных рекламных кампаний (иными словами - для рассылки спама).

Особую сложность для распознавания представляет графический спам, доля которого в общем потоке нежелательных сообщений составляет около 10%.

В этом случае текст пишется на изображениях. Для усложнения процесса распознавания и фильтрации данного вида спама на изображения и(или) текст часто накладываются различные искажения.

Для быстрой локализации текстовых блоков на искаженном изображении предлагается использовать модифицированный алгоритм поиска штрихов [2]. Основные предположения, на которых строится алгоритм следующие:

Рис. 1. Описание прямоугольных регионов штрихового фильтра

• Штрих отличается от своих прилегающих боковых регионов;

• Его прилегающие боковые регионы подобны друг другу;

• Эти регионы примерно однородны.

Для каждого пикселя изображения строится его отображение, при этом в построении участвуют три прямоугольных региона (рис. 1). Центральная точка - это пиксель, для которого строится отображение, вокруг которого расположены три прямоугольных региона. Пусть под номером 1 будет центральный регион, а под номерами 2,3 - боковые прилегающие регионы. Ориентация и размер этих регионов описываются основными параметрами а, 1, w, где а - угол наклона угол наклона прямоугольных областей к горизонтали, 1 - длина прямоугольных областей, w - ширина прямоугольных областей. Задан также интервал W2 между боковыми прямоугольными областями и центральным, так как при сжатии изображения контур текста может оказаться искаженным, либо для того чтобы отделить текст от фона он может быть заключен в темные или светлые контуры (рис. 2).

Результат отображения для каждого пикселя изображения строится согласно:

о

(1)

где ц - рассчитанная средняя величина яркости 1-го региона.

Реакция фильтра пропорциональна сумме модулей |цг- ц2| + |Ц1- ц3| и обратно пропорциональна модулю |ц2- ц3|. о - среднеквадратичное отклонение яркостей пикселей в прямоугольном регионе

1, отражает насколько однородна по яркости область 1. Таким образом чем вероятнее что пиксель (х,у) входит в штрих, тем больше

Рис. 2. Пример текста, заключенного в контур

+■

1

1

о -

Рис. 3. Условия срабатывания штрихового фильтра: определение светлых и темных штрихов соответственно

вычисляемое значение реакции фильтра.

Однако для практического применения формулу реакции фильтра необходимо разделить на две - для поиска светлых штрихов на темном фоне, и для поиска темных штрихов на светлом фоне. Для поиска светлых штрихов реакция

фильтра будет выглядеть следующим образом:

2л1 - 2шах(л2, Л3)

яВаа (х у) =

а

,(Ц > Л2)&(Л > ¡Лз) (2)

Для поиска темных, соответственно:

я°аа (х у ) =

2шт(л2, Лз) - 2Л1

а

, (Л1 ^ Л2 ) & (Л1 ^ Л3 ) (3)

Оба этих фильтра также следует дополнить условиями, когда яркости областей расположены по возрастающей справа налево, либо слева направо:

R а,а(ХУ) = 0,(Л ^ Л ^ Лз) V (Лз ^ Л ^ Л2) (4)

На рис. Рис. 3 показаны условия срабатывания штрихового фильтра для поиска ярких и темных штрихов, номера соответствуют номерам прямоугольных областей, знаки - знакам средних яркостей в этих областях. Осуществляя процесс фильтрации штрихов к любому пикселю изображения можно построить соответствующее отображение:

Яв (х у) = гпгк (X y),

(а,а)

(а )

5 (х у) = argшax Яа а(х у).

(а)

где R,O и S соответственно реакция, ориентация и масштаб штриха.

Важной составляющей для практического применения штрихового фильтра является снижение вычислений, для этой цели используются следующие стратегии:

Краевая предобработка изображения - предполагается, что текстовый блок имеет большое количество резких переходов яркости на краях текста, поэтому штриховой фильтр следует применять лишь на блоках с резкими переходами яркости и соседних. Для нахождения этих блоков используется более быстрый алгоритм Саппу, разработанный Джоном Ф. Кэнни [3].

Быстрое заполнение - как только штриховым фильтром найден пиксель, дающий сильную реакцию фильтра, его вычисленная реакция, ориентация и масштаб присваивается также и его соседям.

Две указанные стратегии позволяют ускорить процесс фильтрации изображения в несколько раз по сравнению с обработкой всего изображения штриховым фильтром (согласно данным, приведенным в работе

[2]), и используются синтезируемом спам-фильтре. После вычисления компонент И,0 и S проводится операция выявления текстовых блоков, которая состоит из следующих этапов:

• Объединение соседних отображений со схожими свойствами в скопления (компоненты), состоящие из координат начала и конца штриха, толщины;

• Определение количества пересечений (связей) компонент в одном регионе и отбор компонент по количеству связей - не менее двух, но не более четырех (с учетом толщины штрихов);

• Маркирование набора близких компонент участком, кандидатом в текстовый блок, отбор и нормализация выборки связанных компонент из каждого участка;

• Предъявление бинарных отображений выборки связанных компонент OCR модулю, подсчет рейтинга кандидата.

По результатам посчитанного рейтинга кандидата в текстовый блок выносится конечное решение - является ли блок текстовым или нет.

После вынесения положительного решения текстовый блок распознается в модуле распознавания и распознанные фразы предъявляются текстовому классификатору и выносится конечное решение о принадлежности изображения к спаму.

В современной практике цифрового распознавания изображений для выделения текстовых блоков чаще всего используются следующие фильтры:

1) Краевой фильтр Кэнни (Canny Edge Detector, Canny 1986)

[3].

2) Фильтр Габора (Gabor filter, Chen et al., 2001).

3) Фильтр с использованием преобразования Хаара для нахождения строк (Haar-like line filter, Lienheart и Maydt, 2002) [4].

4) Фильтр коэффициента краев (Ratio edge filter, Tupin et al., 1998).

5) Штриховой фильтр (Stroke filter, Cheolkon Jung, Qiufeng Liu, Jooungkyu Kim, 2008).

Все вышеперечисленные фильтры основаны на важном свойстве текста - резких перепадах яркости между фоном и текстом на изображении. Сравнительные характеристики фильтров указаны в таблице:

Фильтр Icl Sol s„ HC Rs

Canny X Vх X X 5

Gabor V Vх x X 1

Haar x Vх X X 4

Ratio Vх Vх X X 3

Stroke Vх Vх Vх Vх 4

1с1 - задание интервала между фоном и текстом, Scl - определение разности яркости между фоном и текстом, Sll - определение сходства фона, расположенного под текстовым блоком, Нс - определение яркостной однородности текста, Rs - примерная вычислительная скорость алгоритма.

Задание интервала 1с1 между фоном и текстом необходимо, так как на изображениях с высокой степенью сжатия по краям текста могут появляться артефакты, что может привести к дальнейшим ошибкам распознавания.

Также сравнение фильтров было произведено на вертикальных линиях различной толщины (рис. 4).

Рис. 4 показывает что самый четкий отклик на линии из которых составлен текст дает штриховой фильтр, не указывая при этом на границы перехода условного фона (правая часть картинки).

Рис. 4. Отклики различных фильтров: a - исходное изображение, b - Canny edge filter, c - Gabor filter, d - Haar-like line filter, e - Ratio edge filter, f - Stroke filter

Таким образом, приведенное выше сравнение указывает на возможность применения штрихового фильтра для эффективной локализации и распознавания текстовых блоков как самого одного из самых быстрых и эффективных методов поиска штрихов, составляющих текст.

----------------------------------------------- СПИСОК ЛИТЕРАТУРЫ

1. Методы компьютерной обработки изображений / Под ред. В.А. Сойфера. 2-е изд., испр. — М.: Физматлит, 2003. — 784 с.

2. Cheolkon Jung,Qifeng Liu, Joongkyu Kim - «Pattern Recognition Letters 30 (2009)» 114-122 stroke filter and its application to text localization;

3. Canny, J.F., 1986. A computational approach to edge detection. IEEE Trans. Pattern Analyt. Machine Intell. 8, 679-698

4. Lienhart, R., Maydt, J., 2002. An extended set of Haar-like features for rapid object detection. In: Proc. IEEE Conf. Image Processing, pp. 900-903. nirj=i

КОРОТКО ОБ АВТОРЕ ----------------------------------------------

Цацорин Евгений Анатольевич - факультет магистратуры,

Московский государственный горный университет,

Moscow State Mining University, Russia, [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.