Метод классификации гистограмм для фильтрации спам-изображений

Лыфарь Д.А.; Коробицын В.В.

УДК 004.492.3

МЕТОД КЛАССИФИКАЦИИ ГИСТОГРАММ ДЛЯ ФИЛЬТРАЦИИ СПАМ-ИЗОБРАЖЕНИЙ

Д.А. Лыфарь, В.В. Коробицын

A method for fast classification of spam images based on using machine learning AdaBoost classifier for color and grayscale image histograms is presented. False positives and false negatives are evaluated. Suggestions about using the method as a filter in real antispam engine are given.

1. Введение

Современные методы фильтрации спама основываются не только на анализе содержимого тела письма, поскольку методы рассылки спама совершенствуются. Даже человек по содержанию письма не сразу способен отличить спам-сообщения от обычных писем. Так, если раньше простейший фильтр Байеса, предложенный в 2002 году Полом Грэмом [1], позволял существенно снизить объем спама с очень низким количеством позитивных промахов, то в настоящее время этого недостаточно. Существует множество способов для спам-сообщений обойти фильтрацию фильтром, работающим на основе анализа текстового содержимого письма. К их числу относятся: рассылка спам-сообщений с графическими вложениями; сообщений, тело которых содержит не рекламный текст, а представляет собой обычное письмо с ссылками на рекламные сайты. В последнее время участились случаи взлома злоумышленниками сайтов, IP адрес которых имеет хорошую репутацию, и помещении страниц на взломанный сайт, в которых содержится перенаправление (redirect) на рекламный. Далее в спам-сообщение вставляется подобная ссылка, которая не проходит ни фильтрацию по содержимому, ни фильтрацию по IP/URL. Выявление подобных атак возможно сводится к постобработке данных письма и обучении антиспам-базы.

В данной статье рассмотрен вид графических спам сообщений и предложен метод их фильтрации.

2. Характерные признаки спам-изображений

Характерным примером графического спама может служить изображение, приведенное на рисунке 1а. Для фильтрации подобных изображений обычно приме-

Омский государственный университет.

E-mail: dlyfar@gmail.com

няется метод оптического распознавания символов. Примером применения подобного метода фильтрации может служить известный сервис почты gmail |2|. Однако оптическое распознавание требует много вычислительных ресурсов и становится неэффективным, когда изображение пропускается через ряд графических фильтров с целью искажения. Так же подобные фильтры обычно натренированы на распознавание ограниченного множества языков |3|.

Ну<)госо(1оне $6.42 АтЬ|«п $2.78

ЦеуЙТд $2,64

ра1в $2,7В

Хэпах $2.09

5ота $1.17

We Ship WorldWide feel free to order now!

We Gurantec 100% top Quality of All Product;

a) 6)

Рис. 1. Изображения: а) спам, б) обычное

Предлагаемый метод работает вне зависимости от языка или степени искаженное™ текста. Стоит заметить, что этот метод фильтрации может быть использован в качестве основной оценки, однако чтобы снизить число изображений, которые распознаны неверно — необходимо подкрепить результат фильтра рядом других признаков, говорящих о принадлежности письма к классу спам-сообщений (например, фильтрация но IP из заголовка письма).

Заметим, что в отличие от нормального изображения в снам-изображепии большую часть занимает текст. Если построить grayscale гистограмму дня обычного и снам-изображепий станет очевидным их различие но распределенности компонент па гистограмме (при построении гистограмм использовалось число корзин В=64). На рисунке 2 заметно, что у типичного спам-изображения присутствует несколько ников, в то время как у обычного изображения компоненты гистограммы распределены равномерно (см. рис. 3). Это один из признаков, который будет учитываться в принятии решении о классификации данного изображения.

Фильтрация па основании данных grayscale гистограммы особенно эффективна, когда снам-изображепие содержит в себе в основном текст. Те снам-изображепия, в которых присутствует не только текст, лучше поддаются классификации па основании данных цветовых гистограмм (в RG или HV-нрострапстве). Мы считаем изображение спамом, когда оба классификатора имеют этот результат, чтобы уменьшить число позитивных промахов. Позитивным промахом (false positive) принято считать ситуацию, в которой классификатор ошибочно считает нормальное письмо спамом, негативным промахом (false negative) принято считать классификацию спама как нормального изображения.

14000 12000 10000 8000 6000 4000 2000

0

0 2 4 6 3 10 12 14161320 22 2426 23 30 32 34 36 33 4042 44 4643 50 52 54 56 53 60 62 1 3 5 7 Э 11131517 13212325 2729 3133 353739 414345 47 4951 53 55 57 59 61 63

Рис. 2. Grayscale гистограмма для спам-изображения

3. Классификация изображений

В этой работе мы использовали классификатор AdaBoost. Сначала мы должны обучить классификатор уже известным нормальным и снам-изображениям, чтобы сформировать базу данных изображений, на основании которой будут делаться предположения о классе данного изображения. Алгоритм работы AdaBoost подробно описан в |4|, здесь мы приводим лишь краткое описание. Этот алгоритм был успешно использован во многих областях, в частности дня задачи поиска лиц на изображении.

Требуется построить классифицирующую функцию F : X ^ У, где X -пространство векторов признаков (в нашем случае это данные grayscale и цветовых гистограмм), У - пространство меток классов (в нашем случае это два класса: снам- и нормальное изображение). Пусть в пашем распоряжении имеется обучающая выборка (x1,y1),(xn,yn), оде xi G X — вектор признаков, а yi G У — метка класса, к которому принадлежит Xj. Далее в статье мы будем рассматривать задачу с двумя классами, то есть У = { —1;+1}, Также v нас есть семейство простых классифицирующий функций H : X ^ У. Мы будем строить финальный классификатор в следующей форме:

M

F(x) ^ ^ amhm(x) ■ (1)

m=0

Построим итеративный процесс, где па каждом шаге будем добавлять повое слагаемое

fm amhm(x) j (2)

вычисляя его с учётом работы построенной части классификатора (f0, f1,..., fn-1). Приведем псевдокод алгоритма AdaBoost:

7000

6000

5000

4000

3000

2000

1000

1 3 5 7 9 11 131517 19 2123 25 27 29 3133 35 37 39 4143 4547 49 5153 55 57 596163 0 2 4 6 3 10121416 13 2022 24 26 23 30 32 34 36 33 4042 44 46 43 50 52 54 56 53 60 62

Рис. 3. Grayscale гистограмма для обычного изображения

1. Пусть задана обучающая выборка (х1,у\),..., (хм,ум) и распределение весов ^(г) = 1/Ы.

2. Для каждого шага т = 1, 2,... ,М выполнить:

а) выбрать наилучший для текущего распределения Бт (г) слабый классификатор Нт(х) € Я по формуле

N

Нт = а^ шт 6] = V" Вт(г)[уг = Н(хг)];

Н, £П *—'

i= 1

б) вычислить коэффициент ат = Мок( £т);

2 ^т

в) запомнить /т(х) = атНт (х) и обновить распределение

Бт(г) ехр(-атУгНт(хг))

Dm+1 (i)

Zm

где Zm — нормирующий коэффициент, обеспечивающий выполнение

N

условия ^2 Dm+1(i) = 1.

i=1

3. Составляем итоговый классификатор:

F(x) =

M

fm(x)

m=1

4. Результаты эксперимента

Мы использовали реализацию алгоритма AdaBoost из открытой библиотеки opencv. В качестве набора для обучения было использовано 946 нормальных изображений и 825 спам-изображений. Полученный классификатор работал на реальном потоке электронных сообщений одного из провайдеров Европы, результаты потока помогли составить приблизительную оценку эффективности этого метода. Как уже было сказано выше, под эффективностью метода фильтрации понимается процент позитивных (FP) и негативных (FN) промахов. Эксперименты показали, что эффективность предсказания зависит от числа корзин (В=64 — это эмпирически подобранное значение, с дальнейшим ростом В эффективность метода практически не изменялась), от размера изображения (все изображения приводились к размеру 512x512 пикселей). Результаты показали FP = 0.014 и FN = 0.12 для 100 изображений из потока. При этом были выявлены следующие преимущества и недостатки метода.

Преимуществами можно считать высокую производительность и низкий FP

использующих алгоритмы распознавания текста. Достаточно низкий процент FP

и в качестве основного во время спам-атак для писем, содержащих только изображения и пришедших с белых IP-адресов,

FN

определяет некоторый набор изображений как спам: сканированные документы, изображения из новостных рассылок. Фильтр слабо реагирует на те рекламные изображения, где большую площадь занимает изображение, идентичное нормальному,

5. Заключение

Представленный метод фильтрации писем целесообразно использовать в цепочке фильтров антиспам-системы для фильтрации спам-изображений. Так как сегодня спам-атаки, содержащие изображения, время от времени представляют собой достаточно высокий процент писем, данный фильтр является оптимальным выбором с точки зрения производительности и качества. Чтобы уменьшить число позитивных промахов, целесообразно будет использовать фильтр в качестве дополнительного при оптическом распознавании символов в той ситуации, когда фильтр классифицирует сообщение как спам.

Литература

1. Graham, P. A Plan for Spam [Электронный ресурс] / P. Graham. - Режим доступа: http://www.paulgraham.com/spam.html (2.10.2009).

2. Gmail uses Google’s innovative technology to keep spam out

of your inbox [Электронный ресурс] - Режим доступа:

http://www.google.com/mail/help/fightspam/spamexplained.html (3.10.2009).

3. Tesseract-ocr - Project Hosting on Google Code [Электронный ресурс] - Режим доступа: http://c0de.g00gle.c0m/p/tesseract-0cr/ (3.10.2009).

4. Sochman, J., Matas, J. AdaBoost [Электронный ресурс] / J. Sochman, J. Matas. -Режим доступа: http://cmp.felk.cvut.cz/ sochmjl/adaboost^talk.pdf (3.10.2009).

5. Херн, Д., Бейкер, М.П. Компьютерная графика и стандарт OpenGL. - М.: Издательский дом «Вильямс», 2005.

Метод классификации гистограмм для фильтрации спам-изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лыфарь Д. А., Коробицын В. В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лыфарь Д. А., Коробицын В. В.

Текст научной работы на тему «Метод классификации гистограмм для фильтрации спам-изображений»