Научная статья на тему 'Методы обнаружения писем-трансформеров'

Методы обнаружения писем-трансформеров Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
72
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАМ / КОРПУСНАЯ ЛИНГВИСТИКА / ФИШИНГ / ФИЛЬТРАЦИЯ / КАТЕГОРИЗАЦИЯ ТЕКСТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ермакова Лиана Магдановна

Проведен анализ сообщений-трансформеров. Предложены методы детектирования писем-трансформеров, устойчивые к небольшим изменениям текста и темы сообщения. Особо рассматривается проблема обнаружения намеренно искаженных фрагментов. Достоинством контентного подхода является его универсальность, так как он не опирается на служебную информацию и применим к классификации документов не только в электронной почте, но и в системах мгновенного обмена сообщениями, блогах, форумах, социальных сетях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы обнаружения писем-трансформеров»

ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА

2011 Математика. Механика. Информатика Вып.2(6)

ИНФОРМАТИКА. ИНФОРМАЦИОННЫЕ СИСТЕМЫ

УДК 004.912

Методы обнаружения писем-трансформеров

Л. М. Ермакова

Пермский государственный университет, Россия, 614990, Пермь, ул. Букирева, 15 [email protected]; (342) 2-396-164

Проведен анализ сообщений-трансформеров. Предложены методы детектирования писем-трансформеров, устойчивые к небольшим изменениям текста и темы сообщения. Особо рассматривается проблема обнаружения намеренно искаженных фрагментов. Достоинством контентного подхода является его универсальность, так как он не опирается на служебную информацию и применим к классификации документов не только в электронной почте, но и в системах мгновенного обмена сообщениями, блогах, форумах, социальных сетях.

Ключевые слова: спам; корпусная лингвистика; фишинг; фильтрация; категоризация текстов.

Введение

Рассмотрим понятие спама и дадим обзор способов фильтрации. В настоящее время существуют две группы спам-фильтров: техники, базирующиеся на тестовых выборках, и мониторинг почтового потока [1]. Актуальными являются методы улучшения сигнатурного подхода [1]. В рамках исследования было проведено сравнение спама на русском, английском и французском языках. Частично были рассмотрены также рассылки на испанском и итальянском языках. Проведен анализ сообщений-трансформеров. Предложен метод обнаружения писем-трансформеров, не зависящий от языка и устойчивый к небольшим изменениям текста и темы сообщения.

1. Понятие спама, эволюция спам-рассылок и методов борьбы с ними

Лаборатория Касперского дает следующее определение спама:

© Л. М. Ермакова, 2011

Спам - это анонимные незапрошенные массовые рассылки электронной почты [2].

Специалисты Лаборатории Касперского подсчитали, что в последнем квартале 2010 г. спам составил 77,1% в общем почтовом трафике [3]. Кроме того, отмечается, что российские спамеры стали больше заботиться о внешнем виде рассылок: короткие текстовые письма начали уступать место сообщениям в формате HTML [4]. Однако в последнее время в России стал популярен также спам в социальных сетях и системах мгновенного обмена сообщениями (1М). Ведение черных списков дает наибольшее количество ложных срабатываний [5]. Анализ заголовков сообщений является достаточно эффективным только для электронной почты, но он является малоприменимым для фильтрации спама в социальных сетях и 1М. Здесь больше всего подходят контент-методы и техники, основанные на анализе ссылок.

Рассылки спама появились в 90-е гг. XX в. На ранних этапах спамеры делали рассылки с собственных адресов. Первые спам-сообщения были одинаковыми. Такой спам легко фильтруется.

Появление средств обнаружения спама, основанных на анализе содержания письма (контентный анализ), привело к эволюции содержания спамерских писем: их стали готовить таким образом, чтобы автоматический анализ был затруднен. Сообщения можно сделать разными, например путем персонализации ("Hello, joe! " - в начале письма на адрес [email protected]). В качестве метода борьбы были предложены нечеткие сигнатуры - устойчивые к небольшим изменениям текста и статистические обучаемые методы фильтрации (байесовская фильтрация).

В начало или конец письма может быть помещен отрывок из классического текста или просто случайный набор слов. В HTML-сообщение может быть введен "невидимый" текст (очень мелким шрифтом или цветом, совпадающим с цветом фона). Эти добавления затрудняют работу нечетких сигнатур и статистических методов. В ответ появился поиск цитат, детальный разбор HTML и другие методы углубленного анализа содержания письма. Во многих случаях можно определить сам факт использования "спамерского трюка" и классифицировать сообщение как спам, не анализируя его текст в деталях.

Рекламное сообщение может быть прислано пользователю в виде графического файла. В качестве ответной меры появляются способы анализа изображений, выделяющие из них текст.

Письма-трансформеры - это сообщения, имеющие сходное содержание, но различные по форме. Каждое отдельное письмо выглядит как обычный связный текст, и только имея много копий сообщения, можно установить факт перефразировки. Таким образом, эффективно настроить фильтры можно только после получения существенной части рассылки.

Сегодня основная масса рассылок производится с взломанных пользовательских компьютеров. Спамеры широко используют три последних метода (вставка "невидимого" текста, использование графического вложения, письма-трансформеры), и далеко не все антиспам-средства могут с ними эффективно бороться, что дает возможность доставлять спам тем пользователям, которые используют недостаточно надежные средства фильтрации [6].

Яндекс приводит следующие методы автоматического детектирования спама:

• техники, опирающиеся на тестовые выборки (их применение затруднительно из-за трудоемкости построения и поддержания в актуальном состоянии);

• ручной анализ и мониторинг почтового потока (сигнатурный подход) [1].

В настоящее время, помимо всего прочего, Яндекс использует ведение белых списков [1]. Ограничение этого метода заключается в том, что доставка письма адресату, которому раньше письма не отправлялись, затруднительна. Некоторые системы вводят подобие авторизации. Однако практика показывает, что ведение белых списков не является эффективным методом в IM (например qip, icq) и социальных сетях (ВКонтакте, Facebook). Многие исследователи считают, что спам может быть отфильтрован только получателем [7]. Однако согласно другому исследованию, также проведенному компанией Яндекс, в 40 процентах случаев люди не могут отличить спам от легального сообщения [8].

Актуальными являются методы улучшения сигнатурного подхода. Можно выделить "синтаксические" (т.е. оперирующие с цепочками слов) и "лексические" (т.е. оперирующие со словарем) (например, метод опорных слов) методы расчета сигнатур [1]. Современные "синтаксические" методы, основанные на шинглах [9; 10], используют идею вычисления контрольных сумм для всех подцепочек текста ("шинг-лов") и последующего построения случайной выборки из полученного набора. По шинглам можно с высокой вероятностью судить о сходстве текстов, их вложенности, плагиате и т.д. Однако для практических задач, в том числе для обнаружения массовых рассылок, требуется слишком большое количество шинглов, что предъявляет непреодолимо высокие требования к ресурсам для проведения процедуры кластеризации [1]. Недостаток любого "лексического" метода, включая байесовский классификатор, в том, что он не применим для других языков.

В литературе также приводятся методы анализа последовательности заголовков [11], однако на нашей выборке метод оказался неэффективным, так как нам не удалось выявить уникальную для спама последовательность заголовков.

2. Особенности спама на различных языках

Выборка для каждого языка состояла примерно из тысячи сообщений.

По структуре спам делится на три категории:

• спам, замаскированный под личную корреспонденцию;

• спам, замаскированный под легальные массовые рассылки;

• рекламный спам.

Нигерийские письма на французском языке составлены согласно узусу деловой переписки, но если для официальной переписки характерно использование конструкции "а l’attention de" с указанием должности и/или фамилии, то здесь мы видим "а votre attention". Очевидно, что такой признак неприменим для рекламного спама или для "писем счастья". Узуальное употребление прямого императива ограничено во французском языке, так как считается не достаточно вежливой формой, но почти повсеместно встречается в спаме. Это связано с тем, что спамер пытается контролировать действия получателя письма и лишить его выбора (особенно часто прямой императив встречается именно в цели сообщения: "push the button now", "achetez maintenant"). То же самое касается форм изъявительного наклонения. Действие, выраженное формой реального времени, мыслится как реальное (ср. "когда будет написана статья" и "если статья будет написана", в первом случае предполагается, что она все-таки будет написана, во втором есть сомнения). В рекламном спаме, как правило, присутствует предложение больше не получать подобные письма. Если пользователь решит воспользоваться этой "услугой", то спамер, во-первых, узнает, что адрес действующий, во-вторых, перейдя по ссылке, пользователь может загрузить себе вредоносное программное обеспечение.

Большое количество ссылок характерно для массовых рекламных рассылок, в том числе и спама, особенно французского. Французский спам, в отличие от английского и тем более русского, очень аккуратно оформлен. Как и в русском спаме, в нем много англицизмов. Наличие адреса электронной почты в

тексте сообщения свойственно как деловой переписке, так и фишинговому спаму. Идея мошенничества заключается в том, что пользователь ответит на сообщение. Таким образом, спамер поймет, что адрес "действующий", а на рынке спамерских баз такие адреса ценятся гораздо выше. Списки являются классическим показателем рекламы. Они позволяют обратить внимание на предлагаемые услуги или товары. Даже не читая сообщение, пользователь может легко понять, что именно рекламируется. Восклицательные или вопросительные предложения также могут свидетельствовать о рекламном спаме. Но надо быть внимательным: во-первых, они могут использоваться и в легальных рассылках, во-вторых, в русском языке принято ставить "!" после обращения. Графическое выделение отдельных слов также связано с расстановкой акцентов. Однако подобный прием часто используется в личной переписке для того, чтобы обратить внимание собеседника на некоторый аспект. К формулам вежливости в данном случае были отнесены разного рода приветствия, обращения и пр. Они характерны для персонализированной переписки.

Во французском спаме наблюдается меньшее содержание местоимений и притяжательных детерминативов, для английского такой тенденции не наблюдается.

Таким образом, признаки спама могут проявляться или отсутствовать в зависимости от темы письма, его структуры или цели.

3. Методы трансформирования сообщения

Метод опорных слов малопригоден для русскоязычного спама, так как часто здесь применяется транслитерация и намеренные искажения слов (вставка лишних символов внутри слова, намеренные опечатки, введение латиницы в текст, написанный кириллицей). Однако названные признаки не являются однозначными. Причин использования транслитерации может быть несколько. В основном его применяют эмигранты и путешественники, у которых нет клавиатуры с русской раскладкой. Возможны также проблемы с кодировками. Кроме того, пользователи далеко не всегда руководствуются одинаковыми правилами транслитерации.

Рис. 1. Доля сообщений, написанных с помощью Рис. 2. Доля сообщений, написанных помощью транслитерации, в спаме транслитерации, в неспаме

Спам Неспам

pRODAVA email BAZ pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) eSLI wY OBLADAETE SOBSTWENNYMI IN-STRUMENTAMI PROWEDENIQ email RASSY-LOK, TO DLQ wAS MY MOVEM PREDLOVITX BAZY DANNYH SOBSTWENNOGO SBORA. <...> cENA ZA 1 MLN. - 50$ cENA ZA WS@ BAZU - 500$ <...>PO L@BYM WOPROSAM: tELEFON: Privet , zolotze. Nakonez-to posylayu tebe fotki. Ya vybrala nemnozhko bolshe , chto-by ty vybrala kakie hochesh i posmeyalas nemnozhko. Ya kogda smotre-la, u menya srazu podnyalos nastroenie. Vse- taki my klassno s toboj syezdili v Ust- Kachku. Esli hochesh, ya tebe vse ostalnye tozhe pereshlu. Pishu tebe iz doma pervyj raz. Ladno, pobezhala delat chto- nibud. A - to zeloe utro za kompiuterom sizhu. Lublu, ze-luyu. Mame i koshkam privet!

Приведем примеры частей трансформеров, написанных кириллицей и с помощью транслитерации.

sWEVIE email BAZY pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...> В начале года всегда возникает потребность в "свежих" выписках ЕГ -РЮЛ и справках Госкомстата. Предлагаем Вам: получение выписки ЕГРЮЛ за 1,2ОО рублей справки Госкомстата за 1 200 руб. заказ выписки ЕГРЮЛ + справки Госкомстата составит всего 2.000 рублей Доставка курьером, оплата по факту. Контактная информация + 7495 ■+07.68

sWEVIE email BAZY pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...> В начале года всегда возникает необходимость в "свежих" выписках ЕГРЮЛ и справках Г оскомстата. Мы предлагаем Вам: получение выписки ЕГРЮЛ за 1 2ОО рублей справки Госкомстата за 1 тыс. 200 р. заказ выписки ЕГРЮЛ + справки Госкомстата составит всего 2 тыс. 000 руб-й. Доставка курьером, оплата по факту. Телефон: + 7495 ■ 07;68

aDRESA DLQ email RASSYLOK pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...> В начале года всегда возникает потребность в "свежих" выписках ЕГ -РЮЛ и справках Госкомстата. Мы предлагаем Вам: получение выписки ЕГРЮЛ за 1 тыс. 200 руб-й справки Госкомстата за 1 200 рублей. заказ выписки ЕГРЮЛ + справки Г оскомстата составит всего 2,000 р. Доставка курьером, оплата по факту. Контакты + 7(495) Щ-07-68

Особенность русскоязычного спама заключается в широком использовании так называемых спамерских трюков:

• Замена букв цифрами и наоборот (4-ч, 0-о, 3-з, 1-1).

• Замена кириллических символов схожими символами латиницы (к-к, а-а, Н -Н и т.д.).

• Введение дополнительных символов ("Вы хотите вернуть вашего любимо го человека навсегда и полностью избавиться от измен?").

• Чередование различных символов (например, в номерах телефонов).

Если внимательно посмотреть на примеры, то можно выделить еще один метод трансформации сообщения - синонимичные конструкции (sWEVIE email BAZY = sWEVIE email BAZY=aDRESA DLQ email RASSYLOK, Предлагаем Вам = Мы предлагаем Вам, необходимость = потребность).

Варьироваться может только адрес:

В Е С Т Н И К П Е Р М С К О Г О У Н И В Е Р С И Т Е Т А

2011 Математика. Механика. Информатика Вып.2(6)

<...> La preghiamo di rispondere solo alla mia personale e-mail:[email protected] Tua amica

Haykanush.______________________________________________________________________________________

<...>La preghiamo di rispondere solo alla mia personale e-mail:[email protected] Tua amica

Haykanush.______________________________________________________________________________________

<...>La preghiamo di rispondere solo alla mia personale e-mail:[email protected] Tua amica Haykanush.______________________________________________________________________________________

Максимальная изменчивость наблюдается в рекламе медикаментов. Здесь варьируется как тема сообщения, так и текст. Тема и часть текста могут меняться местами. Помимо

этого, все ссылки уникальны (обычно они автоматически создаются на бесплатных хос-тингах). При этом смысл практически не меняется.

Тема Текст

Desire to impress and please your lover tonight The only bluepill you need to get bigger python. http://wanzulkifli.com/c6ave6lc.html

Gain in size and win your wife's addiction Desire to act like a pornstar? Bang a magicpilule! http://bpyasociados.com.ar/9vh6w3lf.html

Wish to act like a porn-director Nail a blu colored med! 0% amorous failure risk http://mikloswowmobile.com/uaagzeib.html

Dream to act like a porn-director Bang a blu colored pil! Long manliness is great http://antalyagunlugu.com/d4zz8qan.html

То же самое можно сказать о рекламе казино. В целом нужно отметить, что французский и английский спам является более изощренным, чем русский или итальянский.

Особенно это касается таких тематик, как казино, медикаменты, игры на бирже, порно и программное обеспечение. В испаноязычном спаме вариативность почти отсутствует.

Тема Текст

Comme Faire _|00 de _|0 -nous APPRENDRONS Bonne journee Jessikaparsons, {http://yxaqih983.o-f.com/kerizev.html} Accueillez la fortune dans votre vie avec de grandes opportuniffis de gagner, avec l’assurance que vos informations personnelles sont protйgйes et vos gains seront payйs rapidement. Une demi-heure et Ъ200 dans ta poche

Gagner _100 pour une demi-heure c'est mel Du jour reussi Shirley_patel, {http://gamingworldshop.ru} Il y a de grandes promotions auxquelles vous pouvez participer et qui vous promettent encore plus de plaisirs et de faзons de gagner. Faire Ъ100 pour une demi-heure -Apprendre?

Faire -100 pour une demi-heure - Apprendre Bonne journee Nvshamshik, {http://beluwulod.maddsites.com/abimogek.html} Il y a de grandes promotions auxquelles vous pouvez participer et qui vous promettent encore plus de plaisirs et de faTons de gagner. Gagner -100 pour une demi-heure c'est rHel

Jouer ici, c'est le bonheur ! Telechargez maintenant {http://opakypiwel.dreamstation.com/jededila.html} On ne peut pas faire plus simple, il suffit de vous inscrire, de faire un versement et vous recevez un fantastique bonus de bienvenue - alors foncez et gagnez ! La meilleure selection de jeu sur internet ! Jouez ici

Jouez plus, gagnez plus Salut Shea.swan Des options bancaires sbires qui conviendront а tous sont disponibles. Relaxez-vous et soyez certains que vos informations confidentielles sont sйcurisйes et ne seront p& #97;s divulguйes. {http://durl.me/554k6}Comment aimeriez-vous commencer au mieux dans le jeu en ligne avec 1,200 Gratuits? Ils sont dйjа а vous, mclamez-les, jouez et gagnez!

ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА

2011 Математика. Механика. Информатика

4. Использование триграмм для

Вып.2(6)

определения трансформеров

Существуют многочисленные подходы для вычисления меры сходства двух документов (коэффициент Жаккарда, Хэммингово расстояние, расстояние редактирования) [12]. Мы определяли меру сходства посредством триграмм.

Традиционно триграммы используются для выявления плагиата [13; 14], а также для определения языка и кодировки [15; 16]. Другая группа методов установления авторства основана на квантитативных характеристиках [17-19]. Количественные признаки учитывались в индексе Флеша и Флеша-Кинкейда [20].

В предложенном методе мы объединили техники, основанные на триграммах и квантитативных характеристиках, таких как доля полнозначных и служебных слов, доля предложений, слов и абзацев определенной длины, доля вхождения каждой части речи (краткие и полные формы мы считали различными), количество знаков препинания, совстречаемость частей речи и т.д. (рис. 3). Общее число признаков - 135.

Метод триграмм был несколько модифицирован. Во-первых, мы считали последовательности из трех подряд идущих слов и определяли их части речи по грамматическому словарю Зализняка.

Второе применение триграмм - поиск одинаковых подстрок в сообщениях и вычисление меры сходства по формуле

где

5 = 2 • М / (Т + Т2)

$ - мера сходства;

М - количество совпадений;

Т - количество триграмм в первом тексте;

Рис. 3. Доли последовательностей частей речи

Т2 - количество триграмм во втором тексте.

Эта величина не является нормированной. Мера сходства для русскоязычных и итальянских трансформеров велика и слабо варьируется, в то время как для французского и английского языков она значительно меньше и имеет большой разброс (рис. 4-9).

Рис. 4. Мера сходства, вычисленная для рассылки ".ЕГРЮЛ" при помощи триграмм

Рис. 5. Мера сходства, вычисленная для рассылки "Email базы" при помощи триграмм

01

-Q

Е

40

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

30

20

10

Medicine (English)

II,

1Л (N 1Л U1 1Л СО 1Л

о m ю №

Н 1/1 _Г ГМ

О О О

Similarity measure

Рис. 6. Мера сходства, вычисленная для рассылки "Медикаменты" при помощи триграмм

80

W0

1—

’*5

60

X

01

£ 40

.о 20

Dating (Italian)

1 1,05 1,1

Similiarity mesure

Рис. 7. Мера сходства, вычисленная для рассылки "Свидания " при помощи триграмм

* 40

</>

■| 30

S 20 1—

1 0

D

С

Cigarette (French)

п

nil ll.ll.l 1... .

1 I I I I I I I I I I I I I I I

ттттттттт

О rH <N СП in VD r- 00

o' o' o' o' o' o' o' o' o'

Similarity measure

Рис. 8. Мера сходства, вычисленная для рассылки "Сигареты" при помощи триграмм

0J

XI

Е

з

100

80

60

40

20

0

Forex (French)

1

П гп

ill 1 1 . . ■

1 I I I I I I I I I I I I I I I

0 0,2 0,4 0,6 0,8 1 1,2 1,4 Similarity measure

Рис. 9. Мера сходства, вычисленная для рассылки "Forex" при помощи триграмм

С первого взгляда может показаться, что использование триграмм неэффективно, так как слова можно переставлять произвольным образом, однако в естественных языках даже с относительно свободным порядком слов (например в русском) существуют синтагматические закономерности. Нарушение этих закономерностей либо выполняет эмфатическую функцию, либо приводит к тому,

Таким образом, выявление писем-трансформеров проходит в два этапа:

• На основе квантитативных характеристик с применением машины опорных векторов новое сообщение относится к той или иной категории.

• Уточняющим признаком может быть расстояние триграмм.

Выводы

В настоящее время существует достаточно много методов борьбы со спамом, но они либо являются недостаточно эффективными, либо слишком трудоемки. В отличие от большинства методов, контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, 1М, социальные сети), так как она не опирается на служебную информацию. Классификация текстов проводится на основе достижений компьютерной лингвистики и машинного обучения.

Особо рассматривается проблема обнаружения намеренно искаженных фрагментов. Предлагается метод детектирования массовых сообщений, фильтрация которых затруднительна из-за меняющегося контента. Рассматриваются возможности увеличения произво-

что текст становится практически нечитаемым.

Метод опорных векторов для квантитативных характеристик писем на русском языке помогает с большой точностью выявить транс-формеры (параметры приведены в табл. 1. Но можно использовать и другие классификаторы (например нейронные сети, которые также являются эффективными).

дительности за счет использования методов Монте-Карло.

Предложенный двушаговый метод обнаружения писем-трансформеров в почтовом потоке является улучшением сигнатурного метода. На первом шаге документы рубрикуют-ся исходя из квантитативных характеристик текста, на втором - делается дополнительная проверка при помощи триграмм. Достоинство метода в том, что он применим практически к любому языку (в языках с иероглифической письменностью, где деление на слова является затруднительным, можно в качестве элементов брать отдельные иероглифы).

Список литературы

1. Яндекс. Некоторые автоматические методы

детектирования спама, доступные большим почтовым системам // Компания Яндекс, 2010. иЯЪ:

http://company.yandex.ru/public/articles/anti

spam.xml.

2. Лаборатория Касперского. Что такое спам // Securelist, 2010. иЯЬ: http://www.securelist.eom/ru/encyclopedia/s pam?chapter= 151.

3. Наместникова М. Спам в декабре 2010 года // Securelist. 2011. иЯЬ:

Таблица 1. Параметры машины опорных векторов для определения писем-трансформеров на русском языке

Sample size = 707 (Train), 236 (Test), 943 (Overall)

Support Vector machine results:

• SVM type: Classification type 1 (capacity=10,000)

• Kernel type: Radial Basis Function (gamma=0,007)

• Number of support vectors = 118 (0 bounded)

• Support vectors per class: 94 (0), 16 (1), 8 (2)

Class. accuracy (%) = 100,000(Train), 100,000(Test), 100,000(Overall)

http://www.securelist.com/ru/analysis/20805

0676/Spam_v_dekabre_2010_goda.

4. Лаборатория Касперского. Спам в первом

квартале 2010 года // Лаборатория Касперского. 2010. URL: http://www.kaspersky.ru/news?id=207733226

5. Электронный журнал "Спамтест" № 29 //

Лаборатория Касперского. 2003. URL: http://www.kaspersky.ru/news?id=144772578

6. Лаборатория Касперского. Эволюция спама // Securelist. 2009. URL: http://www.securelist.com/ru/encyclopedia/s pam? chapter= 155.

7. Сегалович И., Тейблюм Д., Дилевский А. Принципы и технические методы работы с незапрашиваемой корреспонденцией // Яндекс. 2010. URL:

http://download.yandex.ru/company/spamoo

borona-latest.pdf.

8. Лаборатория Касперского Электронный журнал "Спамтест". 2009. URL: http://www.kaspersky.ru/news?id=143937135

9. Manber U. Finding similar files in a large file

system // USENIX Conference. 1994.

10. Broder A. On the resemblance and containment of documents // Digital Systems Research Center. 2003. URL: http://ftp.digital.com/pub/Digital/SRC/public ations/broder/positano-final-wpnums.pdf.

11. Львов А.А. Обнаружение массовых рассылок электронной почты // Math-Net.Ru. 2004.

URL:

http: //www. mathnet. m/hnks/ab1f0cШ7f337 іbf5990d535a6fd3Ib/mmkzіI9.pdf

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

і|. Chakrabarti S. Mining the Web: Discovering Knowledge from Hypertext Data, |003.

13. Coulthard M. Author Identification, Idiolect and Linguistic Uniqueness. |004.

14. Halteren H. Linguistic Profiling for Author Recognition and Verification// Proceedings of the 4|nd Annual Meeting on Association for Computational Linguistics, |004.

15. Сотник С.Л. Идентификация языка UNICODE-текста по N-граммам длиной до 4-х включительно (квадрограммам)// Математичне моделювання. |00б. С. і і і-і 14.

16. Cavnar W.B., Trenkle J.M. N-Gram-Based Text Categorization // Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval. 1994. С.1б1-175.

17. Мещеряков Р.В., Васюков Н.С. Идентификация авторства методами искусственного интеллекта // Научная сессия ТУСУР, |005.

18. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов // Методы качественного анализа текстов. 1983.

19. Рахимова А.А. Лингвистическая экспертиза // Вестник КАСУ. |005.

|0. Галяшина Е.И. Основы судебного речеве-дения. |00З.

Transforming message detection

L. M. Ermakova

Perm State University, Russia, 614990, Perm, Bukirev st., 15 [email protected]; 89630113497

Within the bound of this research a content analysis of transforming messages was carried out. Transforming messages detection technique was developed. This method is resistant to small text changes. The advantage of content approach is the fact that it is suitable not only for email filtering but also to spam detection in IM, social networks, blogs, forums etc. since it is not based on header analysis.

Key words: spam; corpus linguistics; phishing; filtering; text categorization.

i Надоели баннеры? Вы всегда можете отключить рекламу.