Научная статья на тему 'Система фильтрации Интернет-трафика на основе методов data mining'

Система фильтрации Интернет-трафика на основе методов data mining Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
260
110
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система фильтрации Интернет-трафика на основе методов data mining»

2. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство // Тр. междунар. сем. «Компью-

терная лингвистика и интеллектуальные технологии». - М: Наука, 2002. - Т.1. - С. 266-270.

СИСТЕМА ФИЛЬТРАЦИИ ИНТЕРНЕТ-ТРАФИКА НА ОСНОВЕ МЕТОДОВ DATA MINING

(Работа поддерживается грантами: РФФИ, № 06-01-00691; поддержки научных школ, № 02.445.11.7427

и Президента РФ, МК-4264.2007.9)

В.В. Глазкова; В.А. Масляков; И.В. Машечкин, д.ф.-м.н.; М.И. Петровский, к.ф.-м.н.

(МГУ им. М.В. Ломоносова)

Проблема контроля доступа к Интернет-ресурсам актуальна и имеет важное прикладное значение по следующим основным причинам: блокирование доступа к нелегальной информации, предотвращение доступа к Интернет-ресурсам в личных целях в учебное или рабочее время, предотвращение утечки конфиденциальной информации через Интернет.

Так как основная часть Интернет-ресурсов сегодня является динамической, это делает малопригодными традиционные сигнатурные подходы, основанные на базе данных статических URL или осуществляющих анализ содержимого на основе ключевых слов. Поддержка подобной базы данных в актуальном состоянии в силу постоянного изменения содержимого Интернет-ресурсов существенно снижает точность работы сигнатурных систем. Поэтому необходим некий подход, который позволил бы быстро и точно в режиме реального времени осуществлять анализ содержимого Интернет-ресурсов.

Авторами статьи предлагается подход к построению систем фильтрации трафика на основе методов машинного обучения, а именно многоклассовой многотемной классификации гипертекстовых документов. Данный подход имеет ряд существенных преимуществ перед традиционными подходами: независимость от внешних баз данных и экспертов; автоматический процесс обучения; высокая скорость и точность работы; обучаемость и дообучаемость; адаптация к потребностями конкретных организаций.

Архитектурное решение

Предлагаемый авторами подход требует разработки как самой архитектуры системы, основанной на методах машинного обучения, так и специализированных алгоритмов разбора и анализа Интернет-документов в силу их специфики.

Для оценки качества функционирования систем фильтрации Интернет-трафика используются следующие количественные показатели (характеристики):

- точность анализа - процент верно отфильтрованных Интернет-ресурсов;

- излишнее блокирование или ложно-положи-

тельные ошибки - процент хороших ресурсов, ошибочно запрещенных системой фильтрации;

- недостаточное блокирование или ложно-отрицательные ошибки - процент плохих ресурсов, ошибочно разрешенных системой фильтрации;

- скорость анализа - максимальный объем данных, который система может проанализировать в единицу времени.

Проанализировав характеристики и недостатки подобных систем, авторы предлагают следующие требования к современным системам фильтрации Интернет-трафика:

• анализ и фильтрация Интернет-информации в режиме реального времени с возможностью адаптироваться к постоянной динамике изменения Интернет-ресурсов;

• осуществление фильтрации Интернет-ресурсов с использованием как их содержимого, так и метаданных;

• возможность персонифицировать трафик, то есть максимально точно идентифицировать пользователя, от которого поступил запрос на ресурс;

• анализ не только входящего, но и исходящего от пользователей трафика;

• возможность удаления категорий фильтрации и добавления новых категорий с новыми обучающими примерами;

• независимость от языков Интренет-ресур-

сов.

Авторами предложена архитектура и алгоритмы анализа и фильтрации Интернет-трафика на основе методов машинного обучения для многотемной классификации гипертекстовых документов [1,2]. Методы машинного обучения обладают достоинствами самообучаемости, адаптируемости, автономности.

Учитывая требования к системам фильтрации трафика, предложена архитектура системы, состоящая из следующих основных компонент.

Ядро системы, координирующее работу модулей системы и сохранение в базе знаний информации о пользователях, запросах, запрашиваемых ресурсах, а также результатов анализа и классификации.

Кэш-прокси-сервер, предназначенный для кэширования и перенаправления в режиме реального времени запросов и содержимого Интернет ресурсов из локальной сети к ядру системы [3-5].

Модуль принятия решений, осуществляющий разрешение или блокирование доступа к Интернет-ресурсам на основе метаинформации о ресурсе (его URL), результатов классификации (в случае необходимости) и заданных политик фильтрации для конкретного пользователя.

Модуль лексического разбора (парсинга) и классификации, осуществляющий преобразование HTML-документов во внутреннее представление и многотемную (multi-label) классификацию в режиме реального времени.

Робот, использующийся в системе для скачивания содержимого ресурсов с целью последующего обучения на них и для классификации документов, ссылки на которые были выявлены ранее в процессе анализа других документов.

Алгоритмическое решение

Задача классификации текстовых и гипертекстовых документов - одна из основных алгоритмических задач, возникающих при реализации системы анализа и фильтрации Интернет-трафика. Для эффективного решения данной задачи важную роль начинают играть методы машинного обучения и интеллектуального анализа данных (data mining), предназначенные для анализа, классификации и выявления скрытых закономерностей в больших объемах разнородных сложно структурированных данных. В данной задаче необходимо решать две базовые подзадачи:

• разработать эффективную формальную модель представления текстовых и гипертекстовых документов с учетом как их содержимого, так и ссылочной структуры;

• разработать эффективный алгоритм решения задачи многотемной классификации (multilabel classification), то есть классификации в условиях существенно перекрывающихся классов, когда любой объект классификации (документ) может принадлежать более чем одному классу (теме) одновременно, а некоторые классы могут быть вложенными.

Модель представления гипертекстовых данных. В настоящем исследовании предложен метод построения модели представления, основанный на выделении частых эпизодов [3]. В этом случае множество частых комбинаций лексем (или N-грамм) формирует новое признаковое пространство, где каждому эпизоду, в который входит одна (или более) лексема (или N-грамма), соответствует одна координата в признаковом пространстве. То есть такой метод является расширением традиционной векторной модели, поскольку часто встречаемые лексемы (или N-граммы) также входят в модель как эпизоды единичного размера.

При представлении гипертекстовых документов важно учитывать не только текст, содержащийся в самих документах, но и наличие гиперссылок между документами. Учет гиперссылок позволяет получить более точное (для классификации) представление документа, по сравнению с учетом только локального текста классифицируемого документа. Идея предлагаемого нами подхода для учета гиперссылок состоит в следующем. Сначала обучаем текстовый классификатор при N-граммном представлении документов, учитывая при обучении только их локальный текст. Затем применяем данный классификатор к текстовому представлению каждой гиперссылки, встречающейся в документе. При формировании окончательного представления текущего документа каждую гиперссылку заменяем набором специальных идентификаторов, соответствующих идентификаторам предсказанных классов.

Таким образом, предлагаемый подход для учета гиперссылок позволяет учитывать встречающиеся в документах гиперссылки без необходимости получения и анализа содержимого документов-соседей, что очень важно для осуществления анализа документов в режиме реального времени.

Метод классификации многотемных (multilabel) документов. В задаче многотемной (multilabel) классификации в обучающей совокупности Z = {xi,yi}™=1 для каждого примера xi задан не единственный класс, а множество релевантных классов yj с {1,...,q}, и целью алгоритма машинного обучения является построение классификатора fZ : X ^ 2q, предсказывающего все релевантные классы, где X - исходное пространство признаков; q - число классов.

Решение задачи multi-label классификации на основе ранжирования включает два этапа. Первый этап состоит в обучении алгоритма ранжирования, который упорядочивает все классы по степени их релевантности (например, вероятности принадлежности) для заданного классифицируемого объекта. Второй этап заключается в построении функции multi-label классификации, отделяющей релевантные классы от нерелевантных.

В настоящей работе исследуется возможность использования для решения задачи multi-label классификации подхода на основе декомпозиции типа каждый-против-каждого с отсечением наименее релевантных классов. Предлагается, во-первых, новый алгоритм ранжирования, основанный на модифицированном (для случая существенно пересекающихся классов) методе попарных сравнений с помощью набора бинарных классификаторов и вычислений степеней принадлежности к классам с использованием обобщенной модели Брэдли-Терри с «ничьей» [3]; во-вторых, новый алгоритм построения пороговой функции от-

сечения нерелевантных классов, строящий пороговую функцию не в исходном пространстве характеристик, а в пространстве релевантностей классов, что позволяет упростить вид пороговой функции, значительно сократить вычисления и в большинстве случаев увеличить точность.

Следует отметить, что ранее подход на основе попарных сравнений не давал позитивных результатов для задач многотемной классификации, поскольку не удавалось решить проблему декомпозиции - построить точный классификатор, разделяющий два существенно перекрывающихся (не взаимоисключающих) класса.

В предложенном алгоритме ранжирования каждая пара возможно перекрывающихся (и даже вложенных) классов j и k разделяется с помощью двух бинарных классификаторов, отделяющих пересекающиеся и непересекающиеся области. Предложенный метод отсечения нерелевантных классов основан на построении линейной решающей функции в пространстве релевантностей классов с использованием результата работы алгоритма ранжирования как нового множества признаков анализируемого электронного документа [4].

Результаты экспериментального исследования

Приведем описание экспериментального исследования производительности разрабатываемой системы на эталонных тестовых наборах данных Reuters-2000 (набор многотемных текстовых документов, не содержащих гиперссылки) и BankResearch (набор однотемных гипертекстовых документов).

Для чистоты эксперимента нужно продемонстрировать, что и предложенная модель представления, и разработанный алгоритм позволяют улучшить качество классификации сами по себе, а не только в совокупности. Поэтому тестирование модели представления и сравнение ее с существующими популярными моделями проводилось на наборе BankResearch на базе традиционного алгоритма классификации типа основе «k ближайших соседей» [5]. Данный алгоритм был выбран как наиболее чувствительный к модели представления. Тестирование алгоритма многотемной классификации проводилось на наборе Reuters-2000 на базе традиционной модели представления с помощью ключевых слов, а результат сравнивался с ведущими современными алгоритмами многотемной классификации. Для оценки точности работы алгоритмов многотемной классификации использовались следующие общепринятые оценки: Hamming Loss, Coverage и Ranking Loss [5].

Результаты экспериментов представлены в виде сводной таблицы по всем основным критериям точности. В строке размерность пространства приведена размерность пространства признаков построенной модели.

Таблица 1

Результаты сравнения различных моделей представления гипертекстовых данных

Критерий Частотная мера сходства

Без учета гиперссылок С учетом гиперссылок

А1 A2 A3 A4 A5 А6 А7 A8

Hamming 0.0246 0.0231 0.0169 0.0216 0.0228 0.0212 0.0172 0.0202

Loss +/- +/- +/- +/- +/- +/- +/- +/-

0.0005 0.0003 0.0005 0.0004 0.0005 0.0001 0.0010 0.0004

Coverage 0.592 0.506 0.349 0.397 0.482 0.409 0.347 0.356

+/- +/- +/- +/- +/- +/- +/- +/-

0.018 0.017 0.006 0.005 0.025 0.008 0.022 0.003

Ranking 0.0539 0.0460 0.0317 0.0361 0.0438 0.0371 0.0316 0.0323

Loss +/- +/- +/- +/- +/- +/- +/- +/-

0.0017 0.0015 0.0005 0.0004 0.0022 0.0007 0.0020 0.001

Average 0.8812 0.8939 0.9253 0.9112 0.9008 0.9096 0.9259 0.9182

Precision +/- +/- +/- +/- +/- +/- +/- +/-

0.0036 0.0014 0.0017 0.0016 0.0029 0.0009 0.0045 0.002

Размер-

ность пространства 46603 16139 17302 34085 46614 16150 17563 34274

Примечание. Признаки моделей: А1, А5 - ключевые слова;

А2, А6 - ^граммы (N=3); А3, А7 - эпизоды ключевых слов;

A4, A 8 - эпизоды N-грамм (N=3)

Значение, следующее за «+/-», показывает стандартное отклонение; наилучшие результаты по каждому критерию выделены жирным шрифтом.

Таким образом, предложенная модель представления на основе частых эпизодов с частотной мерой сходства кардинально превосходит традиционные подходы по всем основным критериям. Также можно видеть, что предложенный метод включения информации о гиперссылках в модель представления позволяет получить улучшение точности практически для любой базовой модели.

Тестирование всех разработанных алгоритмов multi-label классификации проводилось на эталонном наборе многотемных данных Reuters-2000. Сравнение разработанного метода многотемной классификации проводилось с ведущими существующими методами: Multi-class Multi-label Perceptron (MMP); AdaBoost.HM; ML-KNN и 1-vs-all-SVM. Результаты экспериментов приведены в таблице 2.

Таблица 2

Экспериментальные результаты работы алгоритмов классификации на наборе Reuters-2000

Algorithm Coverage Ranking Loss Hamming Loss

MMP 5.65 0.0137 0.0121

AdaBoost.HM 6.08 0.0169 0.0146

ML-KNN 5.72 0.0167 0.0135

lvsAll SVM 6.53 0.162 0.0095

Разработанный метод 4.59 0.096 0.0095

Как видно из таблицы, разработанный метод превосходит существующие по всем основным характеристикам, особенно по качеству ранжирования (Coverage и Ranking Loss).

В заключение следует отметить, что авторами предложен новый подход к построению систем анализа и фильтрации Интерент-трафика на осно-

ве методов интеллектуального анализа данных; предложено архитектурное и алгоритмическое решение для построения таких систем.

Алгоритмические задачи, которые необходимо решать при реализации систем фильтрации Интернет-трафика, сводятся к необходимости разработки эффективных моделей представления исходных гипертекстовых данных с учетом их текстового содержания и структуры гиперссылок, а также разработки эффективных методов решения задачи классификации многотемных документов.

Проведены эксперименты по оценке точности и скорости разработанных алгоритмов и оценке производительности системы. Все разработанные модели представления и методы многотемной классификации были экспериментально проверены на эталонных тестовых наборах данных, где показали лучшие результаты по сравнению с традиционными моделями и методами. Также на основе экспериментальных результатов можно сделать вывод, что по производительности данный подход применим, поскольку время разбора, анализа и классификации потока гипертекстовых

данных сопоставимо (а, как правило, и значительно меньше) со временем загрузки ресурсов из Интернета, то есть не вносит значительных дополнительных задержек в работу пользователя.

Список литературы

1. Valentina Glazkova, Vladimir Maslyakov, Igor Mashech-kin and Mikhail Petrovskiy. Internet Traffic Filtering System Based on Data Mining Approach // Proceedings of the First Spring Young Researches' Colloquium on Software Engineering.

2. Машечкин И.В., Петровский М.И., Глазкова В.В., Масляков В.А. Концепция построения систем анализа и фильтрации Интернет-трафика на основе методов интеллектуального анализа данных //Математические методы распознавания образов: 13-я Всерос. конф. / Сб. докл. - М.: МАКС Пресс, 2007. - С. 494-496.

3. Петровский М.И., Глазкова В.В. Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов. // Вычислительные методы и программирование. - 2007. - №8. - С. 57-69. (www.num-meth.srcc.su/zhur-nal/tom8r207.html).

4. Glazkova V.V., Petrovskiy M.I. Multi-topic text categorization based on ranking approach // Proc. of SYRCoSE 2007. N 1. M: ИСП РАН, 2007. P. 49-55.

5. M.-L. Zhang, Z.-H. Zhou, "A k-nearest neighbor based algorithm for multi-label classification", Proc. of IEEE GrC'05, Beijing, China, 2005, pp. 718-721.

BIOGRAPH - АЛГОРИТМ ЧАСТОТНОГО АНАЛИЗА ХРОНОБИОЛОГИЧЕСКИХ ДАННЫХ

А.В. Захарченко; Б.М. Шабанов, к.т.н., (МСЦ РАН, г. Москва); А.И. Антохин, д.б.н.; Д.М. Когель; Н.А. Жаркова

(Российский государственный медицинский университет, г. Москва)

Одной из основных задач хронобиологии является анализ и сравнение различных биологических ритмов по экспериментальным данным, а часто используемым методом - построение и сравнение графиков зависимости некоторых числовых характеристик биологического процесса от времени. Чаще всего биологические ритмы предполагаются циклическими (в предельном случае - строго периодическими) и синхронизированными с внешними природными ритмами -суточный цикл освещения, годовой цикл смены сезонов и т.п. Поэтому обычно графики биологических ритмов снимаются в течение одного исследуемого периода.

Основными проблемами, затрудняющими анализ хронобиологических данных, являются малый объем статистических выборок и слабая взаимосвязь между отдельными наблюдениями. К сожалению, и то, и другое вытекает из особенностей получения данных о биологических ритмах -во многих случаях с одного подопытного организма можно получить лишь одно значение исследуемого параметра. Кроме того, даже безопасное для подопытного организма взятие анализа редко проходит для него незамеченным. Повтор-

ные измерения через фиксированные интервалы времени могут привести к тому, что исследуемый ритм испытает мощное внешнее воздействие самого процесса исследования, и полученные результаты будут иметь слабое отношение к реально происходящим в природе процессам. В результате обычно получаемые хронобиологические данные имеют такие особенности: все значения получены от различных подопытных организмов; для каждого момента количество измерений невелико (3 -7 значений).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Обычная процедура анализа полученных данных предполагает вычисление среднего значения исследуемого параметра и его дисперсии для каждого промежутка времени, оценку ошибки и доверительных интервалов, а также построение графика изменения данного параметра с течением времени [1]. При этом возникают следующие проблемы.

1. Распределение измеряемых значений чаще всего молчаливо предполагается нормальным. Проверить гипотезу о нормальном распределении статистическими методами невозможно, поскольку ни один критерий не будет работать с тремя-пятью измерениями случайной величины [2].

i Надоели баннеры? Вы всегда можете отключить рекламу.