Научная статья на тему 'Фильтрация нежелательных приложений интернет-ресурсов в целях информационной безопасности'

Фильтрация нежелательных приложений интернет-ресурсов в целях информационной безопасности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
495
92
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ СЕТЕВОГО ТРАФИКА / МАШИННОЕ ОБУЧЕНИЕ / НЕЖЕЛАТЕЛЬНЫЕ ПРИЛОЖЕНИЯ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / ФОНОВЫЙ ТРАФИК / АТРИБУТЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелухин Олег Иванович, Смычёк Михаил Александрович, Симонян Айрапет Генрикович

Рассмотрена актуальная задача контроля доступа к Интернет-ресурсам имеющая важное прикладное значение: блокирование доступа к нелегальной, экстремистской, антисоциальной информации, предотвращение утечки конфиденциальной информации через Интернет и др. Для решения подобных задач широкое распространение используются методы машинного обучения. Традиционные методы классификации сетевого трафика, основанные как на номерах портов, так и на информационной нагрузке, полагаются на прямое изучение сетевых пакетов. При наличии полного и помеченного тренировочного набора данных, целесообразно строить классификатор, используя технологии машинного обучения (Machine Learning) и интеллектуального анализа данных (Data Mining), оказавшиеся наиболее эффективными. Создание «идеального» классификатора невозможно пока не будут решены проблемы, присущие данной области. Прежде всего это отсутствие общего, репрезентативного набора исходных данных, который мог бы стать стандартным для исследований в данной области. Большинство известных работ посвященных проблеме классификации трафика опускают фундаментальное требование определения неизвестного типа трафика. Целью работы является исследование эффективности алгоритмов классификации приложений сетевого трафика в условиях наличия фонового трафика. Новизной представленного решения является анализ следующих групп приложений: Web -протоколы просмотра web-сайтов http, https; ftp -протокол для передачи файлов ftp; mail -протоколы для передачи электронной почты SMTP, POP3, IMAP; p2p -протоколы приложений, использующие пиринговые сети для передачи файлов путем использования алгоритмов машинного обучения: С4.5; Random Forests; Support Vector Machine; Bagging и Adaptive Boost в условиях наличия неклассифицируемогоо (фонового) трафика. Показано, что качество классификации в условиях наличия фонового трафика снижается для всех рассматриваемых алгоритмах классификации. Однако поскольку алгоритмы C4.5, Random Forests, Bagging и AdaBoost построены на использовании деревьев принятия решений одного в случае (С4.5) или множества, их характеристики остаются достаточно высокими и отличаются незначительно.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шелухин Олег Иванович, Смычёк Михаил Александрович, Симонян Айрапет Генрикович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Фильтрация нежелательных приложений интернет-ресурсов в целях информационной безопасности»

doi 10.24411/2409-5419-2018-10044

ФИЛЬТРАЦИЯ НЕЖЕЛАТЕЛЬНЫХ ПРИЛОЖЕНИЙ ИНТЕРНЕТ-РЕСУРСОВ В ЦЕЛЯХ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ

ШЕЛУХИН Олег Иванович1

СМЫЧЁК

Михаил Александрович2 СИМОНЯН

Айрапет Генрикович3

Сведения об авторах:

1д.т.н., профессор, заведующий кафедрой информационной безопасности Московского технического университета связи и информатики, г. Москва, Россия,зЬе1иЫп@таП.ги

2к.т.н, главный специалист отдела проектирования сетей связи Акционерного общества «Гипрогазцентр», г. Нижний Новгород, Россия, [email protected]

3к.т.н., доцент кафедры информационной безопасности Московского технического университета связи и информатики, г. Москва, Россия, [email protected]

АННОТАЦИЯ

Рассмотрена актуальная задача контроля доступа к Интернет-ресурсам имеющая важное прикладное значение: блокирование доступа к нелегальной, экстремистской, антисоциальной информации, предотвращение утечки конфиденциальной информации через Интернет и др. Для решения подобных задач широкое распространение используются методы машинного обучения. Традиционные методы классификации сетевого трафика, основанные как на номерах портов, так и на информационной нагрузке, полагаются на прямое изучение сетевых пакетов. При наличии полного и помеченного тренировочного набора данных, целесообразно строить классификатор, используя технологии машинного обучения (Machine Learning) и интеллектуального анализа данных (Data Mining), оказавшиеся наиболее эффективными. Создание «идеального» классификатора невозможно пока не будут решены проблемы, присущие данной области. Прежде всего это отсутствие общего, репрезентативного набора исходных данных, который мог бы стать стандартным для исследований в данной области. Большинство известных работ посвященных проблеме классификации трафика опускают фундаментальное требование определения неизвестного типа трафика.

Целью работы является исследование эффективности алгоритмов классификации приложений сетевого трафика в условиях наличия фонового трафика. Новизной представленного решения является анализ следующих групп приложений: Web -протоколы просмотра web-сайтов - http, https; ftp -протокол для передачи файлов ftp; mail -протоколы для передачи электронной почты - SMTP, POP3, IMAP; p2p -протоколы приложений, использующие пиринговые сети для передачи файлов путем использования алгоритмов машинного обучения: С4.5; Random Forests; Support Vector Machine; Bagging и Adaptive Boost в условиях наличия неклассифицируемогоо (фонового) трафика. Показано, что качество классификации в условиях наличия фонового трафика снижается для всех рассматриваемых алгоритмах классификации. Однако поскольку алгоритмы C4.5, Random Forests, Bagging и AdaBoost построены на использовании деревьев принятия решений - одного в случае (С4.5) или множества, их характеристики остаются достаточно высокими и отличаются незначительно.

КЛЮЧЕВЫЕ СЛОВА: классификация сетевого трафика, машинное обучение, нежелательные приложения, информационная безопасность, фоновый трафик, атрибуты.

Для цитирования: Шелухин О. И., Смычек М. А., Симонян А. Г. Фильтрация нежелательных приложений интернет-ресурсов в целях информационной безопасности // Наукоемкие технологии в космических исследованиях Земли. 2018. Т. 10. № 2. С. 87-98. Со 10.24411/2409-5419-2018-10044

Постановка задачи

Проблема контроля доступа к Интернет-ресурсам актуальна и имеет важное прикладное значение по следующим основным причинам: блокирование доступа к нелегальной (экстремистской, антисоциальной и т.п.) информации, предотвращение доступа к Интернет-ресурсам в личных целях в учебное или рабочее время, предотвращение утечки конфиденциальной информации через Интернет.

Вредоносные программы и атаки обычно используют непроверяемый канал зашифрованного трафика HTTPS. Не соответствующее политике или нежелательное поведение пользователей.

Первая задача, которая встает перед администраторами, это определить, какой тип сетевого трафика генерируется пользователями. Трафик может быть вредоносным (например, кража данных или разведка сети), неприемлемым и нарушающим политику (например, использование служб обмена файлами) или выходящим за рамки обычных бизнес-процессов (например, генерирование трафика в нерабочее время). Приложения, соответствующие вредоносному трафику, называют нежелательными. Это могут быть потенциально опасные приложения. У разных сетевых приложений (для использования социальных сетей, служб обмена мгновенными сообщениями, служб обмена файлами, одноранговых служб и др.) разные риски безопасности. Они могут ставить под угрозу данные и системные активы, влиять на производительность труда сотрудников и использовать пропускную способность сети.

Таким образом проблема контроля доступа к Интернет ресурсам актуальна и имеет важное значение по следующим основным причинам:

— блокирование доступа к нелегальной (экстремистской, антисоциальной и другой) информации;

— предотвращение использования Интернет ресурсов не по назначению, в частности, ограничение и контроль доступа к развлекательным и другим ресурсам для личного пользования;

— предотвращение утечки конфиденциальной информации через Интернет.

Классификация сетевого трафика позволяет обеспечить ясное понимание типа трафика, проходящего через сеть. Она является наиболее существенной частью современных сетевых систем. Для удобства управления администраторы сетевых систем всегда стараются получить точное и ясное соответствие сетевых приложений и создаваемого им трафика, тем самым обеспечив полноценный контроль над теми приложениями, которые используют их сеть.

Ограниченность традиционных подходов классификации трафика на основе номеров портов и нагрузки привела к совершенствованию алгоритмов машинного обучения, опираясь на характеристики трафика на уровне как потоков так и пакетов [1-5]. При наличии набора поме-

ченных тренировочных данных эта задача в большинстве работ формулируется как мультиклассовая классификация с учителем, а полученные при этом результаты показывают, что методами машинного обучения можно достичь высокой точности предсказания. Однако, некоторые свойства таких классификаторов оказываются проигнорированы. причем самым критичным из них является способность идентифицировать неизвестный трафик.

Большинство известных работ посвященных проблеме классификации трафика [6-10] опускают фундаментальное требование определения неизвестного типа трафика. В одних случаях неизвестный трафик полностью исключается при проектировании классификаторов, осуществляющих мультиклассовую классификацию с учителем в условиях только известных классов приложений. В других случаях неизвестный трафик не присутствовал в большинстве экспериментов, в которых классификаторы обучались на данных из ограниченного числа классов приложений и тестировались с помощью других данных из тех же известных классов.

Только в нескольких работах проводилось тестирование классификатора на предмет работы с неизвестным трафиком для различных целей. Так в [10-11], трафик неизвестных протоколов был использован для тестирования одноклассовых классификаторов. В [12] внимание было сфокусировано на задаче распределения недостающих протоколов по категориям.

Классификаторы, основанные на статистике, были использованы в [12] для анализа трафика, который не могли распознать средства DPI, и который мог принадлежать как к одному из известных классов (но пропущенного DPI), так и к неизвестному протоколу. Для осуществления этой задачи был использован внутренний индикатор алгоритма C4.5 — уровень доверия каждого из прогнозов, а принимались только те решения, у которых этот показатель был выше 95%.

В итоге, несмотря на большое количество работ, осталось не ясным, можно ли использовать алгоритмы машинного обучения с учителем для создания классификаторов, способных не только разделять объекты по нужным классам, но также и идентифицировать их из остального фонового или неизвестного трафика.

Целью работы является исследование эффективности алгоритмов классификации приложений сетевого трафика в условиях наличия фонового трафика

Классификация сетевого трафика с учителем

В контексте классификации сетевого трафика, объектом классификации являются сетевые потоки, состоящие из последовательности сетевых пакетов, которыми обмениваются пара узлов с целью межпроцессного взаимодействия через компьютерные сети. В частности, Интернет-

потоки могут быть определены как однонаправленный и двунаправленный потоки.

Однонаправленный поток — последовательность пакетов, имеющих 5 общих параметров, включающих сетевой адрес источника, сетевой адрес получателя, номер порта источника, номер порта получателя и протокол транспортного уровня {srcIP, dstIP, srcPort, dstPort, Protocol}.

Двунаправленный поток (или просто поток). Поток — пара однонаправленных потоков, идущих в противоположных направлениях между двумя узлами, которые можно идентифицировать по их адресу сокета {srcIP, srcPort, Protocol} и {dstIP, dstPort, Protocol}. Все потоки, анализируемые в данной работе, являются двунаправленными. Направление потока определяется по первому захваченному пакету в потоке.

При статистической классификации сетевого трафика, объекты потоков описываются измеренными значениями определенного набора атрибутов, которые затем используются для обучения и классификации. В результате каждый объект представляет собой вектор признаков X = (x1, ..., x), который может считаться точкой данных в d-мерном пространстве признаков, где d — количество признаков.

Набор признаков как правило состоит из некоторых наблюдаемых характеристик пакетного уровня или уровня потоков трафика, характеризующие отличительное поведение и внутреннюю природу сетевых приложений.

Путем измерения набора пакетов и байтов, передаваемых в потоке можно определить небольшой по размеру набор признаков, а также максимальное, минимальное, среднее значение и стандартное отклонение длины пакета и межпакетного интервала (табл. 1).

Таблица 1

Простые атрибуты трафика

Что наблюдается Статистика Количество атрибутов

Пакеты Количество пакетов 2

Байты Объем байтов 2

Размер пакета Мин., макс., среднее знач., станд. отклонение 8

Межпакетный интервал Мин., макс., среднее знач., станд. отклонение 8

Всего 20

Машинное обучение с учителем представляет собой двухэтапный процесс.

Первый этап — обучение, при котором на вход обучающего алгоритма поступает тренировочный помеченный набор данных Б = {(х с.\ где х . = (х .., ха) Яа — это вектор признаков для объекта, а с. е С = {ю1,., ю^} —

метка класса объекта (d и k — количество признаков и классов соответственно). На основе набора данных алгоритм выделяет классификационную модель (вероятностную модель или набор правил классификации), которая может считаться функцией, размечивающей входной вектор признаков в выходную метку класса, т.е. F(x): Rd^C.

Второй этап — тестирование (или онлайновая классификация), при котором классификатор используется для предсказания класса приложения новых объектов потоков.

Возможные способы классификации:

1. На основе номеров порта: определяются номера портов протоколов транспортного уровня (TCP или UDP), и на основе него определяется приложение, создавшее трафик. Плюсы: быстрота работы, простота реализации. Минусы: низкая точность.

2. Анализ содержимого (нагрузки) пакетов: анализируется содержимое пакетов, ищутся сигнатуры, характерные для определенных приложений. Плюсы: высокая точность. Минусы: невысокая скорость работы, при зашифрованном содержимом пакетов метод неприменим.

3. Анализ статистических данных потоков: анализируется статистические свойства потоков, для классификации используются алгоритмы машинного обучения. Плюсы: высокая скорость и точность. Минусы: необходимо иметь предварительно классифицированную обучающую выборку.

Большинство алгоритмов машинного обучения с учителем спроектированы для обучения бинарных или мультиклассовых классификаторов [13]. На основе обучающего набора данных, состоящего из объектов обоих классов бинарные (или биномиальные) классификаторы выбирают между двумя классами объектов. Соответственно мультиклассовые (или мультиномиальные) классификаторы разделяют объекты на множество классов в соответствии с тренировочным набором данных, состоящим из объектов всех классов. Оба типа классификаторов основаны на двух предположениях.

Во первых — все классы известны заблаговременно. Во вторых — для каждого класса имеется эффективный и показательный набор данных.

Другими словами, классификаторы с учителем неспособны определить объект неизвестного класса, не представленного в обучающей выборке. В то же время, идентификация неизвестного типа трафика является самым важным требованием в современной классификации сетевого трафика поскольку, в связи с эволюцией Интернета появляются новые приложения и протоколы, новые типы трафика, которые либо неизвестны, либо представлены не полностью на момент обучения. С другой стороны, даже для существующих приложений и протоколов очень тяжело и дорого получить полноценный помеченный набор данных, характеризующих каждый класс.

Таким образом, чтобы построить практичный классификатор трафика методами машинного обучения с учителем, нужно быть очень осторожными с определением класса и построением тренировочного набора.

Критерии оценки качества классификации

Получили распространение несколько численных критериев оценки качества классификаторов [1-2, 13]. В работе использовались такие метрики, как Precision (Точность), Recall (Полнота), F-Measure (F-мера) и AUC (Area Under Curve) — площадь под кривой ROC [14, 20].

Эти метрики вычисляются на основании результатов классификации и полученных показателей TP, FP, TN и FN:

• TP — True Positive (Истинно Положительный) — означает, что объект был правильно отнесен к рассматриваемому классу;

• FP — False Positive (Ложно Положительный) — означает, что объект был отнесен к классу, которому на самом деле не принадлежит;

• TN — True Negative (Истинно Отрицательный) — объект не относится к рассматриваемому классу и был верно классифицирован как объект не этого класса;

• FN — False Negative (Ложно Отрицательный) — объект ошибочно классифицируется как экземпляр не данного класса, хотя на деле принадлежит ему.

Precision и recall являются метриками, которые используются при оценке большинства алгоритмов классификации.

Точность в пределах одного класса вычисляется как доля объектов, которые действительно принадлежат данному классу, по отношению ко всем объектам, которые были отнесены к нему:

Precision =

TP

TP+FP

Другой критерий Recall — полнота — показывает долю найденных классификатором объектов класса из всех объектов в выборке трафика, принадлежащих этому классу:

Recall =

TP

TP+FN

Поскольку на практике тяжело достигнуть максимального значения точности и полноты, можно применять метрику, которая объединяет информацию о точности и полноте классификатора. Такой критерий оценки носит название F-меры (F-Measure). Он лучше всего позволяет показать качество классификатора и оценить, как оно меняется при изменении некоторых параметров — в лучшую или в худшую сторону. F-мера вычисляется как гармоническое среднее между Precision и Recall:

F - Measure=2*

Precision*Recall Precision+Recall

Для визуальной оценки качества классификации, удобно пользоваться ROC — кривой (Receiver Operating Characteristic) — рабочая характеристика приемника, также известная как кривая ошибок, которая отображает соотношение между долей TPR и FPR. TPR (True Positive Rate) — наиболее простая метрика оценки классификатора, показывающая качество разделения классов алгоритмом, вычисляется выражением:

TPR =

TP+FN

TP+TN+FP+FN

Метрика — FPR (False Positive Rate), вычисляется по формуле:

FPR =

FP

FP+TN

Количественный показатель ROC — кривой называется AUV (Area Under Curve) — площадь под кривой, соответственно представляет собой площадь фигуры, ограниченной ROC-кривой. Чем выше этот параметр, тем выше и качество классификатора. Стоит заметить, что при AUC = 0.5, вероятность верного принятия решения классификатором будет составлять 50%, что является по своей сути случайным угадыванием. Естественно, в таком случае классификатор не может быть применен для выполнения своей задачи.

Условия проведения эксперимента

Для сбора трафика использовалась машина с ОС Ubuntu 16.04 при помощи программы сниффера (tcpdump). На этапе анализа собранного трафика и формирования выборок (обучающей и тестирующей) трафика для каждого приложения формировались только выборки для выбранных приложений, трафик остальных приложений (фоновый трафик) не рассматривался. Каждой полученной выборке присваивалось название приложения. Так как классификация производилась по потокам то для обучения так же использовались потоки. Варьируя количество потоков в обучающей выборке, экспериментально определялось необходимое количество потоков для заданных приложений и алгоритмов и влияние фонового трафика на качество классификации.

Анализировались следующие группы приложений:

• Web -протоколы просмотра web-сайтов — http, https; ftp -протокол для передачи файлов ftp; mail -протоколы для передачи электронной почты — SMTP, POP3, IMAP; p2p -протоколы приложений, использующие пиринговые сети для передачи файлов;

Использовались следующие алгоритмы машинного обучения: С4.5 [15]; Random Forests [16]; Support Vector Machine (SVM) [17]; Bagging [18]; Adaptive Boost [19].

Для каждого приложения были сформированы две выборки. Одна из выборок использовалась для обучения

Выбор атрибутов

При анализе потоков собирались различные данные о характеристиках потока (его продолжительность, количество переданных данных, максимальный и минимальный размеры пакетов, и др.). Всего таких атрибутов было более 30 (табл. 3).

Для улучшения качества классификации и снижения времени на обучение и классификацию каждого отдельного потока определялось, какие атрибуты необходимы, а какие можно не учитывать.

Для определения необходимого количества атрибутов, использовались методы фильтрации атрибутов. Фильтрация атрибутов — процесс выделения наиболее релевантных атрибутов для дальнейшего построения классификатора. Фильтрация атрибутов позволяет уменьшить время обучения и повысить эффективность алгоритмов классификации. Выбор атрибутов осуществлялся методом филь-

Таблица 3

Полный список атрибутов потоков

№ Название Описание

1 is_tcp протокол транспортного уровня (1 - TCP, 0 - UDP)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 max_iat максимальный межпакетный интервал

3 min_iat минимальный межпакетный интервал

4 med_iat медианное значение межпакетного интервала

5 mean_iat среднее значение межпакетного интервала

6 var_iat среднеквадратическое отклонение межпакетного интервала

7 total_packet_src количество пакетов от источника

8 prop_packet_src доля пакетов источника от общего количества пакетов в потоке

9 total_data общее количество переданных данных

10 max_src_data максимальный размер пакета отправителя

11 min_src_data минимальный размер пакета отправителя

12 med_src_data медианный размер пакета от отправителя

13 mean_src_data средний размер пакета отправителя

14 var_src_data_ip среднеквадратическое отклонение размера пакета отправителя

15 prop_src_data доля данных, переданных отправителем в общем количестве данных потока

16 total_packet_dst количество пакетов, переданных от получателя

17 prop_packet_dst доля пакетов получателя от общего количества пакетов в потоке

18 max_dst_data максимальный размер пакета от получателя

19 min_dst_data минимальный размер пакета получателя

20 med_dst_data медианный размер пакета получателя

21 mean_dst_data средний размер данных в пакете от получателя

22 var_dst_data среднеквадратическое отклонение размера пакета получателя

(построения модели классификатора), а вторая для тестирования качества алгоритмов (табл. 2). В выборках присутствовал фоновый трафик, содержащий 221 поток и состоящий из 3212 пакетов. Фоновый трафик включал различные приложения, такие как DNS, Skype, Games и трафик системных приложений.

Таблица 2

Обучающие выборки

Тип приложений Объем обучающей выборки Объем тестирующей выборки

потоков пакетов потоков пакетов

Ftp 587 285934 1010 245183

mail 533 319769 565 322829

P2p 587 642817 767 932525

web 549 33697 920 51862

Продолжение табл.3

23 prop_dst_data доля данных, переданных получателем в общем количестве данных потока

24 total_packets общее количество пакетов

25 src_to_dst_ratio_packets отношение количества пакетов источника к количеству пакетов от получателя

26 total_data общее количество переданных данных

27 src_to_dst_ratio_data отношение размера данных, переданных источником к размеру данных, переданных получателем

28 max_data максимальное значение размера данных в потоке

29 min_data минимальное значение размера данных в потоке

30 med_data медианное значение размера данных в потоке

31 mean_data среднее значение размера данных в потоке

32 var_data_ip среднеквадратическое отклонение значения размера данных в потоке

33 min_src_iat минимальный интервал между пакетами отправителя

34 max_src_iat максимальный интервал между пакетами отправителя

35 mean_src_iat средний размер интервала между пакетами отправителя

36 min_dst_iat минимальный интервал между пакетами получателя

37 max_dst_iat максимальный интервал между пакетами получателя

38 mean_dst_iat средний размер интервала между пакетами получателя

трации атрибутов, основанным на корреляции (Correlation Feature Selection) [21]. Метод базируется на гипотезе о том, что «хорошее» множество атрибутов состоит из атрибутов, имеющие сильную корреляцию с классом, но слабую друг с другом. Для оценки множестваc S, состоящего из k атрибутов используется следующее выражение:

Kf

MeritS = ,

k jk + к (к - \)r'ff

где rf — среднее значение корреляции атрибут-класс, а rf — среднее значение корреляции между атрибутами

в заданном множестве. В результате работы алгоритма, были выбраны атрибуты (табл. 4).

Влияние объема обучающей выборки на эффективность классификации

Ниже представлены полученные экспериментально зависимости изменения характеристики F-score (взвешенное среднее precision и recall) от количества потоков заданного приложения (а-г) в обучающей выборке в отсутствии ФТ (рис. 1).

Видно, что в отсутствии ФТ объем обучающей выборки лежит в интервале 50 (для приложений типа mail и ftp) до

Таблица 4

Описание выбранных атрибутов

Название атрибута Описание

max_dst_iat Максимальный интервал между пакетами получателя

min_src_iat Минимальный интервал между пакетами отправителя

max_src_iat Максимальный интервал между пакетами отправителя

min_dst_data Минимальный размер пакета получателя

max_dst_data Максимальный размер пакета получателя

max_src_data Максимальный размер пакета отправителя

mean_src_data Средний размер пакета отправителя

а) web

б) ftp

■ C4.5

в) p2P

-Ad a Boost

Bagging

г) mail

Random Forest - - - - SVM

Рис. 1. Изменение характеристики F-score в зависимости от количества потоков заданного приложения (а-г) в обучающей выборке

170-200 (для приложений р2р и web). Наилучшие результаты дают алгоритмы С4.5; Random Forests; Bagging и Adaptive Boos. Наихудшие результаты показывает алгоритм SVM.

Влияние фонового трафика на качественные характеристики классификации

Сравнение трех характеристик precision, recall и F-score при максимальном количестве потоков в обучающей выборке представлены ниже (рис. 2). За исключением SVM, все алгоритмы показали примерно одинаковые результаты.

Ниже представлено сравнение тех же трех характеристик при максимальном количестве потоков в обучающей выборке в случае наличия ФТ (рис. 3).

Видно, что качество классификации в условиях наличия ФТ снижается для всех рассматриваемых алгоритмах классификации. Однако поскольку алгоритмы C4.5,

Random Forests, Bagging и AdaBoost использует деревья принятия решений — одно в случае (С4.5) или множество, то их характеристики остаются достаточно высокими и отличаются незначительно. Напротив, поскольку SVM использует принципиально иной подход -строит отдельные классификаторы для каждой комбинации классов то качество этого алгоритма, то результаты показали, что для него экстенсивное увеличение объема обучающей выборки не приносит значительного улучшения результатов.

Рассмотрим зависимость характеристик характеризующих качество классификации (precision и recall) от объема тестирующей выборки в условиях наличия ФТ (рис. 4) и (рис. 5).

Как видно, фоновый трафик заметно снижает характеристики precision. Так для приложения web она находится на уровне 0,8, для приложения p2p — на уровне 0,85.

а) web

в) p2P

б) ftp г) mail

Рис. 2. Сравнение характеристик (precision, recall, F-score) для всех приложений (а-г) при максимальном количестве потоков в обучающей выборке

а) web

в) p2p

б) ftp

г) mail

Рис. 3. Сравнение характеристик (precision, recall, F-score) для всех приложений (а-г) при максимальном количестве потоков в обучающей выборке и наличии ФТ

а) web

в) p2P

б) ftp

■C4.5 — ■ - Random Forest

■SVM

г) mail

■Bagging - — --AdaBoost

Рис. 4. Изменение характеристики precision для заданного приложения(а-г) в зависимости от количества потоков в обучающей выборке

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1=1 1=1 1=1 '=' '=' О '=' ■=' О '=' О '=■ ■=' О '=' О '='

- ■ ■ ■ - - ........г^ о m щ сп

тг

а Л Л U1 со ^Ч ^Ч ^ М ^ ГГ,

а) web

в) p2p

б) ftp

■С4.5 — - - Random Forest

■SVM

г) mail ■Bagging ----AdaBoost

Рис. 5. Изменение характеристики recall для заданного приложения(а-г) в зависимости от количества потоков приложений в обучающей выборке

В результате, большинство потоков фонового трафика классифицируется как web или p2p.

Из зависимостей (рис. 5), видно что фоновый трафик слабо влияет на характеристику recall.

Заключение

Атрибуты для классификации можно выбрать при помощи методов фильтрации атрибутов, например методом CFS (Correlation Feature Selection). Были выбраны 7 атрибутов, которые использовались для классификации.

Проведенные измерения зависимости характеристик классификации precision, recall и F-score от количества потоков в обучающей выборке показали, что при отсутствии фонового трафика достаточное количество потоков для точной классификации 300 и более. Количество потоков в обучающей выборке сильнее влияет на характеристику recall, чем на precision.

Учет наличия фонового трафика, приводит к снижению характеристики precision, которое нельзя компенсировать увеличением количества потоков в обучающей выборке. На характеристику recall фоновый трафик влияет слабо.

В целом, по результатам обучения и тестирования разных алгоритмов МО для классификации трафика, можно сказать, что алгоритм. Random Forest и C4.5 показали наилучшие результаты,

Классификация фонового трафика показала, что алгоритмы МО с учителем, качество работы которых полностью основывается на полноте и достоверности обучающих выборок данных, не способны определить новые, неизвестные данные, что ведёт к неминуемым и критичным ошибкам классификации.

Естественным развитием в данном направлении является применение иных алгоритмов обучения или же методов кластеризации, предназначенных для определения и разграничения неизвестных типов трафика, которые затем анализируются и классифицируются.

Литература

1. Шелухин О. И., Калугин Ю. А. Влияние «прореживания» пакетов на качество классификации потоков сетевого трафика методами машинного обучения // Нейрокомпьютеры: разработка, применение. 2016. № 4. С. 14-24.

2. Шелухин О. И., Симонян А. Г., Ванюшина А. В. Эффективность алгоритмов выделения атрибутов в задачах классификации приложений при интеллектуальном анализе трафика // Электросвязь. 2016. № 11. С. 45-52.

3. Костин Д. В., Шелухин О. И. Сравнительный анализ алгоритмов машинного обучения для проведения классификации сетевого зашифрованного трафика // Т-Comm: Телекоммуникации и транспорт. 2016. T. 10. № 9. C. 46-52.

4. Шелухин О. И., Симонян А. Г., Ванюшина А. В. Влияние структуры обучающей выборки на эффективность классифи-

кации приложений трафика методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2017. Т. 11. № 2. С. 25-31.

5. Шелухин О.И., Симонян А. Г., Ванюшина А. В. Формирование исходных данных и анализ программного обеспечения для классификации приложений трафика методом машинного обучения // T-Comm. 2017. Т. 11. № 1. С. 67-72.

6. Soule A., Salamatia K., Taft N., Emilion R., Papagiannaki K. Flow Classification by Histograms or How to Go on Safari in the Internet // In Proceedings of the joint international conference on Measurement and modeling of computer systems (SIGMETRICS'04/ Performance'04). New York, 2004. Pp. 49-60.

7. Moore A. W., Zuev D., Crogan M. Discriminators for Use in Flow-Based Classification: Technical Report RR-05-13 / Department of Computer Science, Queen Mary, University of London, 2005. 14 p.

8. Zuev D., Moore A. W. Traffic Classification using a Statistical Approach // In Proceedings of the 6th international conference on Passive and Active Network Measurement (PAM05). Boston, MA, USA, 2005. Pp. 321-324.

9. Moore A. W., Zuev D. Internet Traffic Classification Using Bayesian Analysis Techniques // In Proceedings of the 2005 ACM International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS'05). Banff, Alberta, Canada, 2005. Pp. 50-60.

10. Crotti M., Gringoli F., Pelosato P., Salgarelli L. A Statistical Approach to IP-level Classification of Network Traffic // In Proceedings of IEEE International Conference on Communications (ICC'06). Istanbul, Turkey, 2006. Vol. 1. Pp. 170-176.

11. Este A., Gringoli F., Salgarelli L. Support Vector Machines for TCP Traffic Classification // Computer Networks. 2009. Vol. 53. No. 14. Pp. 2476-2490.

12. Pietrzyk M., Costeux J.-L., Urvoy-Keller G., En-Najjary T. Challenging Statistical Classification for Operational Usage: the ADSL Case // In Proceedings of the 9th ACM SIGCOMM Conference on Internet Measurement Conference (IMC'09). Chicago, Illinois, USA, 2009. Pp. 122-135.

13. Witten Ia. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. 2nd edition. San Francisco: Morgan Kaufmann Publ., 2005. 525 p.

14. Lee Suchul, Kim H., Barman D., Lee Sungryoul, Kim Ch., Kwon T., Choi Ya. NeTraMark: A Network Traffic Classification Benchmark // ACM SIGCOMM Computer Communication Review. 2011. Vol. 41. No. 1. Pp. 22-30.

15. Quinlan J. C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publ., 1993. 302 p.

16. Ho T. K. Random Decision Forests // Proceedings of the 3rd International Conference on Document Analysis and Recognition (Montreal, QC, 14-16 August 1995). Washington, IEEE Computer Society, 1995. Vol. 1. 278 p.

17. Cortes. C., Vapnik. V. Support-vector networks // Machine Learning. 1995. Vol. 20. Issue 3. Pp. 273-297.

18. Breiman L. Bagging predictors // Machine Learning. 1996. Vol. 24. Issue 2. Pp. 123-140.

19. Schapire R. E. The Boosting Approach to Machine Learning: An Overview // MSRI Workshop on Nonlinear Estimation and Classification, 2002. 23 p.

20. Powers D. M. W. Evaluation: From precision, recall and f-measure to roc., informedness, markedness & corre-

lation // Journal of Machine Learning Technologies. 2011. Vol. 2. No. 1. C. 37-63.

21. Mark A. Hall Correlation-based Feature Selection for Machine Learning, 1999. URLhttp://www.cs.waikato. ac.nz/~mhall/thesis.pdf (дата обращения 11.09.2017).

FILTERING UNWANTED APPLICATIONS OF INTERNET RESOURCES FOR INFORMATION SECURITY PURPOSES

OLEG I. SHELUHIN,

Moscow, Russia, [email protected]

AIRAPET G. SIMONYAN,

Moscow, Russia, [email protected]

MIKHAIL A. SMYCHEK,

Nizhny Novgorod, Russia, [email protected]

KEYWORDS: classification of network traffic; machine learning; unwanted applications; information security; background traffic; attributes.

ABSTRACT

The work shows the actual task of controlling access to Internet resources, which has important practical importance: blocking access to illegal, extremist, antisocial information, preventing the leakage of confidential information via the Internet, etc. To solve such problems, methods of machine learning are widely used. Traditional methods for classifying network traffic, based on both port numbers and information load, rely on the direct study of network packets. If there is a complete and tagged training dataset, it is advisable to build a classifier using Machine Learning (ML) and Data Mining technologies, which turned out to be the most effective. It is impossible to create an "ideal" classifier, until the problems existing in this field are solved. First of all, this is the absence of a general, representative set of input data that could become standard for research in this field. Most of well-known studies devoted to the problem of traffic classification, omit the fundamental requirement to determine the unknown type of traffic.

The aim of the paper is to investigate the efficiency of algorithms for classifying network traffic applications in the presence of background traffic.

The novelty of the presented solution is the analysis of the following application groups: Web-protocols for browsing web-sites - http,

https; ftp-protocol for transferring ftp files; mail-protocols for sending e-mail - SMTP, POP3, IMAP; p2p-protocols of applications that use peer-to-peer networks for file transfer using machine learning algorithms: C4.5; Random Forests; Support Vector Machine (SVM); Bagging and Adaptive Boost in the presence of unclassified (background) traffic.

It is shown that the quality of classification in the presence of background traffic is reduced for all classification algorithms under consideration. However, since the algorithms C4.5, Random Forests, Bagging, and AdaBoost are built on the use of decision trees - one in the case of C4.5 or the set, their characteristics remain sufficiently high and differ insignificantly.

REFERENCES

1. Sheluhin O. I. Kalugin Y. A. Vliyanie Sampling packets na effec-tivnost klassificatii trafika metodami mashinnogo obuthenia. Journal Neurocomputers. 2016. Vol. No. 4. Pp. 14-24. (In Russian)

2. Sheluhin O. I., Simonyan A. G., Vanyushina A. V. Algorithms efficiency for attributes isolation in applications classification problem with intelligent traffic analysis. Electrosviaz' [Telecommunications]. 2016. No. 11. Pp. 45-52. (In Russian)

3. Kostin D. V. Sheluhin O. I . Comparison of machine learning algorithms for encrypted traffic classification. ^Comm. 2016. Vol. 10. No. 9. Pp. 46-52. (In Russian)

4. Sheluhin O. I., Simonyan A. G., Vanyushina A. V. Influence of training sample structure on traffic application efficiency classification using machine-learning methods. T-Comm. 2017. Vol. 11. No. 2. Pp. 25-31.

5. Sheluhin O. I ., Simonyan A. G., Vanyushina A. V. Benchmark data formation and software analysis for classification of traffic applications using machine learning methods. T-Comm.2017. Vol. 11. No. 1. Pp. 67-72. (In Russian)

6. Soule A., Salamatia K., Taft N., Emilion R., Papagiannaki K. Flow Classification by Histograms or How to Go on Safari in the Internet. In Proceedings of the joint international conference on Measurement and modeling of computer systems (SIGMETRICS'04/Perfor-mance'04). New York, NY, USA, 2004. Pp. 49-60.

7. Moore A., Zuev D., Crogan M. Discriminators for Use in Flow-Based Classification. Technical Report RR-05-13, Department of Computer Science, Queen Mary, University of London, 2005.

8. Zuev D., Moore A. W. Traffic Classification using a Statistical Approach. In Proceedings of the 6th international conference on Passive and Active Network Measurement (PAM'05). Boston, MA, USA, 2005. Pp. 321-324.

9. Moore A. W., Zuev D. Internet Traffic Classification Using Bayesian Analysis Techniques. In Proceedings of the 2005 ACM International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS'05). Banff, Alberta, Canada, 2005. Pp. 50-60.

10. Crotti M., Gringoli F., Pelosato P., Salgarelli L. A Statistical Approach to IP-level Classification of Network Traffic. In Proceedings of IEEE International Conference on Communications (ICC'06). Istanbul, Turkey, 2006. Vol. 1. Pp. 170-176.

11. Este A, Gringoli F., Salgarelli L. Support Vector Machines for TCP Traffic Classification. Computer Networks. 2009. Vol. 53. No. 14. Pp. 2476-2490.

12. Pietrzyk M., Costeux J.-L., Urvoy-Keller G., En-Najjary T. Challenging Statistical Classification for Operational Usage: the ADSL Case. In Proceedings of the 9th ACM SIGCOMM Conference on Internet

Measurement Conference (IMC'09). Chicago, Illinois, USA, 2009. Pp. 22-135.

13. Witten la. H., Frank E., Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. 2nd edition. San Francisco: Morgan Kaufmann Publ., 2005. 525 p.

14. Lee Suchul, Kim H., Barman D., Lee Sungryoul, Kim Ch., Kwon T., Choi Ya. NeTraMark: A Network Traffic Classification Benchmark. ACM SIGCOMM Computer Communication Review. 2011. Vol. 41. No. 1. Pp. 22-30.

15. Quinlan J. C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publ., 1993. 302 p.

16. Ho T. K. Random Decision Forests. Proceedings of the 3rd International Conference on Document Analysis and Recognition (Montreal, QC, 14-16 August 1995). Washington, IEEE Computer Society, 1995. Vol. 1. 278 p.

17. Cortes. C., Vapnik. V. Support-vector networks. Machine Learning. 1995. Vol. 20. Issue 3. Pp. 273-297.

18. Breiman L. Bagging predictors. Machine Learning. 1996. Vol. 24. Issue 2. Pp. 123-140.

19. Schapire R. E. The Boosting Approach to Machine Learning: An Overview. MSRI Workshop on Nonlinear Estimation and Classification, 2002. 23 p.

21. Powers D. M. W. Evaluation: From precision, recall and f-measure to roc., informedness, markedness & correlation. Journal of Machine Learning Technologies. 2011. Vol. 2. No. 1. C. 37-63. 21. Mark A. Hall Correlation-based Feature Selection for Machine Learning, 1999. URL: http://www.cs.waikato.ac.nz/~mhall/thesis.pdf (date of access 11.09.2017).

INFORMATION ABOUT AUTHORS:

Sheluhin O. I., PhD, Full Professor, Head of Department Information Security of the Moscow Technical University of Communications and Informatics;

Smychek M. A., PhD, Chief Specialist of Design department of communication networks, JSC "Giprogazcentr";

Simonyan A. G., PhD, Associate Professor of the chair "Information Security", Moscow Technical University of Communication and Informatics.

For citation: Sheluhin O. I., Smychek M. A., Simonyan A. G. Filtering unwanted applications of Internet resources for information security purposes. H&ES Research. 2018. Vol. 10. No. 2. Pp. 87-98. doi 10.24411/2409-5419-2018-10044 (In Russian)

i Надоели баннеры? Вы всегда можете отключить рекламу.