Научная статья на тему 'Влияние структуры обучающей выборки на эффективность классификации приложений трафика методами машинного обучения'

Влияние структуры обучающей выборки на эффективность классификации приложений трафика методами машинного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
637
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / ТОЧНОСТЬ / ПРОТОКОЛ / ПОТОК / БАЙТЫ ПАКЕТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелухин Олег Иванович, Симонян Айрапет Генрикович, Ванюшина Анна Вячеславовна

В работе отмечается, что при классификации приложений трафика методами машинного обучения (МО) в зависимости от постановки задачи имеет значение будут ли классифицироваться потоки или байты. Показано, что существенное значение на точность классификации оказывает размер обучающей выборки. Для оценки эффективности классификации представлены результаты измерения трафика в центре обработке данных оператора связи. Размер анализируемого трафика составлял 315 Гб, что составило 299,3 млн. пакетов или 6,22 млн. потоков. Для экспериментальных исследований анализировался поток SIP, SSL, DNS, RDP, SSH, HTTP. Эффективность алгоритмов МО оценивалась по тестовой выборке из 900 тыс. экземпляров как по потокам, так и по байтам. Для оценки эффективности алгоритмов классификации использовались показатели в виде F-меры и достоверности (accurancy). Выбор признаков классификации осуществленный с использованием алгоритма Random Forest позволил уменьшить число атрибутов классификации до 12. Полученные зависимости достоверности и F-мера показали, что достоверность и точность алгоритмов CART и Random Forest превышает аналогичные показатели алгоритмов SVM, Adaboost и Naivebayes. Показано, что во всех анализируемых случаях качество классификации по потокам (98-99%) оказалось выше, чем по байтам (89-93%). Ключевые слова: классификация, достоверность, F-мера, атрибуты, Random Forest, SVM, Adaboost, Naive bayes, метрики, протокол, поток, пакет, байт.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шелухин Олег Иванович, Симонян Айрапет Генрикович, Ванюшина Анна Вячеславовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Влияние структуры обучающей выборки на эффективность классификации приложений трафика методами машинного обучения»

ВЛИЯНИЕ СТРУКТУРЫ ОБУЧАЮЩЕЙ ВЫБОРКИ НА ЭФФЕКТИВНОСТЬ КЛАССИФИКАЦИИ ПРИЛОЖЕНИЙ ТРАФИКА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Шелухин Олег Иванович,

профессор, д.т.н., Заведующий кафедрой "Информационная безопасность", МТУСИ, Москва, Россия, sheluhin@mail.ru

Симонян Айрапет Генрикович,

доцент, д.т.н., доцент кафедры "Информационная безопасность", МТУСИ, Москва, Россия, blackman-05@mail.ru

Ванюшина Анна Вячеславовна,

Старший преподаватель кафедры"Информационная безопасность", МТУСИ, Москва, Россия, vanuanna@rambler.ru

Ключевые слова: классификация, точность, протокол, поток, байты пакета.

В работе отмечается, что при классификации приложений трафика методами машинного обучения (МО) в зависимости от постановки задачи имеет значение будут ли классифицироваться потоки или байты.

Показано, что существенное значение на точность классификации оказывает размер обучающей выборки.

Для оценки эффективности классификации представлены результаты измерения трафика в центре обработке данных оператора связи. Размер анализируемого трафика составлял 3 15 Гб, что составило 299,3 млн. пакетов или 6,22 млн. потоков.

Для экспериментальных исследований анализировался поток SIP, SSL, DNS, RDP, SSH, HTTP. Эффективность алгоритмов МО оценивалась по тестовой выборке из 900 тыс. экземпляров как по потокам, так и по байтам. Для оценки эффективности алгоритмов классификации использовались показатели в виде F-меры и достоверности (accurancy). Выбор признаков классификации осуществленный с использованием алгоритма Random Forest позволил уменьшить число атрибутов классификации до 1 2. Полученные зависимости достоверности и F-мера показали, что достоверность и точность алгоритмов CART и Random Forest превышает аналогичные показатели алгоритмов SVM, Adaboost и Naivebayes.

Показано, что во всех анализируемых случаях качество классификации по потокам (98-99%) оказалось выше, чем по байтам (89-93%). Ключевые слова: классификация, достоверность, F-мера, атрибуты, Random Forest, SVM, Adaboost, Naive bayes, метрики, протокол, поток, пакет, байт.

Для цитирования:

Шелухин О.И., Симонян А.Г., Ванюшина А.В. Влияние структуры обучающей выборки на эффективность классификации приложений трафика методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2017. Том 11. №2. С. 25-31.

For citation:

Sheluhin O.I., Simonyan A.G., Vanyushina A.V. (2017). Influence of training sample structure on traffic application efficiency classification using machine-learning methods. T-Comm, vol. 11, no.2, рр. 25-31. (in Russian)

Постановка задачи

Современные исследования в области классификации трафика методами МО как правило фокусируются на измерении точности по количеству потоков, которые были корректно или некорректно классифицированы. Однако в работе [I] показано, что пакетная (байтовая) точность в ряде случаев является решающей при оценке точности алгоритмов классификации [рафика. Поскольку размер основной части потоков в интернете как правило очень мал, то при оценке по потокам только небольшое количество пакетов (байтов) принимается в рассмотрение. Это так называемые "мышиные потоки" ("mice Hows"). С другой стороны, основная часть пакетов трафика генерируется небольшим количеством огромных по размеру потоков. Это так называемые "слоновьи потоки" ("elephant flows"). Представленная в [1] статистика трафика, собранного за б месяцев, показала, что только один процент потоков создавал 73% байтового размера при пороге различимости между "мышиными" и "слоновьими" потоками в 3,7 мегабайта. При этом лишь 0,1% потоков создает 46% байтового объема. Учитывая это, при использовании классификатора, оптимизированного для классификации 99,9% потоков, можно получить 99,9% точности потоков, однако байтовая точность при этом будет только 46%.

Целесообразность применения поточной или байтовой точности, в большей степени зависит от того, для каких целей используется классификатор. Например, при классификации графика в целях улучшения качества обслуживания (QOS), предпочтительнее будет идентифицировать каждый поток. В данном случае байтовая точность не так важна. Другим примером может служить провайдер услуг, анализирующий потоки трафика, проходящие через его инфраструктуру, В этом случае более важна байтовая точность позволяющая понять какое приложение генерирует наибольший объем графика и загружает каналы связи. Важное значение в задачах классификации имеет размер обучающей выборки, который должен находится путем компромисса между временем обучения и требуемой точностью,

В соответствии с изложенным целью работы является сравнение эффективности алгоритмов классификации при обработке последовательности потоков и байтов, а также влияние размера обучающей выборки на достоверность алгоритмов классификации методом машинного обучения.

Процедура сбора трафика

Для оценки эффективности алгоритмов классификации были проведены измерения трафика в центре обработки данных одного из операторов связи с помощью программы tepdump [2] на пограничном маршрутизаторе ЦОД (рис. 1).

Исходными данными для исследования являлись IP-пакеты, собранные в точке наблюдения и определяемые на основе пяти полей заголовка <src_ip, src_port, dstip, dst_port,protocols а также правил формирования по которым определяется завершение потока. Здесь sre ip - IP-адрес источника, src_port - порт источника, dst_ip - IP-адрес назначения, dstjort - порт назначения, protocol - транспортный протокол.

Под потоком понимается двунаправленная последовательность потоков с учетом протокола пранспоргного уровня и номера портов. В качестве протоколов транспортного уровня рассматривались TCP и UDP.

Интернет

Точкл ^ftiсбора трлфика

Рис. I. Укрупненная схема сети провайдера связи

Потоку ставился в соответствие набор значений атрибутов, согласно которым проводилась классификация.

Фиксировался набор переменных (атрибутов), основанных на статистических характеристиках, таких как размер пакетов или интервалы между пакетами, и характеристиках, извлекаемых из заголовков пакетов, таких как размер ТСР-сегментов или количество повторных передач. Для обеспечения разнородности обучающей выборки, захват трафика производился в разное время суток. Основная часть трафика была собрана в дневные часы с 08:00 до 22:00, также 2 дампа были получены в 02:00 и 04:00 ночи. Всего было собрано 315 ГБ трафика, что составило 299,3 млн. пакетов или 6,22 млн. потоков. Информация по каждому собранному дампу трафика приведена в табл. 1.

Таблица 1

Информация о собранных дампах трафика

Дамп Время сбора Размер, ГБ Кол-во пакетов, млн.

Дамп-1 0200-0400 29 38,14

Дамп-2 0400-0600 14 12,52

Дамп-3 0800-1000 48 48,21

Дам п-4 1100-1300 31 23,45

Дамп-5 1200-1400 27 11,28

Дамп-6 1500-1700 48 50,41

Дамп-7 1700-1900 42 15,34

Дамп-8 1930-2130 64 83,27

Дамп-9 2200-0000 15 16,59

На рисунке 2 представлены распределения приложений разных типов трафика в собранном дампе, полученные с использованием открытой библиотеки содержания пакетов nDPI [3]. Здесь отражены 10 наиболее значимых приложений, имеющих наибольшее количество потоков или бантов в собранном дампе трафика.

Протоколы HTTP и SSH преобладают в собранном дампе как по размеру в байтах, так и но количеству потоков приложений (рис. 2), Протокол передачи данных FTP не вошел в 10 приложений, содержащих больше всего потоков, а в распределении по байтам он стоит на 4 месте, что можно объяснить особенностями структуры протокола. Протокол FTP предназначен для передачи данных и при работе им создается небольшое число потоков, в то время как количество данных переданных в одном потоке может быть значительным.

Для экспериментов полученный дамп данных был разделен на две выборки - тестовую и обучающую.

У

Т-Сотт Уо1.1 1. #2-201 7

С этой целью использовался механизм оценки важности атрибутов встроенный в алгоритм Random Forest. При построении решающего леса деревьев, алгоритм Random Korest оптимизирует набор признаков для достижения лучшей точности. На рисунке 3 представлена диаграмма, иллюстрирующая атрибуты, отсортированные по степени убывания важности в алгоритме Random Forest. Как можно заметить, первые 10 позиций на диаграмме относятся к атрибутам полезной нагрузки пакетов в потоке.

I

Е 0.111

I 2 3 4 5 6 7 3 S 10 11 12 13 11 IS 16 t7 18 19 :0 21 22 23 2J Ннкр атрибуте

Рис. 3. Степени важности атрибутов, оцененные алгоритмом Random Forest

Алгоритм Random Forest оценивает и ранжирует признаки по степени их важности, однако не отбирает их. Для их отбора была взята медиана значений важности и отобраны атрибуты, превышающие найденное значение. Эти значения приведены в табл. 3.

Таблица 3

Оценка важности атрибутов в деревьях решений алгоритма Random Forest

1 [ризнак(атрибут) Важность Отобран

1 min_pay load dir 0,2085 Да

2 max pay load dir 0,1291 Да

3 var_payload_dir 0,1189 Да

4 avg pay load dir 0,1048 Да

5 stdpayloaddir 0,0879 Да

6 varpay 1 oad_ back 0,0637 Да

7 max pay load back 0,0609 Да

8 sldpayloadback 0,0547 Да

9 avg payload back 0,0514 Да

10 m i n_pay 1 oadbac k 0,0297 Да

11 avgitimedir 0,0111 Да

12 var ¡time dir 0,0108 Да

13 max ¡time dir 0,0093 Her

14 count dir 0,0086 Нет

15 min itime dir 0,0067 Нет

16 overall dir 0,0067 Нет

17 std itime dir 0.0063 Нет

18 max ¡time back 0,0051 Нет

19 var itime back 0,005 Нет

20 count back 0,0048 Нет

21 sld itime back 0,0048 Нет

22 min itime back 0,0048 Нет

23 avgitimeback 0,0041 Нел

24 overall back 0,0024 Нет

В результате, был получен сокращенный набор агрибу-тов, включающий первые 12 позиций в табл. 3. Как видно в итоговом наборе участвуют атрибуты как прямого, так и обратного направления. Мять из 12 являются атрибутами обратного направления, что говорит о том, что при классификации оба направления передачи трафика важны.

Результаты эксперимента

Эффективность алгоритмов машинного обучения оценивалась но метрикам на тестовой выборке, состоящей из 900 тысяч тестовых экземпляров.

Исследования показали, что для всех алгоритмов увеличение размеров обучающей выборки приводит к повышению качества классификации. Поточная достоверность классификации для полного набора признаков принимает свое минимальное значение в 60.3% при размере обучающей выборки в 300 тысяч экземпляров, тогда как для сокращенного набора признаков, поточная достоверность при таком же размере обучающей выборки почти составляет 74%. Другие метрики также показывают прирост, что свидетельствует о повышении качества предсказания. Рост точности для сокращенного количества атрибутов при всех размерах обучающих выборок свидетельствует об уменьшении количества ошибок, а возросший отклик говорит об увеличении истинно положительных исходов.

Для сравнения не пользовались потоковая и байтовая точности. I Ia рисунке 4 изображены графики зависимости времени обучения от размера обучающей выборки, сгруппированные по алгоритмам классификации (а), и диаграмма среднего роста времени построения модели по алгоритмам (б).

Как видно, время обучения алгоритма SVM с увеличением обучающей выборки растет быстрее, чем у остальных алгоритмов, что обусловлено высокой вычислительной сложностью данного алгоритма. Самым быстрым алгоритмом является классификатор Naive Bayes. Вторым по скорости является алгоритм CART. Алгоритмы Random Korest и AdaBoost в качестве базовых классификаторов используют алгоритм CART, поэтому очевидно, что ансамблевые алгоритмы обучаются медленнее. При построении модели алгоритма AdaBoost используется 37 базовых алгоритмов, в то время как у алгоритма Random Forest их 197.

Рисунок 5 иллюстрирует зависимость достоверности и K-меры различных алгоритмов от размера обучающей выборки, полученные экспериментально.

Из представленных графиков видно, что достоверность и точность алгоритмов CART и Random Forest, используя сформированный вектор признаков, возрастают до максимальных значений.

При всех размерах обучающих выборок поточная достоверность колеблется от 98 до 99%. Байтовая достоверность, практически во всех случаях меньше, чем поточная, поскольку, при небольших размерах обучающих выборок - 30, 60 тысяч экземпляров, достоверность алгоритма CART составляет 89%, алгоритма Random Forest - 91-93%. Отличия практически в 10% от точности классификации потоков говорят о существенных различиях в природе этого показателя.

T-Comm Том 1 1. #2-201 7

У

Е- 15

TS

о;

Ad.iBoü-.t RjndomForest CART ürvearSVC Gauss i a nN В

ЩИ i il

L

Ada Bogst Random Forest CART Ltrv+ifSVC GaussianNB

t*n rttp nsp

Iii Mil

dm wp fOí îip «л «4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

a)

6)

10

— is

S 10

Ade&OOU САЙТ GtimieftNB Linc*f$VC fltndotfnf orett

lililí Uli

AdiBooV САД! CrfirtimiUS UwafSvt BindoTiF Wit

B)

Рис. 6, Достоверность различных алгоритмов в разрезе по протоколам:

а) поточная достоверность каждого алгоритма по протоколам;

б) байтовая достоверность каждого алгоритма по протоколам;

в) неточная достоверность классификации протокола определенным алгоритмом;

г) байтовая достоверность классификации протокола определенным алгоритмом

Выводы

Приведенные экспериментальные результаты измерений ■[рафика в ЦОД показали, что распределение наиболее значимых приложений в собранном дампе трафика по размеру в потоках и пакетах (байтах) существенно различаются, что должно быть учтено при классификации трафика.

Опенка важности атрибутов классификации приложений трафика проведенная с помощью ají го ритм a Random Korest позволила уменьшить количество признаков до i 2 при обеспечении высокой достоверности классификации.

Оценка моделей классификации по времени построения показывает, что наихудшим является алгоритм SVM, а наилучшим Naive Bayes.

Полученные зависимости достоверности классификации и F-меры показали, что алгоритм CART и Random Forest более предпочтительны чем алгоритмы SVM, Adaboosl и Naive Bayes.

Показано, что во всех анализируемых случаях эффективность классификации по потокам выше, чем по байтам.

Литература

1. J. Erman, A. Mahanti, and M. A ri il/, "Byte me: a case for byte accuracy in traffic classification," in Mi ne Net '07: Proc. 3rd annual ACM workshop on Mining network data. New York, NY, USA: ACM Press, J tine 2007, pp. 35-38.

2. Официальный репозитарий проекта nDPI // https://gilhub.com/ntop/nDPI (последнее обращение - Апрель 2016}

3. P.Fruhmrt, S.Schrittwieser, E.R. IVeippl, "Using machine learning techniques for traffic classification and preliminary surveying of an attacker's profile", St. Polten University of Applied Sciences

4. Jan Zhang*. Yang Xiang, Member, IEEE, Yu Wang, Wanlei Zhou, Senior Member, IEEE, Yong Xiang, and Yong Guan, Member, IEEE, "Network Traffic Classification Using Correlation Information", IEEE Transactions on parallel and distributed systems.

5. T.T. Nguyen and G. Armilage, "A survey of techniques for internet traffic classification using machine learning," IEEE Commun. Surveys Tuts., vol. 10, no. 4, pp. 56-76, Fourth Quarter 2008.

œMPUTER SCIENCE

INFLUENCE OF TRAINING SAMPLE STRUCTURE ON TRAFFIC APPLICATION EFFICIENCY CLASSIFICATION USING MACHINE-LEARNING METHODS

Oleg I. Sheluhin, Moscow, Russia, sheluhin@mail.ru Ayrapet G. Simonyan, Moscow, Russia, blackman-05@mail.ru Anna V, Vanyushina, Moscow, Russia, vanuanna@rambler.ru

Abstract

The paper notes that classification of traffic applications by means of machine learning methods (ML), depending on the scenario it is important whether streams or bytes are classified.

It has been shown that in the classification accuracy the size of the learning sample will play the significant role.

To show the classification performance the results of traffic measurements in the communications provider datacenter were presented. The size of the analyzed traffic was 315 GB, which is equal to 299.3 million of packages or 6.22 million streams. For experimental studies SIP, SSL, DNS, RDP, SSH, HTTP streams were analyzed. The efficiency of ML algorithms was evaluated by test samples out of 900 thousand copies of both streams and bytes. To assess the effectiveness of the algorithms classification indicators in the form of F-measure and accuracy were used.

Selection of the classification features using Random Forest algorithm has reduced the number of classification attributes to 12. The resulting accuracy and F-measure chart showed that the reliability and accuracy of the CART algorithm and Random Forest exceeds that of SVM, AdaBoost and Naivebayes algorithms.

It as been shown that in all analyzed cases the quality of streams classification (98-99%) was higher than in bytes (89-93%).

Keywords: classification, accuracy, F-measure attributes, Random Forest, SVM, Adaboost, Naive bayes, metrics, protocol, flow, packet bytes.

References

1. J. Erman, A. Mahanti, and M. Arlitt (2007). Byte me: a case for byte accuracy in traffic classification. MineNet '07: Proc. 3rd annual ACM workshop on Mining network data. New York, NY, USA: ACM Press, June 2007, pp. 35-38.

2. nDPI // https://github.com/ntop/nDPI.

3. P.Fruhwirt, S.Schrittwieser, E.R. Weippl. Using machine learning techniques for traffic classification and preliminary surveying of an attacker's profile. St. Polten University of Applied Sciences.

4. Jun Zhang, Yang Xiang, Yu Wang, Wanlei Zhou, Yong Xiang, and Yong Guan. Network Traffic Classification Using Correlation Information. IEEE Transactions on parallel and distributed systems.

5. T.T. Nguyen and G. Armitage (2008). A survey of techniques for internet traffic classification using machine learning. IEEE Commun. Surveys Tuts., vol. 10, no. 4, pp. 56-76.

Information about authors

Oleg I. Sheluhin, Head of department of Information security, professor, D.Sc, MTUCI, Moscow, Russia Ayrapet G. Simonyan, Assistant professor, Candidate of texn. science, MTUCI, Moscow, Russia Anna V. Vanyushina, Senior lecturer MTUCI, Moscow, Russia

i Надоели баннеры? Вы всегда можете отключить рекламу.