Научная статья на тему 'Влияние фонового трафика на эффективность классификации приложений методами машинного обучения'

Влияние фонового трафика на эффективность классификации приложений методами машинного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
422
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / ДОСТОВЕРНОСТЬ / ФОНОВЫЙ ТРАФИК DATAMINING / F-МЕРА / АТРИБУТЫ / RANDOM FOREST / SVM / C4.5 / ONE RULE / ADABOOST / NAVE BAYES / МЕТРИКИ / ПРОТОКОЛ / ПОТОК / ПАКЕТ / БАЙТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ерохин Сергей Дмитриевич, Ванюшина Анна Вячеславовна

Большинство известных работ посвященных проблеме классификации трафика опускают фундаментальное требование определения неизвестного типа трафика. Целью работы является исследование эффективности алгоритмов классификации приложений сетевого трафика в условиях наличия фонового трафика (ФТ). Путем измерения набора пакетов и байтов, передаваемых в потоке можно определить небольшой по размеру набор признаков, а также максимальное, минимальное, среднее значение и стандартное отклонение длины пакета и межпакетного интервала. На этапе анализа собранного трафика и формирования выборок (обучающей и тестирующей) трафика для каждого приложения формировались только выборки для выбранных приложений, трафик остальных приложений (фоновый трафик) не рассматривался. Каждой полученной выборке присваивалось название приложения. Варьируя количество потоков в обучающей выборке, экспериментально определялось необходимое количество потоков для заданных приложений и алгоритмов и влияние фонового трафика на качество классификации. Анализировались следующие группы приложений: SKYPE; STEAM; TORRENT; VK; YOUTUBE. Использовались алгоритмы машинного обучения: SVM, Nave Bayes, One Rule, C4.5, Random Forest, AdaBoost + One Rule. Показано, что качество классификации при наличии ФТ снижается для всех рассматриваемых алгоритмах классификации. Однако поскольку алгоритмы C4.5, Random Forests, AdaBoost построены на использовании деревьев принятия решений одного в случае (С4.5) или множества, их характеристики остаются достаточно высокими и отличаются незначительно. Проведенные измерения зависимости характеристик классификации precision, recall и F-score от количества потоков в обучающей выборке показали, что при отсутствии фонового трафика достаточное количество потоков для точной классификации 300 и более. Количество потоков в обучающей выборке сильнее влияет на характеристику recall, чем на precision. Наличие фонового трафика, приводит к ухудшению характеристики precision, которое нельзя компенсировать увеличением количества потоков в обучающей выборке. Показано, что на характеристику recall фоновый трафик влияет слабо.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ерохин Сергей Дмитриевич, Ванюшина Анна Вячеславовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Влияние фонового трафика на эффективность классификации приложений методами машинного обучения»

ВЛИЯНИЕ ФОНОВОГО ТРАФИКА НА ЭФФЕКТИВНОСТЬ КЛАССИФИКАЦИИ ПРИЛОЖЕНИЙ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Ерохин Сергей Дмитриевич,

МТУСИ, Москва, Россия, [email protected]

Ванюшина Анна Вячеславовна,

МТУСИ, Москва, Россия, [email protected]

Ключевые слова: классификация, достоверность, фоновый трафик DataMining, F-мера, атрибуты, Random Forest, SVM, C4.5, One Rule; Adaboost, Nave Bayes, метрики, протокол, поток, пакет, байт.

Большинство известных работ посвященных проблеме классификации трафика опускают фундаментальное требование определения неизвестного типа трафика. Целью работы является исследование эффективности алгоритмов классификации приложений сетевого трафика в условиях наличия фонового трафика (ФТ). Путем измерения набора пакетов и байтов, передаваемых в потоке можно определить небольшой по размеру набор признаков, а также максимальное, минимальное, среднее значение и стандартное отклонение длины пакета и межпакетного интервала. На этапе анализа собранного трафика и формирования выборок (обучающей и тестирующей) трафика для каждого приложения формировались только выборки для выбранных приложений, трафик остальных приложений (фоновый трафик) не рассматривался. Каждой полученной выборке присваивалось название приложения. Варьируя количество потоков в обучающей выборке, экспериментально определялось необходимое количество потоков для заданных приложений и алгоритмов и влияние фонового трафика на качество классификации. Анализировались следующие группы приложений: SKYPE; STEAM; TORRENT; VK; YOUTUBE. Использовались алгоритмы машинного обучения: SVM, Nave Bayes, One Rule, C4.5, Random Forest, AdaBoost + One Rule. Показано, что качество классификации при наличии ФТ снижается для всех рассматриваемых алгоритмах классификации. Однако поскольку алгоритмы C4.5, Random Forests, AdaBoost построены на использовании деревьев принятия решений - одного в случае (С4.5) или множества, их характеристики остаются достаточно высокими и отличаются незначительно. Проведенные измерения зависимости характеристик классификации precision, recall и F-score от количества потоков в обучающей выборке показали, что при отсутствии фонового трафика достаточное количество потоков для точной классификации 300 и более. Количество потоков в обучающей выборке сильнее влияет на характеристику recall, чем на precision. Наличие фонового трафика, приводит к ухудшению характеристики precision, которое нельзя компенсировать увеличением количества потоков в обучающей выборке. Показано, что на характеристику recall фоновый трафик влияет слабо.

Информация об авторах:

Ерохин Сергей Дмитриевич, ректор университета, доцент кафедры Информационной безопасности, к.т.н., доцент, Московский Технический Университет Связи и Информатики, Москва, Россия

Ванюшина Анна Вячеславовна, Старший преподаватель кафедры "Информационная безопасность", Московский Технический Университет Связи и Информатики, Москва, Россия

Для цитирования:

Ерохин С.Д., Ванюшина А.В. Влияние фонового трафика на эффективность классификации приложений методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2017. Том 11. №12. С. 31-36.

For citation:

Erokhin S.D., Vanyushina A.V. (2017). Background traffic impact on the effectiveness of applications classification using machine learning methods. T-Comm, vol. 11, no.12, рр. 31-36. (in Russian)

7T>

Постановка задачи

Большинство алгоритмов машинного обучения (МО) с учителем спроектированы для обучения бинарных или мультиклассовых классификаторов [1, 2, 8, 9]. На основе обучающего набора данных, состоящего из объектов обоих классов бинарные (или биномиальные) классификаторы выбирают между двумя классами объектов. Соответственно мультиклассовые (или мультиномиальные) классификаторы разделяют объекты на множество классов в соответствии с тренировочным набором данных, состоящим из объектов всех классов. Оба типа классификаторов основаны на двух предположениях.

Во первых — все классы известны заблаговременно. Во вторых ■— для каждого класса имеется эффективный и показательный набор данных.

Другими словами, классификаторы с учителем неспособны определить объект неизвестного класса, не представленного в обучающей выборке, В то же время, идентификация неизвестного типа трафика является самым важным требованием в современной классификации сетевого трафика поскольку, в связи с эволюцией Интернета появляются новые приложения и протоколы, новые типы трафика, которые либо неизвестны, либо представлены не полностью на момент обучения.

Только в нескольких работах проводилось тестирование классификатора на предмет работы с неизвестным трафиком для различных целей. Так в [10, 1IJ, трафик неизвестных протоколов был использован для тестирования одноклассо-иых классификаторов, В [4, 5, 12J внимание было сфокусировано на задаче распределения недостающих протоколов по категориям.

С другой стороны, даже для существующих приложений и протоколов очень тяжело и дорого получить полноценный помеченный набор данных, характеризующих каждый класс.

Таким образом, при реализации классификаторов [рафика методами машинного обучения с учителем, нужно обратить особое внимание на определение классов и построение тренировочного набора.

Целью работы является исследование эффективности алгоритмов классификации приложений сетевого трафика в условиях наличия фонового трафика.

Критерии оценки точности классификации

Получили распространение несколько численных критериев оценки качества классификаторов [3, 6, 7, 12J. В работе использовались такие метрики, как Precision (Точность), Recall (Полнота), F-Measure (F-мера) и AUC (Area Under Curve) - площадь под кривой ROC [13,14J.

Эти метрики вычисляются на основании результатов классификации и полученных показателей TP, FP, TN и FN:

• TP - True Positive (Истинно Положительный) - означает, что объект был правильно отнесен к рассматриваемому классу;

• FP - False Positive (Ложно I Голожительный) - означает, что объект был отнесен к классу, которому на самом деле не принадлежит;

• TN - True Negative (Истинно Отрицательный) - объект lie относится к рассматриваемому классу и был зерно

классифицирован как объект не этого класса;

• FN - False Negative (Ложно Отрицательный) - объект ошибочно классифицируется как экземпляр не данного класса, хотя на деле принадлежит ему.

Precision и recall являются метриками, которые используются при оценке большинства алгоритмов классификации.

Точность в пределах одного класса вычисляется как доля объектов, которые действительно принадлежат данному классу, по отношению ко всем объектам, которые были отнесены к нему.

Precision -

TP

(1)

TP + FP

Другой критерий Recall - полнота - показывает долю найденных классификатором объектов класса из всех объектов в выборке трафика, принадлежащих этому классу.

TP

Recall =-• (2)

TP* FN

Поскольку на практике тяжело достигнуть максимального значения точности и полноты, можно применять метрику, которая объединяет информацию о точности и полноте классификатора. Такой критерий оценки носит название F-меры (F-Measure). Он лучше всего позволяет показать качество классификатора и оцепить, как оно меняется при изменении некоторых параметров - в лучшую или в худшую сторону.

F-мера вычисляется как гармоническое среднее между Precision и Recall

Precision* Recall

F - Мягмтгя = 7. *-

(3)

Précisions Recall

Для визуальной оценки качества классификации, удобно пользоваться ROC - кривой (Receiver Operating Characteristic) - рабочая характеристика приемника, также известная как кривая ошибок, которая отображает соотношение между долей TPR и FPR. TPR (True Positive Rate) -наиболее простая метрика оценки классификатора, показывающая качество разделения классов алгоритмом, вычисляется выражением:

TPR = TP + FN____(4)

TP+TN+FP+FN

Метрика - FPR (False Positive Rate), вычисляется по формуле:

FPR = JÏL^ . (5)

FP + TN

Количественный показатель ROC - кривой называется AUV (Area Under Curve) - площадь под кривой, соответственно представляет собой площадь фигуры, ограниченной ROC-кривой, Чем выше этот параметр, тем выше и качество классификатора. Стоит заметить, что при AUC = 0.5, вероятность верного принятия решения классификатором будет составлять 50%, что является по своей сути случайным угадыванием. Естественно, в таком случае классификатор не может быть применен для выполнения своей задачи.

Условия проведения эксперимента

В качестве классифицируемых приложений рассматривались следующие классы:

• Skype - бесплатное программное обеспечение, позволяющее осуществлять связь различного вида между компьютерами по сети Интернет;

( л

• Steam - сервис цифрового распространения компьютерных игр и программ, принадлежащий компании Valve, известному разработчику компьютерных игр;

• BitTorrent - клиент, использующий протокол Р2Р для обмена различными файлами через сеть Интернет;

• YouTube, график полученный в процессе использования известного видеохостинга через браузер;

• Vkontakie - график популярной социальной сети, в которой имеется информация о зарегистрированных в ней пользователях, есть возможность прослушивать музыку и просматривать видеозаписи, а также обмениваться сообщениями;

Для набора экспериментальной информации использовался специальный макет (рис. 1), состоящий из ПК с операционной системой Ubiintu 16.04 LTS, на котором непосредственно перехватывался трафик, ПК с операционной системой Windows 7 и планшета под управлением ОС Android. Все устройства соединялись с сетью Интернет посредством маршрутизатора Tp-Link

сам, определение которых и является основной задачей. Проведем сравнение показателей качества работы классификаторов без фонового трафика и при его наличии.

Для количественной оценки ухудшения точности классификации целевых классов разными алгоритмами, в табл. I приведены разницы между средними значениями критериев точности, полноты и Г-меры до и после добавления в выборку ФТ.

Таблица!

Разница средних значений критериев точности без и с фоновым трафиком

Критерий / Алгоритм SVM Nanve Bayes One Rule C4.5 Random Foresl Ada H nos t + One Rule

Precision 0,033 0,054 0,106 0,115 0,133 0,117

Recall 0,000 0,000 0,000 0,004 0,000 0,000

F-Mcasure 0,017 0,031 0,063 0,07 i 0,082 0,068

Маршру : шатер

ОС: Windows 7

> TP-Link

ОС: .Android 4.4.2

OC: Ubuntu 16 04 LTS с установленным ПО Wneshait

Рис, 1. Макет для смятия трафика

Трафик захватывался следующим образом. Для того чтобы удостовериться, что собранный в результате работы трафик, принадлежит нужному приложению вначале проверялось наличие постороннего фонового трафика в сети с помощью и^гейНагк. Затем запускалось то приложение* которое генерирует необходимый трафик. Параллельно с этим включается анализатор трафика \Vireshark, захватывающий все пакеты, создаваемые работаю щей программой. Процесс повторялся для получения каждого типа требуемого трафика.

Результаты классификации

с учётом фонового трафика

Будем рассматривать ФТ как данные, которые не были представлены в обучающей выборке, однако присутствующие в тестовом наборе. Поскольку классификаторы не были готовы к такому типу потоков и не были обучены для их классификации, они способны только лишь отнести неизвестный трафик к одному или нескольким известным клас-

Сравиение критерия Precision до и после фонового трафика

Таблица 2 добавления

Алгоритм классификации Kjiacc Tpai|)HKa Без фонового ■фафика С учётом фонового трафика

One Rule SKYPE 0,440 0,335

STEAM 0,858 0.794

TORRENT 0,763 0,550

VK 0,385 0,330

YOUTUBE 0,590 0,498

C4.S SKYPE 0,570 0,353

STEAM 0,973 0,951

TORRENT 0,931 0,917

VK 0,691 0,544

YOUTUBE 0,697 0,522

Random Forcsl SKYPE 0,553 0,364

STEAM 0,970 0,464

TORRENT 0.911 0,861

VK 0,727 0,517

YOUTUBE 0,771 0,563

Ad a Boost + One Rule SKYPE 0,508 0,375

STEAM 0,932 0,906

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

TORRENT 0,781 0,612

VK 0,466 0,325

YOUTUBE 0,59! 0,477

T-Comm Vol. 11. #12-201 7

7Т>

Из представленных данных можно видеть, наиболее различия в качестве работы алгоритмов наблюдаются в уменьшении точности классификации, поскольку разница критерия Precision у разных условий тестирования наибольшая. Показатель полноты практически не изменился, что в итоге привело к нулевым разницам средних значений. Каждый из алгоритмов практически не отклонялся от своей модели классификации и при наличии фонового трафика остальные пять классов они распределяли точно так же, как и при его отсутствии. Исключение составляет только алгоритм С4.5, который несколько поменял распределение потоков по классам, что видно из увеличения средней полноты на 0.004.

Заметно также уменьшения средней F-меры по всем алгоритмам меньше, чем на 0.1, однако, поскольку эта характеристика комплексная и зависит как от точности, так и от полноты, то наибольший интерес для рассмотрения в данном случае представляет показатель Precision. Также видно, что изменения в алгоритмах SVM и Naïve Bayes заметно меньше, чем у других четырёх методов, и к тому же они и прежде показывали недостаточное качество классификации, поэтому в дальнейшем рассматривались следующие четыре алгоритма - One Rule, С4.5, Random Forest и AdaBoost.

В таблице 2 приведено сравнение показателя Precision по всем классам в четырёх алгоритмах до и после добавления в тестовую выборку фонового трафика.

Для наглядности эти значения сведены в виде двух гистограмм, представленных на рис. 2 и 3.

O.S

о.s

0.2

SKYPE STEAM TORRENT VK YOUTUBE

]

Рис. 2. Сравнительные гистограммы по критерию Precision при отсутствии фонового трафика

о,е ол о.г о

AI.

им II III I

VK

YOUTUBE

SKYPE STEAM TORRENT

none Rule »C4.5 ■Random Foresl ■AttaBoosi tone Rule

Рис. 3. Сравнительная гистограмма по критерию Precision при наличии фонового трафика

По результатам приведенным в табл. 2 и изображённым гистограммам видно, что при добавлении фоновых потоков сильно упало качество классификации с точки зрения параметра Precision. Значительно ухудшилась, наибольшая разница заметна в классе SKYPE. Также значительно хуже всеми алгоритмами стали определяться классы VK и YOUTUB. В классе TORRENT заметное падение точности определения видно только у One Rule и связанного с ним же AdaBoost. Наименее заметны изменения в классе STEAM, где С4.5 и Random Forest практически не показали уменьшения точности. Немного хуже результаты у One Rule.

Изменения в критерии Precision легко объяснить. Ранее уже отмечалось, что при такой схеме обучения, когда в тренировочной выборке отсутствуют данные о тех потоках, которые присутствуют в тестовом наборе, классификатор распределяет неизвестный трафик по другим классам, по которым и производится классификация.

Критерий точности Precision показывает, какой процент из всех потоков, которые были отнесены к определённому классу, действительно ему принадлежат. При добавлении стороннего трафика в тестовую выборку модели алгоритмов закономерно ошибочно распределяют потоки по другим классам, и у каждого типа трафика падает показатель качества в прямой зависимости от того, какое количество потоков было к нему отнесено. Отсюда и относительно небольшая разница в точности классификации алгоритмами SVM и Naïve Bayes, поскольку и без фонового трафика эти модели относили основную массу потоков к классам TORRENT и VK.

Сравнительный ROC - анализ работы алгоритмов

при наличии фонового трафика

Для полноты сопоставления качества классификации выборки без фонового трафика и с его наличием на рисунках 4а...4.в приведены ROC - кривые алгоритмов по некоторым классам.

На рисунке 4а представлены ROC — кривые алгоритмов по классу STEAM.

Видны небольшие отличия от предыдущих результатов. К примеру, заметно уменьшение качества классификации объектов данного типа трафика алгоритмами Naïve Bayes и AdaBoost. Также менее выпуклой стала кривая модели С4.5.

На рисунке 46 представлены ROC — кривые алгоритмов по классу TORRENT.

В случае с классом TORRENT видна некоторая разница с первоначальным тестированием в плане качества работы алгоритмов. По изображению видно явное улучшение достоверности в классификации AdaBoost и One Rule, кривые которых стали ближе к идеальной модели. Несколько лучше себя показал и алгоритм С4.5. На рисунке 4в представлены ROC - кривые алгоритмов по классу VK. По классу VK заметно ухудшение качества классификации, поскольку графики таких алгоритмов, как Naïve Bayes и AdaBoost немного опустились на координатной оси, тем самым и уменьшив значения площади AUC. Небольшие изменения есть в работе Random Forest, так как его характеристика стала несколько уступать качеству С4.5. Кривые One Rule и SVM не показывают никаких видимых изменений в качестве классификации.

У

Т-Сотт Уо1.11. #12-201 7

COMMUNICATIONS

BACKGROUND TRAFFIC IMPACT ON THE EFFECTIVENESS OF APPLICATIONS CLASSIFICATION USING MACHINE LEARNING METHODS

Sergey D. Erokhin, MTUCI, Moscow, Russia, [email protected] Anna V. Vanyushina, MTUCI, Moscow, Russia, [email protected]

Abstract

Most of the articles regarding traffic classification do not take into account the fundamental requirement of determining the unknown type of traffic. The aim of the following article is to research the effectiveness of classification algorithms of network traffic applications with the presence of background traffic (BT). By estimating the set of packets and bytes, transmitted in the flow it is possible to define a relatively small set of attributes as well as a maximum, minimal and average values, standard deviation of a packet's length and inter packet interval. At the stage of analyzing captured traffic and forming samples (both learning and testing) of each application's traffic, only samples for chosen applications have been formed and the rest of the traffic from other applications (background traffic) has been ignored. Each sample then has been assigned with a corresponding name of the application. Varying a number of flows in learning sample allowed to experimentally determine a necessary number of flows for chosen applications and algorithms as well as the impact of a background traffic on the quality of traffic classification. The following group of applications has been analyzed: SKYPE; STEAM; TORRENT; VK; YOUTUBE. Machine learning algorithms that have been used: SVM, Nave Bayes, One Rule, C4.5, Random Forest, AdaBoost + One Rule. It has been shown, that the overall quality of classification with the presence of (BT) reduces and it applies to all the above mentioned classification algorithms. However, since C4.5, Random Forests and AdaBoost algorithms are designed on a decision tree basis - single (C4.5) or multiple, their characteristics remain quite high and differ insignificantly.

The estimations of classification characteristics (precision, recall, F-score) dependencies on the number of flows in a learning sample have shown, that with the absence of a background traffic, 300 and more flows in enough for an accurate classification. The number of flows in a learning sample affects a recall characteristic more, than precision. The presence of a background traffic leads to a deterioration of precision characteristic, that cannot be compensated by increasing a number of flows in a learning sample. It has also been shown, that background traffic affects recall characteristic poorly.

Keywords: classification, authenticity, background traffic, DataMining, F-mean, attributes, Random Forest, SVM, C4.5, One Rule, Adaboost, Nave Bayes, metrics, protocol, flow, packet, byte.

References

1. Shelukhin O.I., Simonyan A.G., Vanyushina A.V. (2016). Algorithms efficiency for attributes isolation in applications classification problem with intelligent traffic analysis. Telecommunications, no.11, pp. 79-85.

2. Sheluhin O.I., Simonyan A.G., Vanyushina A.V. (2017). Influence of training sample structure on traffic application efficiency classification using machine-learning methods. T-Comm, vol. 11, no.2, pp. 25-31.

3. Sheluhin O.I., Simonyan A.G., Vanyushina A.V. (2017). Benchmark data formation and software analysis for classification of traffic applications using machine learning methods. T-Comm, vol. 11, no.1, pp. 67-72.

4. Augustin Soule, Kav Salamatia, Nina Taft, Richard Emilion, and Konstantina Papagiannaki. (2004). Flow Classification by Histograms or How to Go on Safari in the Internet. Proceedings of the joint international conference on Measurement and modeling of computer systems (SIGMETRICS'04/Performance'04), New York, NY, USA, pp. 49-60.

5. Andrew Moore, Denis Zuev, and Michael Crogan. (2005). Discriminators for Use in Flow-Based Classification. Technical Report RR-05-13, Department of Computer Science, Queen Mary, University of London.

6. Denis Zuev and Andrew W. Moore. (2005). Traffic Classification using a Statistical Approach. Proceedings of the 6th international conference on Passive and Active Network Measurement (PAM'05), Boston, MA, USA, pp. 321-324.

7. Andrew W. Moore and Denis Zuev. (2005). Internet Traffic Classification Using Bayesian Analysis Techniques. Proceedings of the 2005 ACM Interna tional Conference on Measurement and Modeling of Computer Systems (SIGMETRICS'05), Banff, Alberta, Canada, pp. 50-60.

8. Manuel Crotti, Francesco Gringoli, Paolo Pelosato, and Luca Salgarelli. (2006). A Statistical Approach to IP-level Classification of Network Traffic. Proceedings of IEEE International Conference on Communications (ICC'06), vol. 1, Istanbul, Turkey, pp. 170-176.

9. Alice Este, Francesco Gringoli, and Luca Salgarelli. (2009). Support Vector Machines for TCP Traffic Classification. Computer Networks, vol. 53, no. 14, Elsevier North-Holland, Inc., New York, NY, USA, pp. 2476-2490.

10. Marcin Pietrzyk, Jean-Laurent Costeux, Guillaume Urvoy-Keller, and Taoufik En-Najjary. (2009). Challenging Statistical Classification for Operational Usage: the ADSL Case. Proceedings of the 9th ACM SIGCOMM Conference on Internet Measurement Conference (IMC'09), Chicago, Illinois, USA, pp. 122-135.

11. Ian H. Witten and Eibe Frank. (2005). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (Second Edition). Morgan Kaufmann Publishers.

12. Suchul Lee, Hyunchul Kim, Dhiman Barman, Sungryoul Lee, Chong-kwon Kim, Ted Kwon, and Yanghee Choi. (2011). NeTraMark: A Network Traffic Classification Benchmark. ACM SIGCOMM Computer Communication Review, vol. 41, no. 1, ACM, New York, NY, USA, pp. 22-30.

13. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers.

14. D. M. W. Powers. (2011). Evaluation: From precision, recall and f-measure to roc., informedness, markedness & correlation. Journal of Machine Learning Technologies, vol. 2, no. 1.

Information about authors:

Sergey D. Erokhin, Rector of MTUCI, Moscow, Russia Anna V. Vanyushina, Senior lecturer MTUCI, Moscow, Russia

7T>

i Надоели баннеры? Вы всегда можете отключить рекламу.