ВЫБОР АТРИБУТОВ ДЛЯ КЛАССИФИКАЦИИ ^-ТРАФИКА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
DOI 10.24411/2072-8735-2018-10140
Ерохин Сергей Дмитриевич,
МТУСИ, Москва, Россия, [email protected]
Ванюшина Анна Вячеславовна,
МТУСИ, Москва, Россия, [email protected]
Ключевые слова: машинное обучение, классификация; статистические характеристики, IP-протокол, поток, пакет, алгоритм, метод отбора, атрибут, Wrapper, InfoGain, SFFS, SFC.
IP-протокол и протоколы транспортного уровня (TCP, UDP) имеют множество различных параметров и характеристик, которые можно получить из как непосредственно заголовков пакетов, так и статистических наблюдений за потоками. Для решения задачи классификации сетевого трафика методами машинного обучения необходимо определить набор данных (атрибутов), которые целесообразно использовать для решения задачи классификации. Выбор атрибутов зависит от требований к процессу классификации - скорости и точности классификации. В работах зарубежных авторов показано, что можно выделить до 248 различных атрибутов IP-трафика, которые потенциально можно использовать в методах машинного обучения для классификации или кластеризации IP-трафика по приложениям. Анализ показывает, что не все предложенные атрибуты одинаково влияют на точность и скорость классификации. Например, такие параметры как IP-адрес назначения или номер порта транспортного протокола дают больше информации, чем частота прихода пакетов.
Для выбора оптимального числа и состава атрибутов, используемых при классификации IP-трафика, применяют либо скалярный метод отбора, в котором признаки отбираются независимо друг от друга, либо векторный метод отбора, в котором признаки выбираются на основе взаимной корреляции между ними. Скалярные методы отбора признаков для классификации могут быть неэффективными для наборов данных с взаимной корреляцией, но обладают меньшими вычислительными затратами по сравнению с векторными методами. Векторные методы отбора признаков можно разделить на оберточные методы и методы фильтрации. Как правило, оберточные алгоритмы показывают лучшие, по сравнению с фильтрующими методами, результаты классификации, так как атрибуты классификации оптимизируются под классификатор. Но при увеличении числа анализируемых атрибутов значительно возрастает вычислительная сложность оберточных алгоритмов. Одним из самых простых, быстрых и часто используемых фильтрующих методов отбора атрибутов является алгоритм InfoGain, в основе которого лежит вычисление приращение энтропии для каждого из атрибутов.
Информация об авторах:
Ерохин Сергей Дмитриевич, к.т.н., доцент, ректор Московского Технического Университета Связи и Информатики, Москва, Россия Ванюшина Анна Вячеславовна, Старший преподаватель кафедры информационная безопасность, Московский Технический Университет Связи и Информатики, Москва, Россия
Для цитирования:
Ерохин С.Д., Ванюшина А.В. Выбор атрибутов для классификации IP-трафика методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2018. Том 12. №9. С. 25-29.
For citation:
Erokhin S.D., Vanyushina A.V. (2018). Selecting attributes to classify IP traffic by machine learning methods. T-Comm, vol. 12, no.9, pр. 25-29. (in Russian)
Постановка задачи
Одним из первых шагов для реализации любого метода машинного обучения является необходимость выбора определенных параметров (или атрибутов), на основе которых будет решаться задача классификации или кластеризации данных.
В качестве признаков (атрибутов) классификации 1Р-графика могут выступать либо данные, содержащиеся в заголовках пакетов сетевого и транспортного протоколов, либо данные, полученные статистическим путем.
К первому типу данных относятся [Р-адрсса источника и назначения, номера портов протоколов транспортного уровня источников и назначения, поля TTL и другие данные, формируемые источником и получателем пакетов.
Ко второму типу данных относятся межпакетный интервал, размер пакетов и т.д., то есть данные, рассчитываемые на основе статистики обработки пакегов.
Результатом обучения должно стать построение модели классификации па основе анализа и обобщения представленных атрибутов (образцов).
Целью работы является выбор атрибутов для оптимальной реализации классификации ГР-трафика методами машинного обучения.
На «фазе обучения» используется фильтр выбора признаков, который позволяет ограничивать число признаков, действительно используемых при обучении классификатора, и, таким образом, формируется модель классификации.
При статистической классификации сетевого трафика, объекты потоков описываются измеренными значениями определенного набора атрибутов, а затем применяются для обучения и классификации. Другими словами, каждый объект представляет собой вектор признаков X ~ (Х|, ..., хД который может считаться точкой данных в ¿-мерном пространстве признаков, где - количество признаков.
Набор признаков, как правило, состоит из некоторых наблюдаемых характеристик пакетного уровня и уровня потоков трафика, показывающие отличительное поведение и внутреннюю природу сетевых приложений. В других аналогичных данных определяется, как правило, меньший по размеру набор признаков. Измеряется набор пакетов и байтов, передаваемых в потоке, а также максимальное, минимальное, среднее значение и стандартное отклонение длины пакета и межпакетного интервала. Эти характеристики вычисляются в ранних под-пота к ах (первые десять пакетов) и отдельно в каждом направлении. Всего в сумме можно выделить двадцать признаков, которые показаны в табл. 1.
Модель классификации
В [1] предложено 248 различных признаков, которые могут характеризовать 1Р-трафик. Безусловно, не все признаки одинаково влияют на процесс классификации, поэтому на практике классификаторы выбирают наименьшее множество признаков, которые позволяют классифицировать .
Рисунок 1 иллюстрирует последовательность событий, связанных с обучением классификатора с учителем. Па фазе обучения используем обучающую выборку, которая формирует модель классификации, на фазе тестирования используем тестирующую выборку и формируем результаты классификации.
Модель классификации - это набор алгоритмов, приложений, выбор атрибутов и алгоритмы оценки качества классификации.
Набор данных поступает на вход обучаемому алгоритму, а на выходе получается классификатор
Таблица 1
Простые атрибуты трафика
Алгоритм машинного обучения с учителем
Обучающая выборка потоков графика
Тестовая выборка потоков трафика
Результаты классификации
Рис, I. Обучение классификатора с учителем
Что наблюдается Статистика Кол-во атрибутов
Пакеты Кол-во пакегов 2
Байты Объём байтов 2
Размер пакета Мин., макс., среднее знач., станд, отклонение 8
M еж пакетный интервал Мин., макс,, среднее знач., станд. отклонение 8
Веего 20
В качестве первоначальных атрибутов выбраны параметры сетевых потоков протоколов сетевого (ТСР,ЦРР) и транспортного уровней (1Р), представленных в табл. 2.
Имеются две причины для использования только простых признаков. С одной стороны, как показано в [2], простые атрибуты имеют наибольшее значение. С' другой стороны, такое небольшое количество атрибутов требует намного меньших вычислительных затрат, по сравнению с большим набором признаков.
Методы о [ бор л признаков.
Методы отбора признаков можно разделить на две категории: скалярный отбор, отбирающий признаки по отдельности и векторный отбор, выбирающей признаки, основываясь на взаимной корреляции между ними. Скалярный отбор имеет преимущество в упрощении вычислений, однако может быть неэффективным для набора данных с взаимно коррелированными признаками. С помощью методов векторного отбора удается выбирать оптимальные комбинации признаков.
В свою очередь методы векторного отбора можно, разделить на обёрточные методы и методы фильтрации. Обёрточные методы используют алгоритмы МО, в формате «черный ящик», и выбирают наиболее подходящие признаки таким образом, чтобы алгоритм обучения был оптимальным.
T-Comm Том 12. #9-2018
Оберточные алгоритмы производят оценку атрибутов используя значения показателя точности при работе целевого алгоритма МО,
Таблица 2
Первоначально выбранные атрибуты классификации
Атрибут Описание
classname Название укрупненного класса протокола (WF,B, MAIL, FTP и т.д.) классифицированного трафика, которое будет использоваться при создании модели классификатора.
tot_pkts_qty Общее количество пакетов в данном потоке в обоих направлениях.
tot_pkts_bytes Общий размер в байтах всех пакетов в данном потоке в обоих направлениях.
revpktsqty Количество пакетов потока в обратном направлении в случае, если поток двунаправленный.
rev_pkts_bytes Размер в байтах всех пакетов потока в обратном направлении.
fw pkts qly Количество пакетов потока в прямом направлении.
fwpktsbytes Размер в байтах всех пакетов потока в прямом направлении
isreversable Булева переменная, отражающая является ли данный поток двунаправленным.
transportjsrat ocol Протокол транспортного уровня (TCP-, или UDP-)
sreport Порт транспортного уровня источника (как для TCP, так и для UDP)
dst port Порт адресата
Wirelen Исходная длина всех пакетов потока в физическом канале, деленная на общее количество пакетов
lieadercount Количество всех заголовков всех пакетов деленное на количество пакетов
tcp_syn Процент пакетов с флагом SYN протокола транспорта уровня TCP. В случае, если используется UDP его значение равно GAP - расстоянию в байтах между заголовков и полезной нагрузкой пакета, деленное на количество пакетов.
tcpack Процент пакетов с флагом АСК TCP-протокол а, для UDP берется GAP OFFSET - расстояние от начала пакета до конца заголовков, деленное на количество пакетов.
Flags Среднее количество флагов ТСР-проюкола, для UDP берется среднее количество заголовков.
pay- load lentil li Средний размер полезной нагрузки протокола транспортного уровня в потоке.
is fragment Процент фрагментироваппых потоков.
Hlen Количество заголовков протокола IP.
pay load oil set Среднее расстояние от начала пакета до полезной нагрузки.
Выбор подмножества атрибутов в оберточном алгоритме осуществляется методом прямого поиска. Начиная поиск с пустого множества, поочередно проводится оценка каждого из атрибутов на целевом классификаторе. После выбора лучшего атрибута он добавляется в подмножество. Для оставшихся атрибутов алгоритм повторяется до тех пор, пока каждый из них не будет добавлен в подмножество. В результате прямого поиска получаем атрибуты классификации, отсортированные от лучшего к худшему.
Как правило, оберточные алгоритмы показывают лучшие, по сравнению с фильтрующими результаты, при этом эти атрибуты классификации оптимизированы под сам классификатор. Однако с увеличением исходного набора данных и количества первоначальных атрибутов оберточный алгоритм будет значительно более трудоемким.
Кроме того, при использовании обёрточных методов, отобранные атрибуты подвержены переобучению.
Фильтрующие методы, напротив, используют основные характеристики данных для оценки атрибутов - действуя тем самым независимо от целевого алгоритма. В методах отбора атрибутов па основе фильтрации происходит сопоставление с классом и соответствующим подмножеством признаков.
Типичным методом отбора атрибутов на основе фильтрации является sequential forward floating selection (SFFS), который находит наилучшее аппроксимирующее решение по количеству отобранных функций. SFFS начинается с пустого пула атрибутов и, используя локальный оптимальный отбор признаков в два этапа увеличивает пул, включая этап включения и этап условного исключения. Эвристическая основа алгоритма SFFS заключается в предположении, что критерий отбора является монотонным с изменением размера и информацией набор. SFFS аппроксимирует оптимальное решение при доступной вычислительной стоимости.
Алгоритм Info Gain
Алгоритм выбора признаков на основе информационного выигрыша infoGain является одним из самых простых и быстрых алгоритмов выделения признаков [4], Алгоритм часто используется при решении задачи категоризации текста, где размерность данных не позволяет использовать более сложные методы выделения признаков. Работа метода основана на вычислении энтропии рассматриваемого класса до и после применения атрибута.
Так, если А - это признак, а С - рассматриваемый класс, то энтропия до наблюдения признака оценивается выражением:
Оберточный алгоритм Wrapper.
Оберточные алгоритмы выделения атрибутов используют целевой алгоритм для оценки каждого подмножества признаков[3]. При оценке точности на классификаторе используется перекрестная проверка с настраиваемым числом «сверток». Перекрестная проверка может быть прекращена досрочно, если стандартная девиация результатов не превышает заданного порога, который обычно равен 0,01. Так же возможно использование отдельного, тестового набора данных, значения которого для получения более реальных результатов независимы от обучающей выборки.
tf(C) = -2>(c)log:jp(¿|
(I)
а после наблюдения:
(2)
■ сес
Изменение энтропии за счет применения атрибута характеризует информационный выигрыш [4]. Каждому атрибуту а из множества атрибутов А присваивается оценка, основан-
T-Comm Vol.12. #9-2018
7Т\
мая па информационном выигрыше между ним самим и классом:
igí~h{c)-h(c\4,)=h{a,)-h\a,\c)= = я (4)+я {с} - я (4, с)
(3)
Результатом работы алгоритма InfoGain является ранжирование признаков по их значимости.
Использование корреляционной меры позволяет оптимизировать отбор признаков. В результате, метод фокусируется на двух проблемах: критерии корреляционной меры и алгоритме отбора признаков. В качестве критерия корреляционной меры могут использоваться коэффициент корреляции Пирсона, критерий взаимной информации и другие соответствующие критерии.
Типичным алгоритмом выбора признаков с использованием корреляционной меры является алгоритм CFS (Correlation-based Feature Selection) — алгоритм выбора признаков на основе корреляции [6].
Алгоритм CFS [5] является одним из первых, который производит оценку множества признаков, а не каждого признака по отдельности. В основе алгоритма лежит оценка множества атрибутов, учитывающая полезность каждого независимого признака в определении класса, и корреляцию между ними:
Merit. =
кг.
jk+k(k-\)rg
(4)
где Merit,. - оценка качест ва подмножества S содержащего к признаков; - средняя корреляция «признак-класс»; a rff -средняя корреляция между признаками данного подмножества.
Числитель выражения (4) представляет собой метрику качества данного подмножества признаков, а знаменатель то, насколько излишняя информация в нем содержится.
В результате, «плохие», или не имеющие ценности признаки будут отброшены за счет плохой оценки качества в данном подмножестве, а избыточные признаки из-за высокой корреляции с одним или более признаком в подмножестве.
Для применения оценки (4) следует произвести вычисления корреляции, или зависимости между атрибутами:
SU = 2.0 х
H{X) + H{Y)+H{X,Y) H{X)+H(Y)
(5)
После вычисления матрицы корреляции CFS использует Эвристический поиск для нахождения хорошего подмножества признаков.
Выводы
Таким образом, выбор атрибутов для классификации графика компьютерной сети - это сложная задача, которая зависит от цели классификации. Если, например, классификация совершается в режиме реального времени для мониторинга уровня QoS , можно проверить только часть некоторых отдельных потоков из сети, что дает больше возможностей, чем классификация трафика для учета данных. Тем не менее, в обоих случаях можно использовать параметры, основывающиеся на размерах пакетов. В тоже время следует избегать использования каких-либо параметров, основывающихся на времени (продолжительность потока и другие параметры). В дальнейшем, как правило, полагается, что характеристики потоков, основывающихся на размере пакетов в сети, не зависят от текущих условий. Другие атрибуты содержат имя протокола транспортного уровня, удаленные номера портов, количество пакетов, имеющих набор TCP флагов или номера. Количество атрибутов для классификации трафика не так важно, как для техника кластеризации. Тем не менее, важно избегать атрибутов, которые содержат конкретные значения только для небольшого количества случаев, принадлежащих к конкретному классу. Это может привести к переобучению классификатора и, также, не будет возможности идентифицировать неизвестные случаи.
Литература
], Andrew Moore. Denis Zuev, and Michael Crogan, "Discriminators tor Use in Flow-Based Classification", Technical Report RR-05-13, Department of Computer Science, Queen Mary, University of London, 2005.
2. Thuy T.T. Nguyen and Grenville Armitage, "A Survey of Techniques for Internet Traffic Classification using Machine Learning", IEEE Communications Surveys & Tutorials, vol. 10, no. 4, pp. 56-76, IEEE Press, Piscataway, New Jersey. USA, 2008,
3. Szabo G., Orincsay D.. Malomsoky S., Szaho I. On the validation of traffic classification algorithms // Proceedings of the 9th International Passive and Active Measurement conference, April 29-30, 2008, pp.72-81.
4. Andrew W, Moore. Information Gain tutorial // Web: http:/l www .auto n I a b. о rg/t u to ri a I s/ i n foga i n 11. pd f.
5. Mark Hall, "Correlation-based feature selection for discrete and numeric class machine learning," // Proceedings of the 17th International Conference on Machine Learning ([CML2000), 2000,
6. Шелухин О.И.. Ерохин С.Д., Ванюшина А.В. Классификация IP-трафнка методами машинного обучения. М,: Горячая линия -Телеком, 2018. ISBN 978-5-9912-0719-8
SELECTING ATTRIBUTES TO CLASSIFY IP TRAFFIC BY MACHINE LEARNING METHODS
Sergey D. Erokhin, MTUCI, Moscow, Russia, [email protected] Anna V. Vanyushina, MTUCI, Moscow, Russia, [email protected]
Abstract
The IP Protocol and transport layer protocols (TCP, UDP) have many different parameters and characteristics that can be obtained from both the packet headers themselves and the statistical observations of the flows. To solve the problem of network traffic classification by machine learning methods, it is necessary to define a set of data (attributes) that can be used to solve the classification problem. The choice of attributes depends on the requirements to the process of classification - speed and classification accuracy. In the works of authors it is shown that up to 248 different attributes of IP-traffic can be identified, which can potentially be used in machine learning methods for classification or clustering of IP-traffic by applications. The analysis shows that not all of the proposed attributes have the same effect on the accuracy and speed of classification. For example, parameters such as destination IP address or transport port number provide more information than the rate at which packets arrive.
To select the optimal number and composition of attributes used in the classification of IP-traffic, use either a scalar selection method in which the features are selected independently of each other, or a vector selection method in which the features are selected based on the mutual correlation between them. Scalar methods of selection of features for classification can be inefficient for data sets with mutual correlation, but have less computational cost in comparison with vector methods.
Vector feature selection methods can be divided into wrapping and filtering methods. Typically, the wrapping algorithms show better in comparison with filter methods, the classification result as the classification attributes of optimized classifier. But as the number of analyzed attributes increases, the computational complexity of the wrapper algorithms increases significantly. One of the simplest, fastest, and most commonly used filtering methods for attribute selection is the InfoGain algorithm, which is based on the calculation of the entropy increment for each of the attributes.
Keywords: Machine Learning, classification, statistical characteristics;, IP-protocol, flow, packet, algorithm, selection method attribute, Wrapper, InfoGain, SFFS, SFC.
References
1. Andrew Moore, Denis Zuev, and Michael Crogan. (2005). Discriminators for Use in Flow-Based Classification. Technical Report RR-05-13, Department of Computer Science, Queen Mary, University of London.
2. Thuy T.T. Nguyen and Grenville Armitage. (2008). A Survey of Techniques for Internet Traffic Classification using Machine Learning. IEEE Communications Surveys & Tutorials, vol. 10, no. 4, pp. 56-76, IEEE Press, Piscataway, New Jersey, USA.
3. Szabo G., Orincsay D., Malomsoky S., Szabo I. (2008). On the validation of traffic classification algorithms. Proceedings of the 9th International Passive and Active Measurement conference, April 29-30, 2008, pp. 72-81.
4. Andrew W. Moore. Information Gain tutorial // Web: http://www.autonlab.org/tutorials/infogainll.pdf.
5. Mark A.Hall. (2000). Correlation-based feature selection for discrete and numeric class machine learning. Proc. of the 17th International Conference on Machine Learning (ICML 2000), Stanford University, Stanford, CA, USA, June 29 - July 2,
6. Sheluhin O.I., Erokhin S.D., Vanyushina A.V. (2018). Classification of IP traffic by methods of machine learning. Moscow: Hot line -Telecom, 2018. ISBN 978-5-9912-0719-8
Information about authors:
Sergey D. Erokhin, Rector of MTUCI, Moscow, Russia
Anna V. Vanyushina, Senior lecturer MTUCI, Moscow, Russia
г Г\