Научная статья на тему 'АНАЛИЗ ТРАФИКА СТУДЕНЧЕСКОГО ОБЩЕЖИТИЯ'

АНАЛИЗ ТРАФИКА СТУДЕНЧЕСКОГО ОБЩЕЖИТИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
70
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
NETFLOW / АНАЛИЗ ТРАФИКА / СЕТЬ СТУДЕНЧЕСКОГО ОБЩЕЖИТИЯ / TRAFFIC ANALYZING / CAMPUS NETWORK

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гойхман В.Ю., Лушникова Т.Ю., Зиненко Ю.А.

Проведен анализ трафика студенческого общежития, собранного с помощью протокола Netflow в течение двух месяцев, и выявлены основные закономерности распределения нагрузки на сеть. В ходе работы подтверждена гипотеза о том, что основной трафик мультипротокольных сетей является входящим, а самый распространенный протокол прикладного уровня - это HTTP. Также выявлено, что около половины всех переданных данных являются интерактивными, в том числе почти треть всей входящей информации составляет трафик социальных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гойхман В.Ю., Лушникова Т.Ю., Зиненко Ю.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

UNIVERSITY CAMPUS NETWORK TRAFFIC ANALYSIS

Campus network traffic has been analyzed for two months using Netflow protocol. The major network load distribution patterns have been identified. The hypothesis that most traffic in multiprotocol networks is incoming, and HTTP is the most common application layer protocol has been confirmed. About half of the transmitted data are interactive, and about a third of the incoming information is social networking traffic.

Текст научной работы на тему «АНАЛИЗ ТРАФИКА СТУДЕНЧЕСКОГО ОБЩЕЖИТИЯ»

УДК 004.7

АНАЛИЗ ТРАФИКА СТУДЕНЧЕСКОГО ОБЩЕЖИТИЯ

В. Ю. Гойхман 1, Т. Ю. Лушникова 2, Ю. А. Зиненко 3

1 Сургутский государственный университет, vg@sotsbi.ru 2Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А.

Бонч-Бруевича, lushnikova@iks.sut.ru 3ОАО «Сургутнефтегаз», zinenkoya@mail.ru

Проведен анализ трафика студенческого общежития, собранного с помощью протокола Netflow в течение двух месяцев, и выявлены основные закономерности распределения нагрузки на сеть. В ходе работы подтверждена гипотеза о том, что основной трафик мультипротокольных сетей является входящим, а самый распространенный протокол прикладного уровня - это HTTP. Также выявлено, что около половины всех переданных данных являются интерактивными, в том числе почти треть всей входящей информации составляет трафик социальных сетей.

Ключевые слова: Netflow, анализ трафика, сеть студенческого общежития.

UNIVERSITY CAMPUS NETWORK TRAFFIC ANALYSIS

V. Yu. Goikhman 1, T. Yu. Lushnikova 2, Yu. A. Zinenko 3

1 Surgut State University, vg@sotsbi.ru 2The Bonch-Bruevich Saint-Petersburg State University of Telecommunications, lushnikova@iks.sut.ru

3OJSC "Surgutneftegas", zinenkoya@mail.ru

Campus network traffic has been analyzed for two months using Netflow protocol. The major network load distribution patterns have been identified. The hypothesis that most traffic in multiprotocol networks is incoming, and HTTP is the most common application layer protocol has been confirmed. About half of the transmitted data are interactive, and about a third of the incoming information is social networking traffic.

Keywords: netflow, traffic analyzing, campus network.

Введение

В качестве стандарта для всех современных сетей связи (NGN, 4G, M2M, SDN) принята модель TCP/IP [1]. На основании предположения, что трафик, генерируемый различными социальными группами и организациями (будь то университет, офис или спальный квартал), отличается друг от друга, была поставлена задача анализа активности пользователей мультипротокольной сети передачи данных и выявления закономерностей, характерных для трафика типовых социальных групп пользователей. Кроме того, для описания специфики трафика группы абонентов и составления абонентского профиля необходимо определить состав трафика, т.е. количественное соотношение типов трафика в общем объёме передаваемой информации, поскольку характеристики передачи web-трафика сильно отличаются от видео- или р2р-трафика.

В отличие от кампусов зарубежных университетов, представляющих собой лаборатории, учебные корпуса и жилые помещения, объединенные общей сетью [2], студенческие общежития России, как правило, территориально сильно разнесены с учебными корпусами, из-за чего создание единой сети связи в университете затруднено. Поэтому студенческие общежития можно расценивать как отдельный тип объектов, представляющий социальную и муниципальную группу.

Объектом исследования является трафик типичного студенческого общежития.

Обзор литературы

Сбор статистики - одна из самых важнейших задач в сетях любого масштаба, поэтому задача анализа трафика становится не только научной, но и прикладной.

Вопросами анализа, профилирования и классификации трафика сетей кампуса посвящено множество исследований по всему миру. Основываясь на используемых исходных данный, а следовательно, и методах анализа трафика, их можно разделить на две группы: 1) анализ пользовательской нагрузки; 2) анализ заголовков пакетов. К (2) также можно отнести и агрегированные в сеансы данные заголовков.

При анализе трафика с исследованием пользовательской нагрузки классификация происходит на основе сигнатур, характерных для протоколов. Такие методы требуют не только больших мощностей для анализа пакетов, но и огромных ресурсов для хранения собранной информации при анализе постфактум. Анализ трафика на основе полных пакетов данных проводили [3, 5].

При работе с заголовками сообщений пользовательская информация не только недоступна, но и не хранится, а для анализа используется только служебная информация различных уровней сети. Однако даже в этом случае для большой сети объёмы хранимой информации значительны. Поэтому для анализа трафика и сбора статистики часто используют методы, основанные на работе с сессиями. В литературе анализу трафика сетей кампусов, представленного в виде сессий, посвящено множество работ [4, 6, 7].

Особенный интерес среди таких исследований представляет [2], в котором с использованием различных протоколов учёта сетевого трафика проведено масштабное исследование сети кампуса колледжа в Дартмуте, однако методы анализа и результаты, представленные в статье, на данный момент частично устарели.

Исходные данные

В качестве исходных данных использовался трафик одного из студенческих общежитий СПб-ГУТ, собранный в ноябре и декабре 2014 г. В общежитии проживает 350 студентов, на первом этаже располагается администрация. Структура сети общежития представлена на рис. 1.

Рис. 1. Схема сети студенческого общежития

В общежитии установлены коммутаторы Cisco 2960 [8] (1 Гбит - коммутатор первого этажа и 100 Мбит/c - коммутаторы 2-4 этажей), а также маршрутизатор, одновременно выполняющий функции VPN сервера общежития. Каждый этаж логически выделен в отдельную подсеть, к каждой комнате проведен медный кабель, скорость соединения с этажным коммутатором составляет 100 Мбит/с. Для выхода в сеть Интернет пользователи подключаются по VPN к серверу, скорость такого подключения ограничена 20 Мбит/с. Также к серверу подключаются точки доступа Wi-Fi, создающие свои небольшие сети для конечных устройств. IP-адреса назначаются сервером динамически для каждого VPN-соединения.

Учёт трафика общежития происходит с помощью протокола Netflow, разработанного компанией Cisco Systems [9]. Для сбора информации о трафике Netflow использует один или несколько сенсоров, собирающих статистику о проходящем через маршрутизаторы трафике, и коллектор, получающий информацию от сенсоров и помещающий её в хранилище. Архитектура протокола предусматривает также анализатор, обрабатывающий агрегированные данные и предоставляющий отчеты в читаемом

виде, однако встроенный анализатор требует гибкой настройки и даёт лишь краткое представление о собранном трафике.

Для хранения информации о переданных данных Netflow использует потоки (flows) - наборы пакетов с одинаковыми параметрами, проходящими в одном направлении. Для отделения одного потока от другого Netflow использует 5 параметров:

- IP-адрес источника;

- IP-адрес назначения;

- порт источника;

- порт назначения;

- код протокола IP.

Когда сенсор определяет, что поток закончен, данные о нём отправляются в коллектор. Кроме того, в зависимости от настроек сенсор может отправлять данные и о текущем потоке. В настройках по умолчанию поток считается законченным, если получено сообщение завершения сессии (для TCP), либо в текущем потоке не было передано ни одного пакета в течение более 15 секунд (для TCP и UDP).

Собранная информация представляется в виде записей, имеющих следующие поля:

- IP-адреса и порты источника и назначения;

- Количество пакетов и байт, переданных в потоке;

- Код протока IP;

- Для TCP-соединений - сумма всех флагов, полученных в течение потока;

- Время начала и окончания потока;

- Временные метки экспорта пакетов;

- Время работы системы от её запуска на момент экспорта и некоторые другие параметры.

Результаты анализа данных

Размер исходного файла, содержащего информацию за сутки и экспортированного в формат csv, составляет около 2 Гб. Для оперативной обработки данных на языке Python был разработан ряд скриптов. В ходе работы были построены усредненные временные диаграммы распределения трафика (с секундным усреднением), поскольку получить точные значения объёмов переданной информации невозможно, так как Netflow не хранит данные о задержках пакетов внутри потока. Графики зависимостей переданной информации от времени представлены на рис. 2, 3. Вертикальные линии разделяют сутки, суточные графики размещены по порядку в соответствии с календарем.

Даже основываясь на двух месяцах, можно выявить общие тенденции будних и выходных дней: максимальная активность пользователей приходится на время около полуночи, до 4-6 утра происходит постепенный спад объёмов переданной информации, в утреннее время активность пользователей стремится к нулю и начинает возрастать к 10-12 утра.

Воскресенье заметно отличается от остальных дней: активность пользователей держится примерно на одном уровне с полудня. Похожим образом выглядят и графики праздничных дней: 4 ноября (второй ряд, второй график слева на рис. 2) и 29 декабря (пятый ряд, первый график слева, рис. 3).

При разделении трафика на входящий и исходящий (рис. 4) чётко видно, что входящий поток почти полностью определяет нагрузку на сеть, что подтверждает распространенную гипотезу о том, что трафик современных сетей - это в основном трафик входящий, и именно он определяет распределение интенсивности нагрузки.

Соотношение транспортных протоколов во входящем трафике представлено на рис. 5, где видно, что даже в часы пиковой активности TCP превосходит UDP в 4 раза.

Для того чтобы выявить характерные особенности трафика общежития, во входящем потоке были определены группы в зависимости от портов назначения. Информация о зарезервированных или часто используемых приложениями номерах портов взята из [10]. Табл. 1 содержит группы и соответствующие им номера портов, на рис. 6 изображена диаграмма распределения входящего трафика по этим группам.

Как видно на рис. 6, 72 % входящего трафика было определено как web, только 1 % с уверенностью можно отнести к трафику p2p, а четверть всей информации вообще не удалось классифицировать. Эти результаты не могут дать чёткое представление о характере передаваемой информации по нескольким причинам. Во-первых, тенденция нескольких последних лет говорит о том, что протокол HTTP

Рис. 2. График зависимости переданной информации от времени (ноябрь)

Понедельник

Суббота Воскресенье

5 неделя -|

MM

Рис. 3. График зависимости переданной информации от времени (декабрь)

все чаще становится контейнером для информации любого другого рода, скрывая в себе и потоковые аудио и видео, онлайн-игры, и передачу гипертекста. Во-вторых, многие p2p-протоколы и игровые приложения используют динамические порты и даже зарезервированные порты HTTP для передачи информации, что не позволяет чётко выделить и остальные группы трафика. Также выделяемые ранее группы почтового трафика и ftp уходят из сетей, поскольку обмен данными происходит в основном посредством p2p-протоколов, а почтовые клиенты уступают место web-интерфейсам.

Для более точной классификации были выделены все уникальные IP-адреса источников суточного входящего трафика, с использованием dns-серверов Yandex и Google определены символьные имена каждого адреса и проведён их анализ. Результаты распределения данных и пакетов представлены на рис. 7. В табл. 2 приведены краткие описания групп.

Сопоставляя диаграммы (a) и (б) рис. 7, можно сделать вывод, что для игр характерен большой объём маленьких пакетов, тогда как трафик социальных сетей и видео обычно использует больший размер пакетов. В исходных данных средние размеры этих пакетов приближаются к максимально возможному размеру пакета IP.

Можно сделать предположение, что в группе Хостинги скрываются в основном web-сайты,

Рис. 4. Графики входящего, исходящего и суммарного трафика за 11 декабря (минутное усреднение)

Рис. 5. Графики входящих потоков TCP и UDP за 11 декабря (минутное усреднение)

а значит трафик этой группы относится к HTTP-трафику. В группе Провайдеры собраны в адреса оконечных устройств, а значит трафик p2p и VoIP-телефонии, как, например, Skype, как и, скорее всего, большая часть адресов, неизвестных dns-серверам. Известно, что серверами CDN, выделенными в одноименную группу, пользуются в основном корпорации с мировым именем, в том числе Apple, Microsoft, Samsung и тому подобные, и, возможно, они используются для быстрого доступа к обновлениям ПО.

Исходя из этой статистики следует, что половина всей переданной информации (группы Соцсе-ти, Игры и Видео) подразумевает интерактивность пользователя и, следовательно, требует обеспечения норм на показатели качества обслуживания в сети.

Таблица 1

Группы трафика по зарегистрированным в IANA-портам

Группа Порты

HTTP 80, 8080

HTTPS 443

P2P 902, 2710, 3000, 6882-6890, 6903-6907, 6985

Игры 1024, 1119, 3073, 3074, 3658, 3729, 4000, 4001, 6881

Другое Открытые для использования порты и малые группы

Рис. 6. Диаграмма распределения данных (а) и пакетов (б) по группам трафика на основе анализа символьных имен источников данных

Таблица 2

Группы трафика на основе анализа символьных имен 1Р-адресов

Группа Описание

Соцсети Адреса, принадлежащие популярным социальным сетям Vkontakte, Odnoklassniki, Facebook, и т.п.

Видео Онлайн-кинотеатры и youtube

Google и Yandex Все адреса, идентифицированные как сервера компаний Google и Yandex

Игры Сервера онлайн-игр и игровых корпораций, в том числе WoW, WoT и т.д.

CDN Сервера сети доставки контента (Content Delivery Network), принадлежащие корпорациям Akamai Technologies и Level 3 Communications

Хостинги Адреса серверов хостингов и дата-центров

Провайдеры Адреса компьютеров, принадлежащих сетям провайдеров (конечные пользователи)

Другое IP-адреса серверов мессенджеров, файлохранилища Dropbox и мобильных приложений

Неизвестно IP-адреса, неизвестные dns-серверам Google и Yandex

Заключение

Таким образом, в работе был описан пример использования данных, собранных протоколом Netflow, и на основе анализа этих данных сделаны следующие выводы:

- трафик сети студенческого общежития имеет повторяющуюся в пределах суток структуру, при этом распределения нагрузки на сеть в будние и выходные дни отличаются характерными особенностями;

- интенсивность трафика сети очень сильно меняется во времени даже в пределах небольшого (до 30 минут) интервала;

- трафик сети общежития - это в основном входящий трафик;

- классификация трафика на основе используемых приложениями портов не даёт точного понимания структуры трафика и может быть недостоверной, поскольку 3/4 всей информации передаётся с использованием портов протоколов HTTP и HTTPS;

- для данных игровых приложений характерно большое количество средних по объёму пакетов, тогда как социальные сети и видео часто используют максимально возможные размеры пакета IP;

- для трафика студенческого общежития характерны большие объёмы интерактивных данных (до половины всей переданной информации); почти треть всего объёма данных идёт от серверов социальных сетей, которые в настоящий момент включают в себя не только функции общения и хранения фотографий, но также и функции аудио- и видеоплееров;

- анализ символьных имён IP-адресов может служить основой для классификации трафика, однако не является единственным инструментом классификации.

В дальнейшем планируется разработать алгоритм классификации трафика, который будет точно разбивать его на группы, а также программно реализовать. Кроме того, необходимо подобрать математический аппарат, позволяющий проанализировать тенденции, обнаруженные визуально, и на основе этого создать модель, при помощи которой можно генерировать трафик студенческого общежития любого размера.

ЛИТЕРАТУРА

1. Гольдштейн Б. С., Соколов Н. А., Яновский Г. Г. Сети связи: учебник для вузов. СПб. : БХВ-Санкт-Петербург, 2010. 400 с.

2. Kotz D., Essien K. Analysis of a Campus-wide Wireless Network Categories and Subject Descriptors // Science. 2002. Vol. 11. September. P. 115-133.

3. Gember A., Anand A., Akella A. A comparative study of handheld and non-handheld traffic in campus Wi-Fi networks // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2011. Vol. 6579 LNCS. P. 173-183.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Her^ndez-Campos F. [et al.]. Spatio-temporal modeling of traffic workload in a campus WLAN // Proceedings of the 2nd annual international workshop on Wireless internet - WIC0N'06. 2006.

5. Kassim M., Ismail M., Yusof M. I. Statistical Analisys and Modeling of Internet Traffic IP-Based Network for Tele-Ttaffic Engineering // ARPN Journal of Engineering and Applied Sciences. 2015. Vol. 10. № 3. P. 1505-1512.

6. Schwab D., Bunt R. Characterising the use of a campus wireless network // INFOCOM 2004. Twenty-third AnnualJoint Conference of the IEEE Computer and Communications Societies. 2004. Vol. 2. C. P. 862-870.

7. Mckeown N. [et al.]. OpenFlow : Enabling Innovation in Campus Networks // ACM SIGCOMM Computer Communication Review. 2008. Vol. 38, № 2. P. 69-74.

8. Сайт компании Cisco Systems. URL : http://www.cisco.com (дата обращения: 20.03.2015).

9. Cisco Systems. Introduction to Cisco IOS §NetFlow / Cisco Systems. 2012. С. 1-16.

10. IANA.org. Service Name and Transport Protocol Port Number Registry. URL : http://www. iana.org/assignments/service-names-port-numbers/service-names-port-numbers.xhtml (дата обращения: 12.11.2015).

i Надоели баннеры? Вы всегда можете отключить рекламу.