Статистические характеристики трафика современного провайдера доступа в Интернет
БЫСТРОЕ РАЗВИТИЕ ИНТЕРНЕТА В РОССИИ СТАВИТ ПЕРЕД ПРОВАЙДЕРАМИ ДОСТУПААКУАЛЬНЫЕ ЗАДАЧИ ПО МОНИТОРИНГУ И ИЗМЕРЕНИЯМ ТРАФИКА, ПЕРЕДАВАЕМОГО В ИХ СЕТЯХ [2]. ЭТИ ЗАДАЧИ ВАЖНЫ КАК ДЛЯ КРУПНЫХ ПРОВАЙДЕРОВ, ТАК И ДЛЯ ОГРОМНОГО ЧИСЛА МЕЛКИХ КОМПАНИЙ, ОБЕСПЕЧИВАЮЩИХ ДОСТУП В ИНТЕРНЕТ, ПОСКОЛЬКУ ТОЛЬКО ЭТОТ ИНСТРУМЕНТ ПОЗВОЛЯЕТ ПРОВАЙДЕРУ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЕ ОБЪЕМОВ И ХАРАКТЕРА ТРАФИКА И СВОЕВРЕМЕННО ИЗМЕНЯТЬ КАК ТЕХНИЧЕСКИЕ СРЕДСТВА СЕТИ, ТАК И ПРЕДЛАГАЕМЫЕ ПОЛЬЗОВАТЕЛЮ УСЛУГИ
Деарт В.Ю., Маньков ВА., Пилюгин А.В.,
МТУСИ
Введение
В настоящее время методология измерений трафика в Интернет уже достаточно проработана [1], однако, динамичное развитие сети, внедрение новых услуг и изменение пристрастий пользователей требует постоянного анализа трендов происходящих изменений. Несмотря на большое число публикаций по данной тематике [3,4], совмещение макро характеристик (объемы информации по приложениям, распределение потоков и т.д.) с микро характеристиками (распределение длин пакетов, распределение интервалов между пакетами и др.), практически, никогда не выполняется для одной сети в конкретный отрезок времени. В связи с этим, возникла задача получения полной статистической картины трафика, которая позволила бы за счет обработки детальной информации получить как общие тренды изменения трафика, так и уточнить микро характеристики потоков.
Методика измерений
Для измерения была выбрана типичная сеть московского провайдера доступа в Интернет, построенная по технологии активной оптической сети АОЫ-Р2Р и обеспечивающая подключение более 1500 абонентов. Компания обеспечивает доступ в Интернет,
оказывает услугу передачи речи по протоколу IP и на момент исследования в тестовом режиме предоставляла видеоуслуги (телевещание по протоколу IP). Абоненты включены по древовидной топологии и каждому пользователю доступен канал Fast Ethernet (100 Мбит/с). Схема измерений представлена на рис. 1.
Весь трафик, поступающий на маршрутизатор, зеркалируется на порт, к которому подключен сервер с активированной программой Wireshark. Данные принятых Ethernet-кадров записываются в формате TCPdump. Общая продолжительность измерений на сети провайдера составила 3 суток, в течение которых были зафиксированы данные о четырех миллиардах пакетов.
Рис.1. Схема измерений трафика на сети провайдера
РИс. 2. Схема процесса обработки данных и получения макро и микро статистики
Файлы данных размером по 100 Мбайт поочередно обрабатываются утилитой TShark, входящей в состав пакета Wireshark. Процесс обработки (рис. 2) заключается в фильтрации неиспользуемых полей и преобразовании данных в текстовый формат. Далее текстовый файл проходит процедуру ин-жекции в базу данных (БД) MySQL. Данные в текстовом файле организованы таким образом, чтобы соответствовать полям БД. Общая БД содержит по одной записи на один зарегистрированный пакет независимо от направления его передачи. При помощи отдельных SQL-запросов к БД можно получить макро статистические параметры, для получения микро статистических было создано ПО на языке программирования PHP с динамическим изменением SQL-запросов.
Анализ результатов измерений
На рис.3(а) представлено распределение объемов трафика по типам транспортных
протоколов (OSI Layer4). Как видно из рис. 3, наибольший объем трафика передается с использованием стека TCP/IP (63%), на долю UDP/IP приходится 33%.
Дальнейший анализ целесообразно проводить раздельно по приложениям, использующим TCP/IP и UDP/IP. Картина распределения протоколов использующих стек TCP/IP представлена на рис.3(б). Из представленной диаграммы видно, что электронная почта занимает в общем объеме 6,1%, вебсерфинг — 26,8%, тогда как объемы данных обмена сетей класса Peer-to-Peer (Bittorrent, eDonkey, gnutella) составляют по меньшей мере 34%, и это не учитывая долю служебных TCP-пакетов, относящихся к обмену данных в Peer-to-Peer сетях. Таким образом, картина распределения потоков в сетях провайдеров доступа в Интернет значительно изменилась в течение нескольких последних лет так, что вместо вебсерфинга первое место по объемам передаваемой информации занимают сети
Peer-to-Peer. Эти данные хорошо согласуются с данными массовых измерений на сети "Комкор-ТВ"[2], проведенных в 2007 г. Установившаяся картина распределения трафика по используемым приложениям требует от операторов обеспечения необходимой полосы пропускания в направлении от пользователя к сети, что особенно существенно для операторов несимметричных сетей (xDSL).
Рассмотрение потоков на уровне пакетов также целесообразно проводить с учетом используемого стека протоколов. Естественно, что в численном выражении короткие пакеты составляют большую долю от общего числа переданных пакетов, поэтому целесообразно отнормировать количество пакетов конкретной длины в соответствии с объемом переносимых данных. На рис. 4 представлена диаграмма распределения длин пакетов приложений, использующих стек TCP/IR
Как видно из представленной диаграммы, более 70% передаваемых объемов данных переносится пакетами размером 14001500 байт. Анализ распределения длин пакетов для приложений, использующих стек UDP/IP, показывает, что большая часть данных (около 40%) переносится пакетами длиной 28-100 байт. Действительно, большую часть потока этих приложений составляют телефонные вызовы VoIP с применением кодека G.723.1, длина пакета для которого составляет: 24-20 байт - речь (30 мс)+ заголовок RTP - 20 байт, + заголовок UDP - 16 байт, + заголовок IP - 20 байт = 80 байт. Таким образом, при определении политик обеспечения QoS и при моделировании следует ориентироваться на длины пакетов, переносящих
smtp-
6,15%
tcp служеб 27,79%
http -
26,85%
bittorrent служеб -0,67%
Рис. 3. а — распределение объемов данных по типам протоколов L4; б — распределение объемов данных по приложениям, использующим стек TCP/IP
большую долю трафика данного приложения.
В настоящее время наиболее эффективным инструментом исследования IP-сетей является имитационное моделирование. Наиболее популярной средой дискретного временного имитационного моделирования для исследования сетей передачи данных является NS-2 (Network Simulator ver.2). Дополнительный модуль PackMIME совместно с NS-2 позволяет моделировать обмен данными по протоколу HTTP между клиентом и сервером. Для начальной настройки модуля PackMIME требуются параметры HTTP-трафика, поэтому уточнение микро характеристик потоков проводилось с ориентацией на последующее моделирование HTTP-трафика в среде NS-2+PackMIME. Одним из наиболее существенных параметров является закон распределения интервалов между различными TCP-сессиями.
Обработка полученных статистических данных позволила построить гистограмму распределения интервалов между TCP-сессиями, представленную на рис. 6.
Рассмотрим более подробно процесс установления ТСР-соединений, выполняемых браузером при загрузке очередной страницы (рис. 7).
Как видно из рис. 7, интервал между ТСР-соединениями определяется временем между посылкой последовательных пакетов SYN. После установления первой сессии браузер посылает HTTP-запрос GET, в ответ на который получает описание страницы и размещаемых на ней объектов. Далее браузер открывает следующие TCP-соединения, причем интервал между двумя первыми сессиями достаточно длительный, поскольку включает обмен несколькими пакетами, тогда как интервал
Upstream
Downstream
—►
I! pstream
Downstream ---►
U pstream
Dow nstream
Рис. 7. Диаграмма процесса установления ТСР-соединений
Session I
Session 2 ■*—
Z *
У! <
Session J
Z * >•
1401-1500
Ю-100
•301*400
101-200201*300
401-500
'50Т«00
701 -300
801-900
1301-1400| HOI-12(ft0l-1300
Размер Р пакетов байт
^с. 4. Распределение передаваемого трафика по длинам IP пакетов для стека TCP/IP
-2S-.1ÜQ.
Размер Р пакетов байт
Рис. 5. Распределение передаваемого трафика по длинам 1Р-пакетов для стека иРР/!Р
Рис. 6. Гистограмма распределения интервалов между TCP-сессиями
Распределение
D
Ф
т
S
с
о
у
60 гп
50
Я 30
т
s
§ 20
it
10
о
Временной интервал, сек
РИс. 8. Гистограмма распределения интервалов между ТСР-соединениями: а — экспонента, б — дельта функция
0,01 0,02 0,03 0,04
Временной интервал, сек
0,05
между второй и последующими сессиями очень маленький, так как он определяется режимом работы браузера и не зависит от времени передачи пакетов через сеть. Таким образом, можно предположить, что функция распределения интервалов между ТСР-со-единениями содержит, по крайней мере, две составляющие: распределение интервалов, связанных с взаимодействием с удаленным сервером и распределение коротких интервалов, определяемых алгоритмом работы браузера. Исходя из этого предположения, была сделана попытка представить эмпирическое распределение интервалов между ТСР-соединениями в виде суммы двух распределений: экспоненциального (для длительных интервалов) и дельта функции (для коротких интервалов) (рис.8 а, б).
Проверка гипотезы об экспоненциальном распределении по критерию Колмогорова-Смирнова показала, что она не противоречит действительности. Дальнейший анализ
показал, что дельта на распределение в интервале от 0 до 0,002 секунд приходится 60% всех интервалов между сессиями, а 40% относится к экспоненциальному распределению.
Аналогичным образом подбираются распределения для остальных характеристик HTTP-трафика необходимых для моделирования в PackMIME (см. таблицу).
Полученные в таблице параметры позволяют проводить прогностическое имитационное моделирование современной мультисер-висной сети, учитывая потребности абонентов.
Выводы
1. Тенденция увеличения доли трафика, передаваемого клиентами сетей P2P (Bittorent, eDonkey, Gnutella и др.) требует от провайдеров увеличения пропускной способности канала от пользователя к сети
(Upstream).
2. Нормализованное распределение длин пакетов для ТСР-трафика показывает, что основная доля трафика переносится длинными пакетами (1400 -1500 байт).
3. Нормализованное распределение длин пакетов для UDP-трафика показывает, что основная доля трафика (60%) переносится короткими пакетами (48-100 байт).
4. Распределение интервалов между ТСР-сессиями может описываться суммой двух распределений: дельта функцией и экспонентой, что объясняется принципами работы современных браузеров.
Литература
1. Crovella M., Krishnamurthy B. Internet Measurement: Infrastructure, Traffic and Applications. John Wiley&Sons, Ltd., 2006. — 495 p.
2. Медриш МА Кабельный широкополосный доступ. Материалы 8-ой международной конференции "Состояние и перспективы развития Интернета в России". 10-12 сентября 2007. http//www.rans.ru/forum2007/dokl-pr-tez.html.
3. Chuck Fraleigh, Fouad Tobagi and Christophe Diot. Provisioning IP backbone networks to support latency sensitive traffic. In Proceedings of IEEE INFO-COM Conference, 2003.
4. C. Fraleigh, S. Moon, B.Lyles, C. Cotton, M. Khan, D. Moll, R. Rockell, T.Seely and C. Diot. Packet-level traffic measurements from the Sprint IP backbone. IEEE Network, 2003.
Основные параметры HTTP-трафика для моделирования в PackMIME
Характеристика Распределение Пределы Параметры распределения
1. Время между SYN Uniform 0-0,002 доля: 0,6
Exponetial 0-0,05 доля: 0,4 среднее = 0,00636335 среднее = 624,668 дисперсия = 232,935
2. Размер ОЕТ Normal
3. Время между СЕТ Uniform 0-0,2 80% всех ОЕТ
Weibull 0,2-2,5 коэф. формы = 0,89274 коэф. масштаба = 0,542636 нижняя граница= 0,200005