Научная статья на тему 'Статистические характеристики трафика современного провайдера доступа в Интернет'

Статистические характеристики трафика современного провайдера доступа в Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1534
217
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Деарт В. Ю., Маньков В. А., Пилюгин А. В.

Быстрое развитие интернета в россии ставит перед провайдерами доступа актуальные задачи по мониторингу и измерениям трафика, передаваемого в их сетях [2]. Эти задачи важны как для крупных провайдеров, так и для огромного числа мелких компаний, обеспечивающих доступ в интернет, поскольку только этот инструмент позволяет провайдеру оперативно реагировать на изменение объемов и характера трафика и своевременно изменять как технические средства сети, так и предлагаемые пользователю услуги.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Статистические характеристики трафика современного провайдера доступа в Интернет»

Статистические характеристики трафика современного провайдера доступа в Интернет

БЫСТРОЕ РАЗВИТИЕ ИНТЕРНЕТА В РОССИИ СТАВИТ ПЕРЕД ПРОВАЙДЕРАМИ ДОСТУПААКУАЛЬНЫЕ ЗАДАЧИ ПО МОНИТОРИНГУ И ИЗМЕРЕНИЯМ ТРАФИКА, ПЕРЕДАВАЕМОГО В ИХ СЕТЯХ [2]. ЭТИ ЗАДАЧИ ВАЖНЫ КАК ДЛЯ КРУПНЫХ ПРОВАЙДЕРОВ, ТАК И ДЛЯ ОГРОМНОГО ЧИСЛА МЕЛКИХ КОМПАНИЙ, ОБЕСПЕЧИВАЮЩИХ ДОСТУП В ИНТЕРНЕТ, ПОСКОЛЬКУ ТОЛЬКО ЭТОТ ИНСТРУМЕНТ ПОЗВОЛЯЕТ ПРОВАЙДЕРУ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЕ ОБЪЕМОВ И ХАРАКТЕРА ТРАФИКА И СВОЕВРЕМЕННО ИЗМЕНЯТЬ КАК ТЕХНИЧЕСКИЕ СРЕДСТВА СЕТИ, ТАК И ПРЕДЛАГАЕМЫЕ ПОЛЬЗОВАТЕЛЮ УСЛУГИ

Деарт В.Ю., Маньков ВА., Пилюгин А.В.,

МТУСИ

Введение

В настоящее время методология измерений трафика в Интернет уже достаточно проработана [1], однако, динамичное развитие сети, внедрение новых услуг и изменение пристрастий пользователей требует постоянного анализа трендов происходящих изменений. Несмотря на большое число публикаций по данной тематике [3,4], совмещение макро характеристик (объемы информации по приложениям, распределение потоков и т.д.) с микро характеристиками (распределение длин пакетов, распределение интервалов между пакетами и др.), практически, никогда не выполняется для одной сети в конкретный отрезок времени. В связи с этим, возникла задача получения полной статистической картины трафика, которая позволила бы за счет обработки детальной информации получить как общие тренды изменения трафика, так и уточнить микро характеристики потоков.

Методика измерений

Для измерения была выбрана типичная сеть московского провайдера доступа в Интернет, построенная по технологии активной оптической сети АОЫ-Р2Р и обеспечивающая подключение более 1500 абонентов. Компания обеспечивает доступ в Интернет,

оказывает услугу передачи речи по протоколу IP и на момент исследования в тестовом режиме предоставляла видеоуслуги (телевещание по протоколу IP). Абоненты включены по древовидной топологии и каждому пользователю доступен канал Fast Ethernet (100 Мбит/с). Схема измерений представлена на рис. 1.

Весь трафик, поступающий на маршрутизатор, зеркалируется на порт, к которому подключен сервер с активированной программой Wireshark. Данные принятых Ethernet-кадров записываются в формате TCPdump. Общая продолжительность измерений на сети провайдера составила 3 суток, в течение которых были зафиксированы данные о четырех миллиардах пакетов.

Рис.1. Схема измерений трафика на сети провайдера

РИс. 2. Схема процесса обработки данных и получения макро и микро статистики

Файлы данных размером по 100 Мбайт поочередно обрабатываются утилитой TShark, входящей в состав пакета Wireshark. Процесс обработки (рис. 2) заключается в фильтрации неиспользуемых полей и преобразовании данных в текстовый формат. Далее текстовый файл проходит процедуру ин-жекции в базу данных (БД) MySQL. Данные в текстовом файле организованы таким образом, чтобы соответствовать полям БД. Общая БД содержит по одной записи на один зарегистрированный пакет независимо от направления его передачи. При помощи отдельных SQL-запросов к БД можно получить макро статистические параметры, для получения микро статистических было создано ПО на языке программирования PHP с динамическим изменением SQL-запросов.

Анализ результатов измерений

На рис.3(а) представлено распределение объемов трафика по типам транспортных

протоколов (OSI Layer4). Как видно из рис. 3, наибольший объем трафика передается с использованием стека TCP/IP (63%), на долю UDP/IP приходится 33%.

Дальнейший анализ целесообразно проводить раздельно по приложениям, использующим TCP/IP и UDP/IP. Картина распределения протоколов использующих стек TCP/IP представлена на рис.3(б). Из представленной диаграммы видно, что электронная почта занимает в общем объеме 6,1%, вебсерфинг — 26,8%, тогда как объемы данных обмена сетей класса Peer-to-Peer (Bittorrent, eDonkey, gnutella) составляют по меньшей мере 34%, и это не учитывая долю служебных TCP-пакетов, относящихся к обмену данных в Peer-to-Peer сетях. Таким образом, картина распределения потоков в сетях провайдеров доступа в Интернет значительно изменилась в течение нескольких последних лет так, что вместо вебсерфинга первое место по объемам передаваемой информации занимают сети

Peer-to-Peer. Эти данные хорошо согласуются с данными массовых измерений на сети "Комкор-ТВ"[2], проведенных в 2007 г. Установившаяся картина распределения трафика по используемым приложениям требует от операторов обеспечения необходимой полосы пропускания в направлении от пользователя к сети, что особенно существенно для операторов несимметричных сетей (xDSL).

Рассмотрение потоков на уровне пакетов также целесообразно проводить с учетом используемого стека протоколов. Естественно, что в численном выражении короткие пакеты составляют большую долю от общего числа переданных пакетов, поэтому целесообразно отнормировать количество пакетов конкретной длины в соответствии с объемом переносимых данных. На рис. 4 представлена диаграмма распределения длин пакетов приложений, использующих стек TCP/IR

Как видно из представленной диаграммы, более 70% передаваемых объемов данных переносится пакетами размером 14001500 байт. Анализ распределения длин пакетов для приложений, использующих стек UDP/IP, показывает, что большая часть данных (около 40%) переносится пакетами длиной 28-100 байт. Действительно, большую часть потока этих приложений составляют телефонные вызовы VoIP с применением кодека G.723.1, длина пакета для которого составляет: 24-20 байт - речь (30 мс)+ заголовок RTP - 20 байт, + заголовок UDP - 16 байт, + заголовок IP - 20 байт = 80 байт. Таким образом, при определении политик обеспечения QoS и при моделировании следует ориентироваться на длины пакетов, переносящих

smtp-

6,15%

tcp служеб 27,79%

http -

26,85%

bittorrent служеб -0,67%

Рис. 3. а — распределение объемов данных по типам протоколов L4; б — распределение объемов данных по приложениям, использующим стек TCP/IP

большую долю трафика данного приложения.

В настоящее время наиболее эффективным инструментом исследования IP-сетей является имитационное моделирование. Наиболее популярной средой дискретного временного имитационного моделирования для исследования сетей передачи данных является NS-2 (Network Simulator ver.2). Дополнительный модуль PackMIME совместно с NS-2 позволяет моделировать обмен данными по протоколу HTTP между клиентом и сервером. Для начальной настройки модуля PackMIME требуются параметры HTTP-трафика, поэтому уточнение микро характеристик потоков проводилось с ориентацией на последующее моделирование HTTP-трафика в среде NS-2+PackMIME. Одним из наиболее существенных параметров является закон распределения интервалов между различными TCP-сессиями.

Обработка полученных статистических данных позволила построить гистограмму распределения интервалов между TCP-сессиями, представленную на рис. 6.

Рассмотрим более подробно процесс установления ТСР-соединений, выполняемых браузером при загрузке очередной страницы (рис. 7).

Как видно из рис. 7, интервал между ТСР-соединениями определяется временем между посылкой последовательных пакетов SYN. После установления первой сессии браузер посылает HTTP-запрос GET, в ответ на который получает описание страницы и размещаемых на ней объектов. Далее браузер открывает следующие TCP-соединения, причем интервал между двумя первыми сессиями достаточно длительный, поскольку включает обмен несколькими пакетами, тогда как интервал

Upstream

Downstream

—►

I! pstream

Downstream ---►

U pstream

Dow nstream

Рис. 7. Диаграмма процесса установления ТСР-соединений

Session I

Session 2 ■*—

Z *

У! <

Session J

Z * >•

1401-1500

Ю-100

•301*400

101-200201*300

401-500

'50Т«00

701 -300

801-900

1301-1400| HOI-12(ft0l-1300

Размер Р пакетов байт

^с. 4. Распределение передаваемого трафика по длинам IP пакетов для стека TCP/IP

-2S-.1ÜQ.

Размер Р пакетов байт

Рис. 5. Распределение передаваемого трафика по длинам 1Р-пакетов для стека иРР/!Р

Рис. 6. Гистограмма распределения интервалов между TCP-сессиями

Распределение

D

Ф

т

S

с

о

у

60 гп

50

Я 30

т

s

§ 20

it

10

о

Временной интервал, сек

РИс. 8. Гистограмма распределения интервалов между ТСР-соединениями: а — экспонента, б — дельта функция

0,01 0,02 0,03 0,04

Временной интервал, сек

0,05

между второй и последующими сессиями очень маленький, так как он определяется режимом работы браузера и не зависит от времени передачи пакетов через сеть. Таким образом, можно предположить, что функция распределения интервалов между ТСР-со-единениями содержит, по крайней мере, две составляющие: распределение интервалов, связанных с взаимодействием с удаленным сервером и распределение коротких интервалов, определяемых алгоритмом работы браузера. Исходя из этого предположения, была сделана попытка представить эмпирическое распределение интервалов между ТСР-соединениями в виде суммы двух распределений: экспоненциального (для длительных интервалов) и дельта функции (для коротких интервалов) (рис.8 а, б).

Проверка гипотезы об экспоненциальном распределении по критерию Колмогорова-Смирнова показала, что она не противоречит действительности. Дальнейший анализ

показал, что дельта на распределение в интервале от 0 до 0,002 секунд приходится 60% всех интервалов между сессиями, а 40% относится к экспоненциальному распределению.

Аналогичным образом подбираются распределения для остальных характеристик HTTP-трафика необходимых для моделирования в PackMIME (см. таблицу).

Полученные в таблице параметры позволяют проводить прогностическое имитационное моделирование современной мультисер-висной сети, учитывая потребности абонентов.

Выводы

1. Тенденция увеличения доли трафика, передаваемого клиентами сетей P2P (Bittorent, eDonkey, Gnutella и др.) требует от провайдеров увеличения пропускной способности канала от пользователя к сети

(Upstream).

2. Нормализованное распределение длин пакетов для ТСР-трафика показывает, что основная доля трафика переносится длинными пакетами (1400 -1500 байт).

3. Нормализованное распределение длин пакетов для UDP-трафика показывает, что основная доля трафика (60%) переносится короткими пакетами (48-100 байт).

4. Распределение интервалов между ТСР-сессиями может описываться суммой двух распределений: дельта функцией и экспонентой, что объясняется принципами работы современных браузеров.

Литература

1. Crovella M., Krishnamurthy B. Internet Measurement: Infrastructure, Traffic and Applications. John Wiley&Sons, Ltd., 2006. — 495 p.

2. Медриш МА Кабельный широкополосный доступ. Материалы 8-ой международной конференции "Состояние и перспективы развития Интернета в России". 10-12 сентября 2007. http//www.rans.ru/forum2007/dokl-pr-tez.html.

3. Chuck Fraleigh, Fouad Tobagi and Christophe Diot. Provisioning IP backbone networks to support latency sensitive traffic. In Proceedings of IEEE INFO-COM Conference, 2003.

4. C. Fraleigh, S. Moon, B.Lyles, C. Cotton, M. Khan, D. Moll, R. Rockell, T.Seely and C. Diot. Packet-level traffic measurements from the Sprint IP backbone. IEEE Network, 2003.

Основные параметры HTTP-трафика для моделирования в PackMIME

Характеристика Распределение Пределы Параметры распределения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Время между SYN Uniform 0-0,002 доля: 0,6

Exponetial 0-0,05 доля: 0,4 среднее = 0,00636335 среднее = 624,668 дисперсия = 232,935

2. Размер ОЕТ Normal

3. Время между СЕТ Uniform 0-0,2 80% всех ОЕТ

Weibull 0,2-2,5 коэф. формы = 0,89274 коэф. масштаба = 0,542636 нижняя граница= 0,200005

i Надоели баннеры? Вы всегда можете отключить рекламу.