Оценка влияния реальных характеристик web-трафика на качество обслуживания в мультисервисной сети доступа

Деарт В.Ю.; Пилюгин А.В.; Маньков В.А.

Деарт В.Ю., Пилюгин А.В., Маньков ВА., МТУСИ

Несмотря на стремительное развитие широкополосного доступа в России, инструмент исследования, прогнозирования и моделирования трафика пользователей в современных телекоммуникационных сетях доступа ещё не до конца сформирован. Многие провайдеры доступа в Интернет строят сети передачи данных произвольно, напрасно полагая, что большая пропускная способность сети поможет удовлетворить потребности клиента в качестве обслуживания. Зачастую применяемая в сетях доступа дифференциация трафика оказывается недостаточной, поскольку предполагает выделение только трафика VoIP (Voice over IP), не затрагивая и не исследуя весь остальной поток трафика. Не стоит также забывать про развитие пользовательской сети, с точки зрения увеличения трафика и с точки зрения уплотнения трафика в "узких местах" сети. Таким образом, складывается ситуация, когда провайдер не представляет, что происходит в его сети доступа, а основным средством диагностики является обратная связь от пользователей.

Исследовательской группой была предложена и опробована методика сбора, обработки и анализа статистических данных в мультисервисной сети пакетной передачи данных. Основные этапы методики отображены на рис. 1. На этапе сбора статистики был применён сервер на базе персонального компьютера с установленным программным обеспечением Wireshark 1.02. С помощью технологии зеркалирования (span port) портов все пользовательские

данные, направленные в сеть Интернет и из нее, поступали без изменения на сетевой интерфейс сервера. Таким образом, на сервере были сохранены файлы формата TCPdump размером по 100 Мбайт, общим объемом свыше 300 Гбайт, содержащие служебные заголовки всех пользовательских пакетов за двое суток.

Дальнейшая обработка предполагает переформатирование TCPdump-файлов в текстовый формат с последующей постобработкой для базы данных. В качестве основного хранилища собранной статистики была выбрана база данных на основе MySQL 5.1, в которую были помещены все собранные за двое суток пакеты. Общий объём базы данных составил более двух миллиардов записей. Для автоматизации получения статистических результатов с помощью SQL-запросов были реализованы программные скрипты на языке PHR Все приведенные ниже статистические результаты получены согласно данной методике с использованием вынислительных ресурсов сервера.

Из основных преимуществ данной методики стоит отметить универсальность — методика позволяет получать статистику по трафику, как в рамках локальной сети, так и для трафика, выходящего из локальной сети в глобальную, например, сеть Интернет. Обработка данных реализована таким образом, что по окончании формируется база данных на основе MySQL (возможны и другие варианты) с множеством записей, каждая из которых соответствует одному пакету данных, что позволяет гибко управлять информацией, заносимой в базу данных, включая только необходимые поля. Различные схемы индексации данных позволяют оптимизировать базу под конкретные задачи, чтобы увеличить быстродействие и сократить время

Рис. 1. Схема сбора и обработки статистики на сети провайдера

(а) (б)

Рис. 2. (а) — распределение протоколов транспортного уровня; (б) — распределение протоколов прикладного уровня использующих ТСР

обработки запросов. В частном случае из общей базы данньх можно выделить отдельные таблицы, которые позволят исследовать определённую группу пакетов.

Объектом исследования, описанного в данной статье, послужил трафик web-приложений, передаваемый и принимаемый через 80 порт web-сервера. Основную часть данных такого трафика составляет просмотр пользователями www-страниц и передача файлов при помощи протокола НТТР На рис.2 приведены распределения используемых в сети протоколов. Из приведенных распределений видно, что доля НТТР по количеству пакетов на фоне всего трафика, пересекающего границы локальной сети, составляет 25,8%.

Для суточного интервала собранной статистики был выбран ЧНН по количеству передаваемых байт по протоколу НТТР. Сводные результаты по ЧНН, позволяющие оценить объём исследуемых данных, представлены в табл.1.

Как было показано в [3], использование имитационного моделирования может заменить исследование на реальной сети передачи данных для протокола ТСР. Для протокола НТТР, с помощью которого передаётся исследуемый трафик, также существует имитаци-

онная модель РаскМ1МЕ [2] под платформу N5-2. Основными параметрами этой модели являются универсальные параметры взаимодействия протоколов ТСР двух открыггых систем и НТТР-, представленные в табл. 2.

Промежуток времени между посылкой пакетов с флагом "5У№ определяет частоту организации новых ТСР-сессий. Полученные результаты позволяют сделать вывод, что промежутки между "5У№ можно классифицировать на два зависимых типа: определяемые поведением пользователя и определяемые работой браузера. Поскольку число пользователей достаточно велико, то и закон распределения между пользовательскими запросами стремится к экспоненциальному в пределах от 0 до 0,5 с. В то же время влияние работы браузера, описанное в [4], вносит зависимый поток интервалов небольшой длительности, описываемых равномерным распределением, как представлено на рис. 3. Можно установить, что распараллеливание ТСР-сессий (рис. 4) для ускорения загрузки web-страниц приводит к нарушению экспоненциального характера организации ТСР-соединений.

Таблица 1

Сводные характеристики исследуемой выборки данных

Общая статистика

Размер сети, пользователей 1 500

Продолжительность выборки, сек 3 600

Количество переданных (из сети) пакетов по 80 порту, шт. 8 556 290

Количество полученных (в сеть) пакетов по 80 порту, шт. 10 234 226

Общее количество переданных/полученных (в сети) пакетов по 80 порту, шт. 18 790 516

Общее количество пакетов в БД (включены транзитные пакеты), шт. 19 289 943

Количество переданных данных по 80 порту, байт 2 091 467 796

Количество полученных данных по 80 порту, байт 10 741 335 317

Общее количество переданных/полученных данных по 80 порту, байт 12 832 803 113

Количество переданных запросов СЕТ 1 291 810

Количество полученных ответов ЯЕБР 549 885

Количество ТСР сессий, шт. 715 427

Количество \VebFlow, шт. 710

Таблица 2

Вероятностные характеристики основньх характеристик WEB-трафика

Исследуе- мый параметр Интер- валы Пределы % от общего количества Распределение (в скобках указана доля) Параметры

Промежуток времени между Я УМ I 0-0,0025 56 Экспонен. (0,316) Х= 134,124

Равном, завис. (0,684) min = 0, max = 0,0025

2 0,0025- 0,5 43,77 Экспонен. >.= 134,124

3 >0,5 0,23 - -

Количество ОЕТ/еессия I 0-9 100 Табличное: 0 GET - 33%; 1 GET - 30%; 2 GET - 19%; ...; 9 GET - 0,4%

Время между получением ответа и новым СЕТ I 0-0,035 30,25 Экспонен. (0,482) \ = 8,677

Равном. (0,518) min = 0, max = 0,035

2 0,035-0,5 38,17 Экспонен. X = 8,677

3 0,5-1250 30,39 Лог-лог. (3-пар.) med. = 2,639; shape = 1,23; low.thrs. = 0,5

4 >1250 1,19 - -

Размер СЕТ I 80-1500 100 Normal mean=624; std.dcv.=232

Размер ЯЕЯР I 45-10000 79,13 Лог.-лог. median = 1345,6; shape = 0,6671

2 10000- 100000 19,66 Гамма (3-пар.) shape = 0,847; scale = 0,0000479; low.thrs. = 10039,0

3 >100000 1,21 - -

Количество пакетов с запросом "GET" наиболее точно описывается табличным распределением. Стоит отметить достаточно большую долю пакетов с нулевым количеством запросов, что может соответствовать случаю передачи файла большого объёма с длительностью сессии, выходящей за рамки исследуемого интервала.

Промежутку между получением ответа и передачей нового запроса "GET" соответствует время просмотра пользователем страницы ("think time"). Для первых двух коротких интервалов интенсивность запросов определяется работой браузера, который запрашивает поочередно объекты для построения полной www-страницы, для больших интервалов интенсивность определяется человеческим фактором.

Размер клиентских запросов лежит в пределах 80-1500 байт со средним значением 624 байта. Размер ответов сервера на клиентский запрос лежит в диапазоне от 45 байт до 31 Мб. Средняя величина ответа сервера на один запрос составляет 15,8 Кб и только 1,2% превышают размер 100 Кб (рис. 5).

Рис. 3. Механизм организации нового ТСР-соединения при загрузке НТТР страницы

То » XI

Рис. 4 Механизм организации нового ТСР-соединения при загрузке НТТР страницы

Нормальное распределение с параметрами: mean = 624,839 st dev = 232,046

1 - Weibull

2 - Gamma 3-param.

(X 1000,0;

S'

Value

(6)

(X 10000,0)

Рис 5. (а) Распределение размеров запросов НТТР! (б) Распределение размеров ответов НТТР Механизм организации нового ТСР-соединения при загрузке НТТР страницы

Полученные результаты позволяют уточнить характеристики web-трафика, а их систематизация в виде входных параметров системы моделирования PackMIME+NS-2 — построить имитационную модель, отражающую особенности трафика современных мульти-сервисных сетей.

На основе полученных параметров генерации трафика, была построена имитационная модель мультисервисной сети на базе NS-2+PackMIME, отражающая особенности реальной сети передачи данных, на которой производились измерения. Для имитации пользовательских запросов использовались два генератора различной интенсивности, соответствующие рассчитанным параметрам.

Топология имитируемой сети была выстроена таким образом, чтобы смоделировать общее "узкое место" в сети, приходящееся на соединение маршрутизатора локальной сети с сетью Интернет. Такая топология позволяет регулировать нагрузку в сети (при фиксированных генераторах) совокупностью пропускной способности и размером буферов, относящихся к этому соединению. В качестве параметров для исследования были выбраны! стандартные параметры! передачи пакетов, относящиеся к качеству обслуживания: средняя задержка передачи пакета из конца в конец и процент потерянных пакетов.

На рис. 6 приведены зависимости средней задержки передачи пакетов от коэффициента использования. Для сравнения на графи-

Коэф.использования

Р^с. 6. Зависимость средней задержки передачи пакетов от коэффициента использования

Коэфисполыова ния

Рис. 7. Зависимость процента потерянньк пакетов от коэффициента использования при буфере 100 пакетов

Коэф.использования

Рис. 8. Зависимость процента потерянньк пакетов от коэффициента использования при буфере 10 пакетов

ке также указана кривая, соответствующая эталонной модели M/M/1 с бесконечным буфером.

Из графика понятно, что изменения в размере буфера при относительно малых величинах, практически, не влияют на задержку передачи пакетов. Также стоит обратить внимание, что задержки для модели M/M/1 значительно ниже, чем реальные задержки даже при размере буфера 100 пакетов, и сравнимы с 5-10 пакетным буфером.

На рис. 7, В, 9 указаны зависимости процента потерянных пакетов от коэффициента использования при размерах буфера 100, 10 и 5 пакетов соответственно.

Таким образом, проведенные исследования еще раз показывают, что реальные характеристики ТСР трафика (распределение интервалов между ТСР сессиями и распределение длин ответов) столь значительно влияют на параметры их обслуживания в системах с ожиданием, что для их описания не могут использоваться классиче-

ские модели, построенные на Марковских процессах.

Дальнейшее исследование было направлено на выявление наиболее значимого фактора, обуславливающего отличие имитационной модели от M/M/1 /100. Для этого были реализовано следующие имитационные модели:

• модель с экспоненциальной поступающей нагрузкой (GET) и реальным распределением размеров ответов;

• модель с реальной поступающей нагрузкой (GET) и экспоненциальным распределением размеров ответов;

• модель с экспоненциальной поступающей нагрузкой (GET) и экспоненциальным распределением размеров ответов.

На рис.10 представлена диаграмма отличий задержки различных моделей от M/M/1/100. На диаграмме представлены отличия в задержки для 4-х моделей, включая первоначальную, построенную на основе анализа собранной статистики. Наиболее важно отметить, что отличия от M/M/1/100 для модели с экспоненциаль-

20%

-♦-10 па -■-М/М/1 <етов /10

—

15%

10%

Ї 5%

ф

з о а С

0,0 0,1 0,2 0,3 0,4 0,5 0,6

Коэфиспольэования

0,7

0,8

0,9

1,0

Рис. 9. Зависимость процента потерянньк пакетов от коэффициента использования при буфере 5 пакетов

Рис. 10. Процентное отличие в средней задержке для 4-х имитационных моделей от модели М/М/1/100

ной поступающей нагрузкой (GET) и экспоненциальным распределением размеров ответов, составляют достаточно большую величину, следовательно, основной причиной отличия для всех моделей является наличие всплесков (bursts) пакетного трафика, обусловленное функционированием протокола TCP. Также по диаграмме можно установить, что более значимым оказывается фактор распределения с "большими хвостами" размером HTTP-ответов, нежели фактор не экспоненциального распределения поступающих запросов GET.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В целом, можно заключить, что:

• предложенная методика позволяет исследовать пользовательский трафик в сети провайдера, как на макро, так и на микро-уровне. С помощью нее можно выделить потоки трафика, по различным критериям, в том числе по пользователям и по приложениям, что позволяет создать картину поведения пользователя сети или оценить качество обслуживания всего приложения в целом;

• интенсивность поступления запросов реального HTTP-трафика в сети, за счёт особенностей работы браузера, определяется двумя зависимыми распределениями: экспоненциальным и равномерным;

• размер ответов HTTP-трафика резко отличается от экспоненциального и аппроксимируется в области меньших значений распределением Вейбулла, в области больших — распределением Гамма с тремя параметрами;

• среднее моделируемое значение задержки пакетов в сети в несколько раз превышает расчетное для модели M/M/1;

• наиболее значимым фактором отличия полученных модели-

рованием показателей качества обслуживания (средней задержки и процента потерянных пакетов) от M/M/1 является наличие всплесков пакетного трафика, обусловленное работой протокола TCP; вторым по значимости фактором является влияние распределения размеров HTTP-ответов, которое в реальных условиях характеризуется наличием редких, но очень объемных по числу байт ответов;

• разработанная имитационная модель за счет включения измеренных статистических характеристик позволяет более точно оценивать параметры качества обслуживания web-трафика в реальных сетях.

Литература

1. LShuai, G.Xie, J.Yang. Characterization of HTTP Behavior on Access Networks in WEB 2.0, ICT, 200В.

2. Маньков БА, Пилюгин А.Б. Модель вероятностной генерации HTTP-трафика PackMIME// Труды конференции "Международный Форум Информатизации-2006". — М., 2006. — С. 34.

3. Деарт BJO, Маньков ЭА, Пилюгин AB. Сравнение аналитического метода расчета скорости передачи данных с использованием протокола TCP с результатами имитационного моделирования//Технологии информационного общества: Тезисы докладов московской отраслевой научнотехнической конференции. — М.: Инсвязьиздат, 2007. — С. 1В-19.

4. AHopk'ns. Optimizng Page Load Time, http://www.die.net/musings/ pagejoadjime.

5. Дарт BO., Маньков НА, Пилюгин AB. Статистические характеристики трафика современного провайдера доступа в Интернет// Т-Comm-Телекоммуникации и транспорт, 200В. — № 4. — С. 54-57.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Деарт В. Ю., Пилюгин А. В., Маньков В. А.

Текст научной работы на тему «Оценка влияния реальных характеристик web-трафика на качество обслуживания в мультисервисной сети доступа»