УДК 004.942
Д. В. Мясников1, К. В. Семенихин2
1 Московский физико-технический институт (государственный университет) 2 Московский авиационный институт (национальный исследовательский университет)
Идентификация статистической зависимости времени кругового обращения пакетов от загрузки сетевого
соединения
В работе исследована статистическая зависимость времени кругового обращения (RTT) пакетов от уровня загрузки беспроводного сетевого соединения по результатам серии экспериментов, в которых измерялись значения RTT для ICMP-пакетов при наличии смоделированного стационарного потока TCP-пакетов. Основной результат работы состоит в подтверждении устойчивости статистической зависимости RTT от загрузки сети. Условное распределение RTT относительно уровня загрузки определено в виде смеси обобщенного распределения экстремальных значений и логистического распределения.
Ключевые слова: время кругового обращения (RTT), ICMP-пакет, стационарный поток, условное распределение.
D. V. Myasnikov1, K. V. Semenikhin2
1 Moscow Institute of Physics and Technology (State University) 2Moscow Aviation Institute
Identification of the statistical dependence between round-trip time and network link load
The statistical model is designed to describe the dependence between two random values: the level of wireless link load and the round-trip time (RTT) for ICMP echo requests. The modelling is based on the series of experiments when measuring RTT for the network link that is loaded by a stationary flow of TCP packets. The results presented in the paper confirm that there is a stable statistical dependence between RTT and the network link load. The RTT conditional distribution given as function of the traffic load is described by the mixture of generalized extreme-value and logistic distributions.
Key words: round-trip time (RTT), ICMP-packet, stationary flow, conditional distribution.
1. Введение
Время кругового обращения пакета является важной характеристикой современных ин-фокоммуникационных сетей, в которых используется механизм предварительного разбиения данных на предусмотренные сетевым протоколом небольшие порции (пакеты). Время кругового обращения (или сокращено RTT от англ. round-trip time) складывается из времени, затрачиваемого сетью на пересылку пакета адресату, и времени, в течение которого приходит подтверждение об успешной передаче пакета или его потере. Потеря пакета возникает в том случае, если RTT достигает таймаута, т.е. верхней границы, предусмотренной действующим протоколом передачи данных.
Знание RTT позволяет эффективно управлять скоростью передачи данных и вовремя предупреждать о возникновении коллизий. На основе оценок RTT разработаны различные алгоритмы управления размером отправляемых пакетов (они реализованы в соответствующих вариантах протокола TCP, таких как TCP-Vegas, TCP-Reno и др.). Однако из-за
воздействия большого числа неконтролируемых факторов динамика RTT не может быть описана сколько-нибудь реалистичной детерминированной закономерностью. Поэтому разработка и апробация статистических моделей для времени кругового обращения пакетов остается актуальной проблемой теории и практики сетей передачи данных.
Развитие идей, связанных с синтезом и применением стохастических моделей RTT, можно проследить по публикациям [1—7]. В [1,2] получены результаты по временному и пространственному изменению RTT, причем в [1] предложено использовать для RTT семейство гамма-распределений. В [3] описана структура телекоммуникационной сети, которая порождает смесь гамма-распределений в качестве модели времени выполнения запроса. В [4] указано на наличие тяжелых хвостов, свойственных распределениям Парето. Распределение со степенными хвостами получено в [5] как эргодическое распределение, соответствующее динамической модели RTT в виде некоторого нелинейного стохастического дифференциального уравнения. Статистические модели RTT использованы в [6, 7] для синтеза стратегий управления загрузкой и фильтрации ненаблюдаемого состояния сетевого соединения.
Для оценки RTT на сегодняшний день сформировались два подхода, основанных на активных [8] и, соответственно, пассивных методах [9, 10]. Активные методы включают в себя воздействие на состояние сетевого соединения путем организации дополнительного трафика, например, отправка пробных пакетов или сервисных сообщений. Пассивные методы используют данные, формирующиеся при обычной работе телекоммуникационных устройств с помощью штатных средств сбора данных.
В данной статье рассматривается активный мониторинг состояния беспроводного соединения с помощью пробных пакетов в рамках протокола ICMP (Internet Control Message Protocol). Использование ICMP-пакетов имеет несколько преимуществ, поскольку позволяет избежать высокой дополнительной нагрузки, порождаемой пробными пакетами, и не требует привилегированного доступа, который требуется для получения статистики с узлов сети. Кроме того, для организации мониторинга можно воспользоваться хорошо известными утилитами, такими как ping, реализованными на платформах Windows и UNIX. Моделирование «полезной» загрузки соединения производилось с помощью D-ITG генератора трафика [11], который позволяет организовать стационарный поток TCP-пакетов с заданным распределением времени между отправками пакетов.
Цель проведения указанного эксперимента состояла в выяснении статистической зависимости времени кругового обращения пакетов от уровня загрузки сетевого соединения. Более аккуратно эту проблему можно сформулировать как задачу определения условного распределения Law(R | т), где R — это RTT для ICMP-сообщений, а т — время между отправками TCP-пакетов. Однако прежде решения данной проблемы необходимо проанализировать статистическую воспроизводимость самого эксперимента. Положительный вывод об этом можно сделать на основании совпадения оценок распределения RTT, вычисленных двумя способами:
1) нахождение эмпирического распределения R в эксперименте, где величина т моделируется с равномерным распределением на некотором промежутке [та,ть\;
2) определение Law(E) по формуле полной вероятности, в которой Law(R | r = f), j = 1,...,т, суть эмпирические распределения из соответствующих m экспериментов с учетом того, что значения {fj} образуют равномерную сетку на [та,ть\, а вероятности Р{т = fj} одинаковы.
После подтверждения устойчивости статистической зависимости RTT от загрузки сети для эмпирических плотностей RTT было найдено приближение в виде смеси обобщенного распределения экстремальных значений и логистического распределения. Оценки параметров распределений получены методом максимального правдоподобия, а веса в смеси оценены с помощью EM-алгоритма.
2. Модель
Рассмотрим систему массового обслуживания (СМО), имеющую два входа (потоки № 1 и № 2) и два выхода. Заявки из обоих входов выбираются в соответствии с некоторой дисциплиной и для каждого входа имеется собственная очередь. Данная СМО моделирует Wi-Fi соединение между двумя компьютерами. На ее входы поступают потоки заявок, которые соответствуют потокам TCP и ICMP-пакетов соответственно.
Пусть tj — моменты прихода заявок на вход № 1, тогда интервал времени между последовательными приходами заявок на вход № 1 обозначим как
'з — ьз
tj - tj-u j> 1. (1)
Для потока № 2 введем следующие обозначения: Т^ — момент прихода г-й заявки из потока № 2, а Т.\ — момент окончания обработки г-й заявки из потока № 2. Время кругового обращения 1СМР-пакета соответствует времени полного обслуживания в СМО. Обозначим его Щ, тогда для г-й заявки второго потока оно равно
Ri — Ti — Ti. (2)
Коэффициент загрузки СМО
где А1, Л2 — интенсивности поступления заявок для потоков №№ 1 и 2 соответственно, а у есть интенсивность обработки заявок в системе.
Если поток пробных заявок обладает сравнительно малой интенсивностью по сравнению с основным потоком, т.е. выполняется
А2 < Аь (4)
то коэффициент загрузки преимущественно определяется потоком № 1:
* 7§. (5)
3. Описание экспериментальной среды
Схематичное изображение экспериментальной установки приведено на рис. 1. Два ноутбука (NB1 и NB2) соединены беспроводным соединением (WLAN Hosted Network), причем первый из них (NB1) выступает в данном соединении в качестве виртуальной точки доступа (SoftAP), а второй (далее NB2) —в качестве клиента беспроводной сети.
На NB1 запущена виртуальная машина (ВМ) № 1 (далее ВМ1) (Ubuntu 11.04 на VirtualBox). Соединение ВМ с Wi-Fi осуществляется в режиме сетевого моста и ВМ получает собственный IP-адрес и работает напрямую с драйвером беспроводной сетевой карты.
В одном направлении (от NB1 к NB2) осуществляется передача TCP-пакетов. Для генерации TCP-трафика используется D-ITG генератор трафика [11]. В обратном — отправляются ICMP эхо-запросы с помощью утилиты ping.
На NB2 выполняется ВМ2 (того же типа, что и в ВМ1, и с аналогичными настройками), а также утилита ITGRecv из состава D-ITG (необходима для приема TCP-пакетов, отправляемых со стороны NB1, и отправки подтверждений о получении пакетов).
В ВМ1 выполняется команда ITGSend из D-ITG. Она позволяет регулировать распределение времени (используются равномерное и детерминированное) между последовательными отправленными пакетами, а также параметры данного распределения. Для передачи пакетов потока № 1 используется протокол TCP, и каждый раз отправляется партия
TCP-пакетов общим размером 64 КБ. Выбор такого размера обусловлен технической сложностью точного поддержания заданного распределения т (точность ограничена таймером предоставляемым операционной системой) при больших нагрузках на соединение. Так как указанный размер превышает MSS = 1460 байт (при MTU = 1514 байт), каждый раз передается 45 последовательных пакетов с небольшой задержкой между ними. При этом ITGRecv передает в обратную сторону подтверждения на каждый полученный TCP-пакет. Для краткости далее под отправкой TCP-пакета имеется в виду отправка серии пакетов суммарного размера 64 КБ.
Рис. 1. Схема эксперимента
Внутри ВМ2 запущена утилита ping для отправки ICMP эхо-запросов в направлении NB1. Время между последовательно отправленными пакетами составляет 1 секунду, а размер каждого пакета 64 байта. При запуске утилиты ping используются следующие параметры:
ping -i 1 -W 1 -c 3600 192.168.173.1.
Максимальная пропускная способность Wi-Fi соединения в эксперименте составляла Сшах = 65 Мбит/с (802.11n). Расстояние между NB1 и NB2 составляло 65 см.
4. Результаты экспериментов
Описанная выше экспериментальная установка позволяет получать распределения R для различных распределений т. Ниже описаны две серии экспериментов с двумя различными распределениями: детерминированным и равномерным.
4.1. Серия экспериментов с постоянным временем между TCP-пакетами
Пусть время между последовательными отправками серий TCP-пакетов является детерминированным. Серия таких экспериментов с различными значениями интенсивности отправки пакетов позволяет получить оценку закона условного распределения Law(Ri|т).
С учетом пропускной способности Сшах и размера нагрузки 64 КБ был определен ряд т = Tk, к = 0,10, которые бы соответствовали коэффициентам загрузки сети р от 0 до 1.
Для каждого из этих значений были получены замеры ИТТ Д^ за временной промежуток в 1 час.
В табл. 1 представлены значения , полученные выборочные средние, медианы, моды и среднеквадратичные отклонения ИТТ Д. По данным из табл. 1 легко видеть, что при увеличении т возрастает как выборочное среднее, так и медиана Д. При этом мода ведет себя иначе: она почти постоянна при т € [15.38; 76.92] мс, но затем значительно изменяется при т < 12.82 мс.
Гистограммы ИТТ для всех экспериментов приведены на рис. 2 и 3. По ним видно, что хвост гистограммы постепенно увеличивается, но мода долгое время сохраняется постоянной вплоть до т = 12.82 мс.
Таблица1
Выборочные средние, медианы, моды и среднеквадратичные отклонения Д
для различных т
тк, мс Д&, мс шеё1ап Д&, мс шоёе Як, мс 5 Кк, мс
те 2.6391 1.9720 1.9720 6.1714
76.92 3.5788 1.7300 1.5700 6.5146
38.46 3.6481 2.0000 1.5700 3.4934
25.64 4.2819 2.6900 1.5500 13.3453
19.23 5.1001 3.7900 1.4900 3.9964
15.38 6.2625 5.6000 1.5100 4.8636
12.82 9.3131 7.6600 10.0000 7.7647
10.98 13.1969 11.9000 17.3000 7.0816
9.615 25.1624 24.9000 26.5000 8.0855
8.547 23.8942 23.6000 21.9000 6.9308
7.692 24.3593 23.8000 23.9000 9.9954
тэ
Рис. 2. Гистограммы Д в серии экспериментов при т € [15; 76] мс
К, тэ
Рис. 3. Гистограммы К в серии экспериментов при т € [7; 13] мс
4.2. Эксперимент с равномерно распределенным временем между ТСР-пакетами
Обозначим ти случайную величину, равномерно распределенную на заданном отрезке [т"«; ть]. Пусть время т между заявками в потоке № 1 подчиняется указанному распределению. То есть ТСР-пакеты отправляются через псевдослучайные интервалы времени, которые распределены равномерно. В результате двух таких экспериментов длительностью 8 часов каждый были получены оценки распределения ИТТ К при равномерно распределенных т = ти, т.е. Ьат(Щти). В одном случае та = т8 = 9.62, ть = т1 = 76.92, а в другом -та = тд = 8.54, ть = т5 = 15.38.
Обозначим /д(ж | тц) плотность распределения Law(R|тu). Тогда в соответствии с формулой полной вероятности должно быть верно следующее выражение:
т
¡я(X | ти) = /Е (х | г = т3) = £ /н(х | г = т3)Р{ти € А3}, (6)
3=1
где т3 - набор базовых значений т из серии экспериментов, описанной в разделе 4 (значения приведены в табл. 1), а А^- есть последовательность полуинтервалов следующего вида:
А,
\(Ъ + ); ¿(^ + г3+1)) , з> 0. (7)
Формула (6) позволяет проверить статистическую воспроизводимость эксперимента. Для проверки были использованы ядерные оценки плотностей, построенные на основе выборок, сравнение левой и правой частей (6) показаны на рис. 4, 5.
5. Анализ результатов 5.1. Выбор распределений
Распределения ИТТ оценивались разнообразными способами и разными распределениями: сдвинутым гамма-распределением [1], Парето-распределением [4].
Рис. 4. Ядерные оценки плотностей f r(x | тц) и | т = f) при та = 9.62, ть = 76.92
Рис. 5. Ядерные оценки плотностей Jr(x | тц) и | т = f) при та = 8.54, ть = 15.38
Результаты при малых нагрузках соединения действительно похожи на [4,9]. Однако по мере уменьшения т эмпирическая оценка плотности распределения сильно меняется и становится более похожей на смесь распределений.
Из рис. 2 и 3 видно, что minR > 0, т.е. RTT имеет положительное минимальное значение. RTT по определению - положительная величина и всегда выше некоторого порогового значения, поэтому распределение R должно быть сдвинутым на некоторую пороговую величину.
Обозначим пороговый параметр 0. В качестве оценки этого параметра будем использовать
в = 0.99 minR. (8)
Применяя эту оценку, получим несдвинутую выборку RTT R:
R = R - 0, (9)
которую и будем использовать для оценки параметров несдивнутых распределений.
Результаты для больших т можно приблизить семейством обобщенных распределений экстремальных значений (generalized extreme-value, GEV) либо Парето-распределением.
На рис. 6 представлено сравнение гистограммы для выборки К и плотностей СБУ и Парето-распределений при т = 38.46. Оценки параметров получены с помощью метода максимального правдоподобия. Из результатов видно, что наиболее подходящим является СЕУ-распределение, плотность которого имеет вид [12]:
}\(х\^,^1,а1) = — е
1 г1)
-1-1
(10)
Рис. 6. Гистограмма и оценки плотностей для т = 38.46
Рис. 7. Гистограмма и оценки плотностей для т = 9.615
При малых т наиболее подходящей оценкой является логистическое распределение
/2(^2,^2)
а-М 2
е а2
02 \ 1 + е )
(11)
т.к. его плотность имеет более тяжелый хвост и больший коэффициент эксцесса, чем нормальное распределение. На рис. 7 представлено сравнение гистограммы для выборки К,
полученной при т = 9.615, и плотностей нескольких распределений с параметрами, полученными методом максимального правдоподобия.
Промежуточные случаи можно приблизить смесью указанных распределений. В следующем разделе описан алгоритм разделения смеси распределений и приведены результаты разделения.
5.2. Разделение смеси распределений
Предположим, что плотность распределения ИТТ представима в виде выпуклой комбинации обобщенного распределения экстремальных значений /1 и логистического распределения 2, то есть имеет место
/д(я|т = г) = ^(т)/1(х - 0) + ^2(т)/2(х - 0), (12)
где + ^2 = 1.
0 20 40 60 80 100 120
Р, тэ
Рис. 8. Ядерная оценка плотности и оценки смеси для т = 9.615
т, те
Рис. 9. Оценки порогового параметра 0(т)
Выражение (12) содержит плотности /1 и /2 с параметрами, подлежащими оценке, а также коэффициенты ^, которые априори неизвестны. Так как известно количество компонентов смеси, то для оценки коэффициентов и параметров распределений используем ЕМ-алгоритм [13].
На рис. 8 приведен результат действия алгоритма для т = 9.615. Как можно легко видеть, полученная оценка плотности близка к ядерной оценке плотности на основе экспериментальных данных.
На рис. 9 представлены оценки порогового параметра в, полученные для различных т. По приведенным данным видно, что значения 0 растут при уменьшении т, однако абсолютное изменение не превышает 0.8 мс.
Рис. 10. Оценки коэффициентов смеси гш\(т) и w>2(т)
На рис. 10 представлены оценки коэффициентов т1 и ^2 смеси (12), полученные для различных т. При малых т доминирует логистическое распределение /2, а при больших т - СЕУ. В промежуточных случаях коэффициенты обоих распределений близки к 0.5. Переход к логистическому распределению происходит достаточно резко, что вполне согласуется с рис. 2 и 3.
Рис. 11. Оценки параметров СЕУ к(т), 0\(т) и
На рис. 11 и 12 представлены оценки параметров СБУ и логистического распределения соответственно, полученные для различных г. Для логистического распределения (11) при малых г существенно изменяется параметр сдвига При малых г для СБУ меняется тип распределения, определяемый знаком при £ > 0 это распределение Фреше, а при £ < 0 -распределение Вейбулла.
Рис. 12. Оценки параметров логистического распределения ^2(т) и )
6. Заключение
В статье рассмотрен эксперимент по исследованию зависимости между временем кругового обращения пакета (ИТТ) и загрузкой сетевого соединения. Полученные результаты подтверждают статистическую зависимость между указанными величинами.
Оценки распределений на основе полученных экспериментальных данных показывают, что распределение ИТТ может описано в виде выпуклой комбинации двух распределений: экстремальных значений и логистического. При малой загрузке соединения преобладает СБУ-распределение, а по мере роста загруженности соединения преобладающим распределением постепенно становится логистическое.
Работа выполнена при поддержке Российского фонда фундаментальных исследований, проекты № 15-37-20611-мол_а_вед и № 13-01-00406-а.
Литература
1. Mukherjee A. On the Dynamics and Significance of Low Frequency Components of Internet Load // Internetworking: Research and Experience. 1994. V. 5, N 4. P. 163-205.
2. Acharya A., Saltz J. A Study of Internet Round-Trip Delay. University of Maryland. Computer science technical report series. 1996.
3. Батракова Д.А., Королев Ю.В., Шоргин С.Я. Новый метод вероятностно-статистического анализа информационных потоков в телекоммуникационных сетях // Информатика и ее применения. 2007. Т. 1, № 1. С. 40-53.
4. Loguinov D., Radha H. End-to-End Internet Video Traffic Dynamics: Statistical Study and Analysis // IEEE INFOCOM. 2002. P. 723-732.
5. Bohacek S., Rozovskii B. A diffusion model of roundtrip time // Computational Statistics & Data Analysis. 2004. V. 45. P. 25-50.
6. Миллер Б.М., Авраченков К.Е., Степанян К.В., Миллер Г.Б. Задача оптимального стохастического управления потоком данных по неполной информации // Проблемы передачи информации. 2005. Т. 41, № 2. С. 89-110.
7. Борисов А.В., Миллер Б.М., Семенихин К.В. Фильтрация марковского скачкообразного процесса по наблюдениям мультивариантного точечного процесса // Автоматика и телемеханика. 2015. № 2. С. 34-60.
8. Pasztor A., Veitch D. Active Probing Using Packet Quartets // Proceedings of the 2nd ACM SIGCOMM Workshop on Internet Measurment. 2002. P. 293-305.
9. Jiang H., Dovrolis C. Passive Estimation of TCP Round-trip Times // SIGCOMM Comput. Commun. Rev. 2002. V.32, N 3. P. 75-88.
10. Aikat J., Kaur J., Smith F.D., Jeffay K. Variability in TCP Round-trip Times // Proceedings of the 3rd ACM SIGCOMM Conference on Internet Measurement. 2003. P. 279284.
11. Botta A., Dainotti A., Pescape A. A tool for the generation of realistic network workload for emerging networking scenarios // Computer Networks. 2012. V. 56, N 15. P. 3531-3547.
12. Coles S. An Introduction to Statistical Modeling of Extreme Values. London: SpringerVerlag, 2003.
13. Королев В.Ю. ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. М.: ИПИ РАН, 2007.
References
1. Mukherjee A. On the Dynamics and Significance of Low Frequency Components of Internet Load. Internetworking: Research and Experience. 1994. V. 5, N 4. P. 163-205.
2. Acharya A., Saltz J. A Study of Internet Round-Trip Delay. University of Maryland. Computer science technical report series. 1996.
3. Batrakova D.A., Korolev V.Y., Shorgin S.Y. A New Method of Probabilistic-Statistical Analysis of Information Flows in Telecommunication Networks. Informat. Primen. 2007. V. 1, N 1. P. 40-53.
4. Loguinov D., Radha H. End-to-End Internet Video Traffic Dynamics: Statistical Study and Analysis. IEEE INFOCOM. 2002. P. 723-732.
5. Bohacek S., Rozovskii B. A diffusion model of roundtrip time. Computational Statistics & Data Analysis. 2004. V. 45. P. 25-50.
6. Miller B.M., Avrachenkov K.E., Stepanyan K.V., Miller G.B. Flow Control as a Stochastic Optimal Control Problem with Incomplete Information. Problems of Information Transmission. 2005. V. 41, N 2. P. 150-170.
7. Borisov A.V., Miller B.M., Semenikhin K.V. Filtering of the Markov jump process given the observations of multivariate point process. Automation and Remote Control. 2015. V. 76, N 2. P. 219-240.
8. Pasztor A., Veitch D. Active Probing Using Packet Quartets. Proceedings of the 2nd ACM SIGCOMM Workshop on Internet Measurment. 2002. P. 293-305.
9. Jiang H., Dovrolis C. Passive Estimation of TCP Round-trip Times. SIGCOMM Comput. Commun. Rev. 2002. V. 32, N 3. P. 75-88.
10. Aikat J., Kaur J., Smith F. D., Jeffay K. Variability in TCP Round-trip Times. Proceedings of the 3rd ACM SIGCOMM Conference on Internet Measurement. 2003. P. 279-284.
11. Botta A., Dainotti A., Pescape A. A tool for the generation of realistic network workload for emerging networking scenarios. Computer Networks. 2012. V. 56, N 15. P. 3531-3547.
12. Coles S. An Introduction to Statistical Modeling of Extreme Values. London: SpringerVerlag, 2003.
13. Korolev V.Y. EM-algorithm, its modifications and their applications to mixture models identification. Theoritical survey. Moscow: IIP RAN, 2007. (in Russian).
Поступила в редакцию 12.10.2015.