УДК 621.37
М. И. Богачев
Санкт-Петербургский государственный электротехнический
университет "ЛЭТИ"
Сравнительная оценка информативности кратковременной и долговременной зависимостей трафика при прогнозировании его динамики в телекоммуникационных системах
Проведено сравнение двух алгоритмов прогнозирования превышения трафиком в телекоммуникационных системах фиксированных порогов. Первый алгоритм основан на анализе кратковременных предикторов такого превышения, второй - базируется на долговременной зависимости и использует аппарат интервальных статистик. Для обучения первого алгоритма использованы фрактальные модели и модели на основе очередей с приоритетами, отражающие динамику совместного поведения пользователей при обращении к одиночному серверу. Установлены потенциальные преимущества первого алгоритма. Выводы подтверждены результатами статистического моделирования и анализа исходящего трафика различных НТТР-серверов.
ние, кратковременная зависимость, долговременная зависимость, телекоммуникационные системы, фрактальные модели, модели на основе очередей
В больших телекоммуникационных системах (ТКС), относящихся к системам массового обслуживания, важной задачей является эффективное распределение ресурсов, в частности за счет применения алгоритмов маршрутизации информационных потоков. В известных алгоритмах используемая для выбора оптимального маршрута в больших сетях информация в основном ограничивается оценкой времени от формирования запроса до получения ответа на него на основании текущей загрузки узлов и каналов. Повысить оперативность алгоритмов маршрутизации можно за счет использования информации не только о текущей загрузке различных узлов и каналов, но и о прогнозируемой в кратковременной перспективе загрузке. Наиболее важным является прогнозирование возможной перегрузки (превышения пропускной способности) узлов и каналов, которую при формализации задачи можно представить как возникновение выбросов случайного процесса, отражающего текущее суммарное значение трафика, над фиксированным порогом Q. При решении задач прогнозирования важную роль играет долговременная зависимость, обусловленная фрактальной структурой случайных процессов в больших ТКС, которая была рассмотрена в ряде работ [1]-[4]. На основе полученных результатов предложен способ прогнозирования динамики выбросов трафика в ТКС на основе интервальных статистик предыдущих выбросов [5], [6].
В настоящей статье наряду с указанным подходом рассмотрен подход, связанный с поиском характерного предиктора превышения порога, определяемого набором значений трафика в моменты времени, предшествующие выбросу. Сравнительный анализ подходов проведен применительно к прогнозированию динамики суммарного поминутного исходящего трафика нескольких НТТР-серверов на временных интервалах длительностью от
52
© Богачев М. И., 2009
одних суток до одного года. В анализе использованы данные, размещенные для исследовательских целей в сети Internet на узле http://www.nlanr.net 5.
В основе прогнозирования выбросов случайного процесса на основании предикторов лежит поиск типичного предиктора такого выброса, т. е. характерного поведения случайного процесса в моменты времени, непосредственно предшествующие возникновению выброса. Рассмотрим предиктор yn к выброса yn > Q случайного процесса yn, ожидаемый в момент времени n, состоящий из к отсчетов случайного процесса, предшествующих выбросу: yn к = yn-к, Уп-к+1, •••, Уп-1 . Первая модификация рассматриваемого подхода
заключается в анализе по доступным реализациям случайного процесса только тех последовательностей длительностью к, за которыми последовали выбросы. В этом случае ключевой величиной является апостериорная вероятность P (yn к | Уп > Q). Основным недостатком данного подхода является исключение из процедуры анализа всех доступных фрагментов, кроме фрагментов, непосредственно предшествовавших состоявшимся выбросам. В результате не используется информация о последовательностях, заведомо нетипичных в качестве предикторов. Альтернативным подходом являются анализ всех последовательностей yn к = yn-к, Уп-к+1, •••, Уп-1 длительностью к по всем доступным реализациям случайного процесса (в скользящем окне) и оценка условной вероятности P(Уп > Qyn к) превышения заданного порога Q в момент времени n, следующий непосредственно за последовательностью yn к. В работе [7] показано, что второй подход более эффективен применительно к широкому классу случайных процессов с кратковременной и долговременной зависимостями отсчетов.
Во втором подходе простейшим вариантом построения алгоритма принятия решений являются выбор наиболее вероятного предиктора yn к и при дальнейшем анализе вычисление в режиме реального времени отклонения от него - получаемых последовательностей отсчетов процесса длительностью к с заданием той или иной метрики отклонения. При этом критерий для принятия решения об ожидании выброса в следующий момент времени - значение расстояния ниже некоторого порогового значения. Подобный подход весьма эффективен при работе с простыми системами, где функция P(yn > 0^упк) имеет один выраженный экстремум, который и является глобальным максимумом. Однако при работе с большими системами, такими, как системы массового обслуживания, для которых характерно совместное саморегулируемое поведение множества пользователей, нельзя исключить возможность появления более сложных зависимостей P(yn > 0^упк), в том числе
имеющих несколько сопоставимых по величине экстремумов. В многоэкстремальном случае выбор наивероятнейшего предиктора малоэффективен и для анализа приходится хранить полную базу данных предикторов упк и соответствующих им вероятностей выбросов, полученную из доступных реализаций случайного процесса, использованных для обучения алго-
5 The national laboratory for applied network research (NLANR) // http://www.nlanr.net
ритма. Тогда критерием принятия решения об ожидании выброса в следующий момент времени является превышение вероятностью Р(уп >Qynk) некоторого заранее заданного порога Qп. Выбор оптимального значения Qп в общем случае основывается на минимизации суммарных потерь от неправильных решений, принимаемых при прогнозировании, в зависимости от априорно заданных значений потерь при ложной тревоге и при пропуске выброса.
Данный подход требует формирования базы данных всех возможных предикторов выбросов и соответствующих им вероятностей возникновения выброса. Создание такой базы возможно либо на основе анализа доступной информации о предшествующей динамике трафика в исследуемом канале или в узле (либо в иных каналах или узлах, где динамика трафика описывается аналогичными статистическими характеристиками) при наличии достаточного объема обучающей выборки, либо на основании анализа математических моделей, способных адекватно описать динамику трафика в узле или в канале ТКС. В работе [6] были описаны классы моно- и мультифрактальных моделей, в целом успешно характеризующие динамику выбросов на уровне оценки их интервальных статистик. Вопрос о том, насколько адекватным является описание предикторов выбросов (которые сами в большинстве своем не являются выбросами, т. е. не превышают порог Q) с помощью данных моделей, остается открытым. Подбор параметров фрактальных моделей может быть осуществлен на основании результатов флуктуационного анализа доступных фрагментов динамики трафика в узле или в канале, подробно рассмотренному в [8]6.
Альтернативным вариантом является обучение алгоритма прогнозирования на основе математических конструкций, имитирующих совместное поведение пользователей на основе известных представлений о динамике доступа к системам массового обслуживания. В этом контексте в первую очередь следует отметить модели динамики поведения на основе очередей, разработка которых ведется достаточно давно, однако их активное применение длительное время сдерживалось ограниченными вычислительными ресурсами. Одной из наиболее простых и получивших широкое применение в последние годы является модель, описывающая одиночный источник на основе очереди с приоритетами [9]. Ряд аналитических результатов для этой модели получен в [10]. В работе [11] показано, что данная модель адекватно отражает динамику трафика в телекоммуникационных системах, в том числе на примере анализа исходящего трафика НТТР-серверов.
Рассмотрим поведение одиночного пользователя, выполняющего ряд задач при работе на ЭВМ, в том числе приводящих к формированию НТТР-запросов. Упрощенная модель предполагает наличие фиксированной длины очереди из задач, выполняемых одним пользователем, длина которой ограничена Ь задачами в силу ограничения физических возможностей человека управлять большим числом задач одновременно. Каждой из задач в очереди соответствует приоритет х^, / е [1, Ь]. В простейшем случае значения приоритета берутся из равномерного распределения. При этом в каждую единицу времени выполняется одна задача (один шаг итерации), причем с вероятностью Р выполняется задача с наивысшим приоритетом, а с вероятностью 1 - Р - случайная задача из очереди вне зависимости от ее
6 Краткий обзор см. также в [6]. 54
приоритета. Для сохранения фиксированной длины очереди в каждую единицу времени к очереди добавляется новая задача со случайным приоритетом х .
Плотности вероятности времен ожидания для такой модели при различных значениях параметра Р, полученные статистическим моделированием для очереди из L = 256 задач, приведены на рис. 1 (кривые 1 отражают распределения интервалов между запросами, формируемыми одиночным пользователем, кривые 2 - результат аппроксимации кривых 1 гамма-распределением). При значениях Р ^ 0 поток событий сводится к пуассоновскому потоку и времена ожидания задачи от момента постановки в очередь до момента выполнения характеризуются экспоненциальной плотностью вероятности р(т) ~ ехр (-т) . При значениях Р ^ 1 распределение приближается к степенному
закону р(т) ~ т-1. В общем случае распределение времен ожидания может быть описано распределением Эрланга (или частным случаем гамма-распределения); при этом
плотность вероятности Р ~ [Ха/г (а)] та-1 ехр (-Хт) ,
X = а = 1 - Р. Данный результат не противоречит теоретическим положениям [10], [11] и подтверждается результатами статистического моделирования. Отклонения от теоретической зависимости при т » т и при т « т объясняются эффектами дискретности модели, а также влиянием ограниченной длины очереди и всей реализации последовательности времен ожидания.
На основании обобщения этой модели может быть получена оценка динамики суммарного трафика НТТР-сер-вера при одновременном доступе к нему N пользователей. Поскольку не каждая из выполняемых пользователем задач связана с обращением к анализируемому серверу, выполняемые задачи следует разделить на потоки. При этом для анализа интересен только один поток, связанный к обращением к конкретному НТТР-серверу.
Логика запросов к НТТР-серверу в подавляющем большинстве случаев позволяет предположить последовательность выполнения запросов, когда после получения ответа на предыдущий запрос (отображения web-страницы) происходит постановка в очередь новых задач, связанных с обращением к данному НТТР-серверу (сле-
Рис. 1
Известия вузов России. Радиоэлектроника. 2009. Вып. 2======================================
дование новой ссылке). При этом в промежутке могут выполняться и другие задачи, связанные с обработкой информации, в частности полученной в результате ответов на предыдущие запросы. Следуя этому предположению, можно получить последовательности интервалов ожидания для одного потока, а с учетом известных результатов о распределении размеров пакетов откликов НТТР-сервера, - реализацию случайного процесса, характеризующего суммарный исходящий трафик, направленный одному пользователю. При суммировании N реализаций можно получить суммарный исходящий трафик, направленный N пользователям.
Для оценки свойств суммарного трафика проведено статистическое моделирование с параметрами Ь = 256 и N = 1024. При моделировании использовались результаты эмпирической оценки распределения значений трафика НТТР-сервера за один год. Результаты моделирования указывают на то, что распределение интервалов между выбросами суммарного трафика над фиксированным значением Q, соответствующим средним интервалам повторения Яф 10 и 70, в широком диапазоне значений аргумента также может быть
охарактеризовано гамма-распределением (см. рис. 1, кривые 3).
Для оценки эффективности прогнозирования с использованием кратковременной динамики трафика формировалась база данных предикторов на основе анализа набора реализаций, соответствующих монофрактальным моделям со значениями параметра в диапазоне 0.5...1.0; мультифрактальным моделям, полученным методом мультипликативного каскада, с параметрами т = 0, от = 1 (^ = 0.5) и т = 1 при от в диапазоне 1.0.1
(от = 1 соответствует ~ 0.98)7, а также реализаций суммарного трафика, полученных
при помощи модели с очередями и приоритетами, рассмотренной ранее, для значений вероятности Р в диапазоне 0.0.99. Вероятности превышения порога ф оценивались для всех возможных предикторов, состоящих из k = 2 отсчетов, предшествующих выбросу,
квантованных по уровню на I = 100 элементов каждый, т. е. в общей сложности для 104 предикторов. Для оценки информативности долговременной зависимости использовалась информация только о времени, прошедшем с момента появления последнего выброса. Для этого с порогом вероятности сравнивалась ограниченная неубывающая функция, принимающая единичное значение сразу после произошедшего выброса и монотонно убывающая по мере удаления от выброса, асимптотически приближаясь к нулю8.
7 Мультифрактальные модели наряду с линейной зависимостью (корреляцией) способны также учитывать зависимости более высоких порядков между отсчетами временного ряда. При этом с увеличением отношения т/ат происходят рост линейной и ослабление нелинейной зависимостей. Более подробно свойства мультифрактальных моделей класса мультипликативного каскада, рассмотрены, например, в работе [6], где также приведены характерные для них значения показателей Херста к .
8 Как правило, в качестве такой функции используется оценка вероятности, полученная интегрированием плотности вероятности распределения интервалов [5], [6]. В этом случае она становится зависимой от используемой модели данных и ее параметров. Однако для построения рабочей характеристики конкретная форма данной функции не имеет значения (так как оценка в любом случае производится для всевозможных значений ), имеют значение только ее монотонность и корректное выполнение граничных условий.
D
0.75 -
0.5 -
0.25
RQ = 70
10
0
-// / /
V
_L
/
/
/
/
/
/
/
D
0.75 -
0.5 -
0.25
J_
D
0.75
0.5
0.25
rQ = 70
у
/
/
/
/
/
/
/
/
10
_L
0.25
0.5 а
0.75
0.25
0.5
б
Рис. 2
0.75
0.25
0.5 в
0.75
В дальнейшем для сравнительного анализа результатов прогнозирования полученные оценки вероятностей Р(уп > Qynk) сравнивались с порогом 0 < < 1 и строились рабочие характеристики прогнозирования ^ОС-кривые). Для этого при каждом значении Qп оценивались вероятность правильного обнаружения D и вероятность ложной тревоги а.
На рис. 2, а-в приведены рабочие характеристики прогнозирования с использованием метода на основе интервальных статистик, предложенного в [5], [6]. Характеристики построены для типичных записей трафика трех различных НТТР-серверов9 длительностью один месяц (рис. 2, а), полгода (рис. 2, б) и один год (рис. 2, в) при значениях 10 и 70 средних интервалов повторения RQ . Диагональ D = а соответствует характеристике случайного прогнозирования с учетом только среднего интервала возникновения событий, равного RQ. Кривые прогнозирования для реализаций трафика каждого из трех серверов
для каждого из значений RQ = 10 и RQ = 70 лежат значительно выше диагонали, что указывает на возможность прогнозирования. Пунктирными линиями показаны сечения тел рабочих характеристик, соответствующие вероятности ложной тревоги а = 0.3 . По крайней мере в двух из трех приведенных случаев рабочая характеристика прогнозирования для RQ = 70 на всем протяжении лежит не ниже характеристики для RQ = 10.
При использовании подхода на основе поиска характерных предикторов с усилением зависимости (для фрактальных моделей) или с увеличением времени корреляции (для моделей с использованием очередей) вероятность правильного обнаружения D при фиксированной вероятности ложной тревоги а растет. Эта вероятность достигает тех же значений, что и получаемые с использованием долговременной зависимости, при достижении параметрами модели типичных значений показателя Херста для реализаций трафика ^2 ~ 0.6 (при использовании фрактальных моделей) или при достижении интервала корреляции, значительно превышающего средний интервал между выбросами RQ (при использовании моделей на основе очередей). При дальнейшем усилении зависимости или увеличении времени корреляции вероятность ложной тревоги несколько превышает значения, характерные для учета долговременной зависимости.
0
0
а
а
а
9 The national laboratory for applied network research (NLANR) // http://www.nlanr.net
D
0.6
0.45
0.3
D
0.6 -
0.45
0.3
D
0.6
0.45
0.3
- 70
у/ rq = l0 1 1
0.5
0.75
h2
0.1
0.4 0.7 б
Рис. 3
ст„
0 0.25 0.5 0.75
P
В качестве иллюстрации описанной ситуации на рис. 3, а приведены функции D(h? ) для монофрактальной модели, на рис. 3, б - функции D(om ) для мультифракталь-
ной модели и на рис. 3, в - функции D (P) для модели с использованием очередей. Во всех случаях приведенные примеры соответствуют серверу № 2 (см. рис. 2, б) и вероятности ложной тревоги а = 0.3 . Штриховыми горизонтальными линиями на этих рисунках показаны значения вероятности правильного обнаружения при использования метода интервальных статистик, учитывающего информацию о долговременной зависимости. Следует отметить, что аналогичные результаты были получены и при анализе динамики исходящего трафика трех серверов, которые не отражены на рис. 2.
Таким образом, за счет использования адекватных феноменологических фрактальных моделей и адекватной физической модели с использованием очередей удалось найти характеристики прогнозирования, достигающие (и даже несколько превышающие) характеристики, полученные при использовании их долговременной зависимости, но лишь за счет информации о значениях трафика в течение двух минут, предшествующих выбросу. Вместе с тем, в ряде случаев прогнозирование с использованием долговременной зависимости на основе интервальных статистик может быть более предпочтительным по сравнению с использованием кратковременной зависимости, так как не требует ресурсоемкой процедуры обучения алгоритма и хранения базы данных предикторов и соответствующих им вероятностей превышения порога в следующие моменты времени. Кроме того, данный подход позволяет осуществлять и более долгосрочный прогноз.
Дальнейшее развитие предложенного подхода предполагает дополнение алгоритма долгосрочного прогнозирования функцией учета информации о предыдущих интервалах между ранее состоявшимися выбросами случайного процесса, а также синтезом и последующим анализом различных модификаций комбинированного подхода, предполагающего совместный учет информации о долговременной и кратковременной динамиках анализируемого процесса в предположении, что извлекаемая при применении каждого из подходов информация является взаимно дополняющей.
Список литературы
1. Шелухин О. И., Тенякшев А. М., Осин А. В. Фрактальные процессы в телекоммуникациях. М.: Радиотехника, 2003. 576 с.
2. The changing nature of network traffic: Scaling phenomena / A. Feldmann, A. C. Gilbert, W. Willinger, T. G. Kurtz // ACM SIGCOMM comp. com. review. 1998. Vol. 28. Is. 2. P. 5-29.
3. Feldmann A., Gilbert A. C., Willinger W. Data networks as cascades: Investigating the multifractal nature of Internet WAN traffic // ACM SIGCOMM comp. com. review. 1998. Vol. 28. Iss. 4. P. 42-55.
а
в
4. A multifractal wavelet model with application to network traffic / R. H. Riedi, M. S. Crouse, V. J. Ribeiro et al. // IEEE Trans. inf. theor. 1999. Vol. IT-45, № 4. P. 992-1018.
5. Bogachev M. I., Eichner J. F., Bunde A. Effect of nonlinear correlations on the statistics of return intervals in multifractal data sets // Phys. rev. lett. 2007. Vol. 99. P. 240601(1-4).
6. Богачев М. И. Статистический анализ и прогнозирование динамики случайных процессов в телекоммуникационных сетях с использованием мультифрактальных моделей трафика // Изв. вузов России. Радиоэлектроника. 2008. Вып. 2. С. 34-45.
7. Precursors of extreme increments / S. Hallerberg, E. G. Altmann, D. Holstein, H. Kantz // Phys. rev. E. 2007. Vol. 75. P. 016706(1-9).
8. Multifractal detrended fluctuation analysis of nonstationary time series // J. W. Kantelhardt, S. A. Zschiegner, E. Koscielny-Bunde et al. // Physica A. 2002. Vol. 316. P. 87-114.
9. Barabasi A. L. The origin of bursts and heavy tails in human dynamics // Nature (London). 2005. Vol. 435. P. 207-211.
10. Vazquez A. Exact results for the Barabasi model of human dynamics // Phys. rev. lett. 2005. Vol. 95. P. 248701(1-4).
11. Modeling bursts and heavy tails in human dynamics / A. Vázquez, J. G. Oliveira, Z. Dezso et al. // Phys. rev. E. 2006. Vol. 73. P. 036127(1-19).
M. I. Bogachev
Saint-Petersburg state electrotechnical university "LETI"
Comparative estimation of the informative efficiency of the short-term and long-term dependence for prognosis of the traffic dynamics in telecommunication systems
Two general approaches to predict exceeding of a certain threshold by the total traffic in telecommunication systems are compared. The first approach is based on the analysis of short-term precursors of such an exceeding event, the second one exploits long-term dependence via interval statistics. Learning of the short-term precursors based algorithm is performed either on the fractal models, or on the queuing models with priorities, representing the joint behavior of multiple users' access to a single server. It is shown that by exploiting the latter model, the same (or even slightly higher) predicting characteristics can be achieved as when considering the long-term dependence, but now by considering only the latter two minutes of traffic. The conclusions are supported by the results of statistical modeling and by the results of analysis of the HTTP-servers outgoing traffic with durations varying from one day to one year.
Predicting, short-term dependence, long-term dependence, telecommunication systems, fractal models, queuing models
Статья поступила в редакцию 25 сентября 2008 г.