Математическое моделирование
В.О. КАРЕТНИК
Статистический анализ информационных сетей
Построены модели систем массового обслуживания (СМО) в информационных сетях, показаны емкость накопителя и количество обслуживающих приборов. С применением статистических методов исследованы модели СМО и классифицированы типы возможных входных потоков на библиотечном сервере и сервере баз данных.
Ключевые слова: массовое обслуживание, информационные сети, существование и единственность решения.
Statistical analysis of informational networks. V.O. KARETNIK
A model of mass service (SMO) in information networks, shows the capacity and number of service devices. Uses statistical SMO modeling methods and classifies possible types of input flows of the library server and database server.
Key terms: mass service, information networks, existence and uniqueness of solutions.
В настоящее время достаточно хорошо изучены системы массового обслуживания (СМО) с входными так называемыми МС-пото-ками [4]. В таких СМО интенсивность входного потока представляет собой марковскую цепь или полумарковский процесс с дискретным пространством состояний. Исследовались дважды стохастические потоки, интенсивность которых является процессом с независимыми приращениями, или гауссовским процессом [10], а также СМО с параметрами, изменяющимися во времени случайным образом, т. е. СМО, функционирующие в случайной среде (см., например, [9]). В нашей работе такие СМО для краткости будем называть дважды стохастическими (ДС) - по аналогии с дважды стохастическими потоками.
Как правило, рассматривались ДС СМО, параметры которых постоянны в течение некоторого случайного времени, а затем мгновенно изменяются. Набор значений параметров конечен, а процесс их переключения либо марковский [8], либо полумарковский [1]. В [11] для системы с бесконечной очередью получено необходимое и достаточное условие эргодичности процесса, а для СМО с конечным накопителем получены выражения для некоторых показателей производительности СМО.
Опубликованы результаты изучения скачкообразных процессов и ДС СМО со скачкообразной интенсивностью входного потока [7].
В отличие от указанных выше работ в более поздних работах большое внимание уделяется исследованию систем массового обслуживания с входным дважды стохастическим пуассоновским потоком заявок, пространство состояний интенсивности которого представляет собой интервал или совокупность интервалов. В работах [3, 5] приводятся результаты исследования ДС СМО с диффузионной и скачкообразной интенсивностью входного потока.
Изучались информационные потоки на канальном и транспортном сетевых уровнях семиуровневой модели сетевого обмена. Например, Л. Клейнрок [6] исследует применение моделей СМО, в частности СМО М/М/1, в информационных сетях (ИС) на прикладном 7-м уровне.
Рассмотрим общие закономерности построения локальных сетей, важные с точки зрения анализа информационных потоков в ИС.
Независимо от топологии локальной сети (ЛС) - кольцевая, звезда или общая шина - пользователи ЛС в процессе информационного обмена общаются между собой внутри ЛС и с внешней глобальной сетью с помощью специализированных серверов. Чаще всего в качестве внешней глобальной сети выступает Интернет. Концентраторы и коммутаторы используются в таком информационном обмене в качестве вспомогательных инструментов. Рассматривая сложившуюся в российской практике классификацию локальных сетей по количеству рабочих станций: малых (100-300 рабочих станций), средних (300-600) и больших размеров (более 600), - можно отметить общую закономерность в построении таких ЛС. Пользователи ЛС через коммутаторы этажей и корпусов, затем через корневой коммутатор подключаются к специализированным серверам. К таковым относят сервер локальных ресурсов, библиотечные серверы, серверы баз данных, Proxy-сервер (proxy - полномочие), Web-сервер, сервер мониторинга.
На сервере локальных ресурсов размещается программное обеспечение ЛС, файлы общего использования ЛС, на библиотечных - как правило, базы данных электронных библиотек, предоставляющие пользователям Интернет-услуги с применением Web-технологии.
Proxy-сервер получает заявки от пользователей ЛС на доступ к Интернет-ресурсам, выполняет запрос доступности данных ресурсов и, получив положительный ответ, реализует заявки. Информационный обмен между Proxy-сервером и Интернет-ресурсами реализуется с помощью пакетной коммутации, при которой информация передается пакетами с использованием установленных протоколов связи в течение определенных сеансов. При этом каждая заявка порождает совокупность дополнительных сеансов, которые называют порожденными сеансами. Если пользователь ЛС обратился, например, к сайту, то каждый дополнительный сеанс служит обычно для передачи в виде отдельных файлов объектов, размещенных на сайте (картинок, отдельных фреймов, баннеров и т. д.).
На Web-сервере размещаются информационные ресурсы для пользователей Интернета: сайты, базы данных, архивы. Пользователи ЛС также имеют доступ к информационным ресурсам Web-сервера ЛС.
Сервер мониторинга выполняет функции наблюдения и защиты информационных ресурсов ЛС от внешнего и внутреннего несанкционированного доступа.
В данной работе приводится анализ информационных потоков в информационной сети на примере ЛС Тихоокеанского государственного экономического университета (ТГЭУ, г. Владивосток). К серверам ЛС ТГЭУ подключено более бОО рабочих станций. На библиотечном сервере размещается автоматизированная библиотечная информационная система (АБИС) «Руслан», предоставляющая пользователям Интернет-услуги каталога и полных текстов библиотеки ТГЭУ с применением Web-технологии. Связь Proxy-сервера, Web-сервера и сервера мониторинга с Интернетом осуществляется через концентратор внешней сети, многополосный быстродействующий модем и выделенный канал связи - асимметричную цифровую абонентскую линию (Asymmetric Digital Subscriber Line - ADSL). Максимальная пропускная способность рассматриваемого ADSL-модема составляет 10 Мбит/с, из которой администрацией ЛС заказана провайдеру Интернет-услуг выделенная пропускная способность 512 кбит/с.
Согласно стандартам семиуровневой модели сетевого обмена (OSI Ref.Model), на 7-м - прикладном - уровне работа каждого сервера регистрируется специальными протоколами, в которых, как правило, для каждого сеанса отмечаются: внутренний адрес заявки ЛС (в виде IP-адреса и/или ЛС-идентификатора), дата и время заявки, Web-адрес запрашиваемых ресурсов, код результата запроса выполнения заявки, объем передаваемой информации (в байтах) - длина пакета. Протоколы размещаются в специальных файлах, в результате статистического анализа которых выявляются характеристики работы сервера.
Из общих закономерностей построения локальных сетей следует вывод, что каждый сервер можно рассматривать в качестве системы массового обслуживания. В такой СМО заявки размещаются в накопительном буфере, емкость которого N0 зависит от типа сервера. Например, для Proxy-сервера она составляет 350 ООО заявок. Для больших сетей такая емкость может считаться конечной, для малых -практически бесконечной. Совокупность заявок, поступающих на сервер, образует входной поток заявок СМО.
Закон распределения интервалов времени т между моментами поступления заявок характеризует тип входного потока заявок. Совокупность порожденных сеансов одного пользователя ЛС можно считать тоже одной общей (интегральной) заявкой. Закон распределения интервалов между моментами поступления интегральных заявок характеризует тип входного потока интегральных заявок.
Обслуживание каждой заявки заключается в передаче файла определенного объема V. со скоростью V, равной максимальной пропускной способности сервера, например для Ргоху-сервера выделенная пропускная способность равна V = 512 кбит/с. Таким образом, совокупность случайных величин п = V / V образует совокупность длительностей обслуживания, закон распределения которых характеризует тип обслуживания.
В вышеназванных серверах заявки обслуживаются в порядке поступления, что и будет рассмотрено в данной работе, хотя в некоторых случаях в сети возможно установление приоритетов обслуживания заявок.
Таким образом, тип входного потока и закон обслуживания сервера можно выяснить с помощью статистического анализа законов распределения величин V и п в протоколах сервера.
Для поступивших заявок проводились наблюдения в моменты времени 930, 1030, ... 1830, 1930 - с интервалом в один час, которые для удобства будем называть в дальнейшем контрольными моментами наблюдения, или кратко - контрольными моментами. В контрольные моменты наблюдались выборки длин пакетов Ух,---уп объема п, п = 450. На основе данной выборки строился вариационный ряд
V V, ^2 . Vk
п. і П1 П2 . пк
п Пі П . П
п. і п1 п2 . пк
(1)
объема п = п1 +----+ пк, У1 < У2 < ■■■ < Ук, с выборочными частотами
Ир---,пк. Выборка (1) использовалась для построения выборки времен обслуживания п = V /у :
П П (2)
На основе выборки (2) строилась эмпирическая функция распределения ¥е (*) согласно определению по формуле
р. (0 = Х п, (3)
1 п
где суммирование проводится по всем значениям индекса 1, для которых выполняется условие п < *. Для краткости формула (3) записывается в виде
^ (*) = 1 -.
П
По графикам эмпирической функции распределения ^ (*) в контрольный момент времени 1030 (рис. 1) виден экспоненциальный характер распределения времен обслуживания1, поэтому в качестве тео-
1 Аналогичный вид имеют графики эмпирической функции распределения в остальных контрольных точках наблюдения.
ретического распределения принята функция экспоненциального распределения ^ (I):
^ (() = 1 - е-ц‘,
где и - параметр экспоненциального распределения. Для краткости функцию ^ ^) будем называть теоретической функцией экспоненциального распределения. На рис. 1 график эмпирической функции показан слева и справа (график 1), тогда как график теоретической функции распределения показан только слева (график 2). Такое построение графиков выполнено в силу достаточной близости данных функций, из-за которой графики функций сливаются.
Рис. 1. Распределение интервалов времени обслуживания. Пояснения см. в тексте
Параметр /и находился двумя различными методами: наименьших квадратов (для экспоненциальной регрессии) и с применением основного свойства экспоненциального распределения. Метод наименьших квадратов хорошо известен, поэтому здесь не описывается. По основному свойству экспоненциального распределения для экспоненциально распределенной случайной величины п с параметром и выполняется равенство
и = 1/Мп. (4)
Согласно (4) оценка параметра и находилась по формуле
М = П, (5)
п
где среднее время обслуживания п по определению равно
к
^пп п = ——.
п
Наименьшая погрешность получена при значении параметра /л, найденном вторым методом по формуле (5).
Введем обозначения плотностей распределения: /е ^) - эмпирической, ^) - теоретической. Для вычисления /е ^) эмпирической
плотности распределения задавалось число интервалов 5 = 50, интервалы группирования строились равномерным разбиением интервала выборочных значений на 5 подынтервалов шириной А. На каждом /-м интервале находились интервальные частоты и плотность /е ^) приравнивалась отношению V. /(п • А), где п - объем выборки. Рассматривались погрешности отклонения эмпирического и теоретического распределений, т. е. отклонения эмпирической ¥е ^) от теоретической ¥1 ^) функции распределения и отклонения эмпирической /е (0 от теоретической /г ^) плотности распределения.
Первая погрешность - это относительная погрешность отклонения эмпирической ¥е ^) от теоретической ¥1 ^) функции распределения. Данная погрешность ^ рассматривалась по норме пространства Ь1 интегрируемых функций
значение г задавалось из условия поточечного отклонения ¥е (^), ¥1 (^)
не более чем на малое значение е = 10-6 для t > г. Для графиков рис. 1 значения г равны максимальным значениям абсцисс. По сути, относительная погрешность ^ - это относительное отклонение площадей
под функциями распределения на интервале (0, г) .
(6)
где
¥ ^) - ¥, ^)||А=| ¥е ^) - ¥ (о^, ¥ и)||А=| ¥ ^)|*,
о
о
0,3
100
0,06
0
0,24
0,18
0,12
10
930 1130 1 330 1 530 1 730 1 930 t, ч 930 1130 1 330 1 530 1 730 1 930 t, ч
Рис. 2. Погрешности ^ и %ьг
Как показали расчеты, погрешность £ оказалась весьма незначительной. Для графиков рис. 1 погрешность £ = 0,14 %. Среднее значение £ по всем контрольным точкам М£ = 0,14 %.
Однако погрешность £ не учитывает особенность поведения кривых плотностей распределения /е ^^), поэтому изучалась также относительная погрешность отклонения эмпирической /е ^) от теоретической /(t) плотности распределения. Эта погрешность £ рассматривалась по норме пространства Ь2 интегрируемых с квадратом функций
£ = I/. ^ ) - Г, ^ )| Ь , (7)
где
ОТ ОТ
|/. (t) - / (t)||^ | {/' (t) - / ^)) , \\/, ^)||^ = | // (t^ .
о о
Согласно расчетам для графиков рис. 1 погрешность £ = 64 %. Среднее значение £ по всем контрольным точкам М£ = 66 %.
Для графиков рис. 2 вычислены погрешности £ , £ во всех
контрольных точках, которые характеризуют достаточно хорошую близость плотностей распределения /е ^), / (t).
Кроме того, во всех контрольных точках проверялась гипотеза об экспоненциальном законе распределения времени обслуживания с применением критерия Пирсона [2] при уровне значимости у = 0,05 . В процедуре использования критерия Пирсона задавалось число интервалов 5 = 50 и области группирования строились равномерным разбиением интервала выборочных значений на 5 подынтервалов. Количество степеней свободы критерия к бралось равным 5 - 2. В частности, согласно расчетам для графиков рис. 1 наблюдаемое значение критерия х1с£я равно 133, критическая точка х1р равна 173.
Во всех контрольных точках наблюдаемое значение критерия меньше критической точки. Это означает, что результаты проверки не противоречат гипотезе об экспоненциальном характере распределения времени обслуживания.
На рис. 3 график справа демонстрирует максимальные интервалы шах п. обслуживания во всех контрольных точках, где среднее время обслуживания одного порожденного сеанса М(шахп) = 1,35 с, а два графика слева характеризуют изменение во времени значений критериев: I - Х1абл , 11 - ХКр .
Рис. 3. Проверка гипотезы об экспоненциальном законе распределения времени обслуживания. Пояснения см. в тексте
Проведенное сравнение эмпирического и теоретического распределений показало, что время обслуживания заявок на Ргоху-сер-вере имеет экспоненциальный закон распределения. Аналогичные результаты получены для других дней наблюдения и для остальных серверов.
Теперь покажем результаты статистического анализа потока согласно его количественному описанию. При количественном описании потока временной интервал наблюдения Т разбивается на детерминированные интервалы г1,.^п- Пусть в результате наблюдения в этих детерминированных интервалах появилось количество заявок v1,...,vn. При таком подходе поток задается совместным распределением случайных величин VI,., vn, УпеЖ Если в качестве детерминированных интервалов гп взять малые единичные интервалы, то величины
Mvl,...,Mvn будут представлять собой последовательность значений интенсивности входного потока А,(7). В работе вычисление величин Mv1,..., Mvn производилось усреднением количества появившихся заявок на подынтервалах интервалов 2\,..., 2п. Такой подход использовался при статистическом анализе интенсивности входного потока заявок порожденных сеансов А,(7), который проводился в указанные выше контрольные моменты времени.
Рассмотрим статистический анализ потока интегральных сеансов Ргоху-сервера. Приведем графики интенсивности входного потока заявок порожденных сеансов А,(7) в контрольные моменты времени 1030 (рис. 4, слева), 1100 (рис. 4, справа). Внешний вид графика интенсивности А,(0 свидетельствует о скачкообразности процесса. Как показал статистический анализ, аналогичный приведенному выше, интервалы постоянства Т представляют собой экспоненциальные величины с параметром в Кроме того, с применением статистического анализа показано, что значения процесса А,(0 в точках разрыва слева
и справа - независимые числа, причем значения справа равномерно распределены на конечном интервале [а, Ь].
Рис. 4. Интенсивность входного потока интегральных заявок. Пояснения см. в тексте
Статистический анализ потока входных заявок показал также наличие скачкообразной интенсивности на других серверах, как правило, таких, где заявки во входном потоке появляются достаточно часто, например на библиотечном сервере и сервере баз данных.
Литература
1. Анисимов В.В. Предельные теоремы для рекуррентных процессов полумарковского типа / В.В. Анисимов, А.О. Алиев // Теория вероятности и мат. статистика (Киев). 1989. № 41. С. 9-15.
2. Гмурман В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. - М.: Высшая школа, 2001. - 479 с.
3. Головко Н.И. Анализ систем массового обслуживания, функционирующих в случайной среде / Н.И. Головко, В.В. Катрахов. -Владивосток: Изд-во ДВГАЭУ, 2000. - 144 с.
4. Горцев А.М. Управление и адаптация в системах массового обслуживания / А.М. Горцев, А.А. Назаров, А.Ф. Терпугов. -Томск: Изд-во Том. ун-та, 1978.
5. Катрахов В.В. Введение в теорию марковских дважды стохастических систем массового обслуживания / В.В. Катрахов, Н.И. Головко, Д.Е. Рыжков. - Владивосток: Изд-во ДВГУ, 2005. - 212 с.
6. Клейнрок Л. Коммуникационные сети. Стохастические потоки и задержки сообщений / Л. Клейнрок. - М.: Наука, 1970. - 255 с.
7. Клейнрок Л. Теория массового обслуживания / Л. Клейнрок. -М.: Машиностроение, 1979. - 432 с.
8. Портенко Н.И. Марковские процессы / Н.И. Портенко, А.В. Скороход, В.М. Шуренков // Итоги науки и техники. Сер. Совр. пробл. мат. фундам. направления. 1989. Вып. 46. С. 5-245.
9. Таташев А.Г. Система массового обслуживания с переменной интенсивностью входного потока / А.Г. Таташев // Автоматика и телемеханика. 1995. № 12. С. 78-84.
10. Alvarez-Andrade S. Strong approximation of doubly stochastic Pois-son processes / S. Alvarez-Andrade // C. R. Acad. Paris Ser. I. Math. 1993. V. 316, N 8. P. 869-872.
11. Rolski T. Approximation of periodic queues // Adv. Appl. Probab. 1987. V. 17, N 3. P. 691-707.
© Каретник В.О., 2008 г.