Методика статистического анализа характеристик входных потоков запросов в системах обработки информации
В.А. Зуев, А.Н. Панфилов, А.Н. Скоба
Южно-Российский государственный политехнический университет (НПИ),
Новочеркасск
Аннотация: В статье приводится описание наиболее важных этапов, выполняемых при исследовании входных потоков данных для систем обработки информации. Ключевые слова: моделирование, запрос, распределение, случайная величина, поток событий, интенсивность потока, статистический анализ, критерий, стационарность, пуассоновский процесс, уровень значимости.
Одной из основных задач определения исходных данных для моделирования процессов обработки информации в распределенных системах обработки информации (СОИ) является нахождение функции /(1), представляющую собой плотность распределения интервалов времени между запросами пользователей СОИ. Эти интервалы составляют случайную последовательность событий и для ее оценки их характеристик необходимо провести процедуру статистического анализа. Исходными данными для статистического анализа являются следующие величины: хг,к - длины временных интервалов между соседними запросами от к-го пользователя
СОИ, где г = 1, пк, к = 1, £0, пк - объем выборки для к-го пользователя, ^0-общее число пользователей СОИ; щк - число запросов от к-го пользователя,
поступивших в равные промежутки времени tj к, ] = 1,.
На рис.1 показана структура процесса анализа характеристик потока событий. Одной из первоочередных задач статистического анализа потоков событий является проверка независимости и одинаковости распределения случайных величин. Для решения этой задачи используются критерии, основанные на выборочных коэффициентах корреляции и критерии, базирующиеся на спектральной плотности интервалов [1,2].
В соответствии с первым типом критериев, гипотеза о независимости
С„
отвергается уровнем значимости а, если
V" -1
Р3П"к
> С
/2 или
Р],к
>
уй/2
лК -1 ,
где Са/2 является верхней (а/2) - квантилью единичного нормального
распределения; Р1,к - коэффициент корреляции к-го пользователя СОИ с аргументом запаздывания_/, который определяется следующим образом:
С
Ри =
1,к
(С с" )
\^0,0,],к)
1
1,0,],, к -1
где с"15 х,Л"
Л
Х],кХ]кк ,
1 пк -1 х-'- =- д 5 х,
11,к
(к -1) ,=1
к
1
с =
1 (к -
-5(х -х' )2 С" 5(х -Х" )2
(пк - 1 ^
1 "к - ] Хк 5 х,+1,к.
Рис. 1.- Структура процесса анализа характеристик потока событий
Анализ статистических данных с целью установления стационарности потока заявок основан на двух типах методов [1-5]. Первый тип использует стандартные методы наименьшей квадратичной регрессии, а методы второго типа базируются на эффективном теоретическом анализе специальных математических моделей, например, пуассоновского процесса, параметр которого изменяется по некоторому простому закону. Так наиболее эффективным является критерий, предполагающий в качестве нулевой гипотезы пуассоновский процесс, а в качестве конкурирующей -нестационарный пуассоновский процесс с интенсивностью наступления
б й Я, ()= еа+в в
событий вида к 47 , где а и р являются неизвестными параметрами.
При этом проверка нулевой гипотезы в =0 для Як ^) сводится к вычислению выражения:
Е К* - 0 5Пк*0,к
1=1
ик =
г0лА /12
1 "к где к = Е •к ; *0к = Е •к - период наблюдений.
Нулевая гипотеза принимается, если ик отличается от нуля менее, чем на 5%. Знак ик указывает на возрастание или убывание интенсивности.
Одним из стандартных критериев для проверки гипотезы о том, что интервалы х,к являются наблюденными значениями случайной величины,
имеющей показательное распределение с параметром Як(к = 1,S0), является дисперсионный критерий, основанный на статистике:
¿к =Е_(ха -Хк)2
1=1 хк
1 "к
где Хк =~Е Хгк
"к
" 1=1
При нулевой гипотезе распределение величины dк хорошо
2
аппроксимируется х распределением с (пк-1) степенями свободы.
Существует много параметрических семейств функций распределения, которые можно использовать в качестве модели для распределения интервалов времени между событиями процесса восстановления. Наиболее важным из них является распределение Эрланга, плотность распределения которого имеет вид:
,, , Як (Якхк ("0,к ))("0,к-1)ехР(-ЯкХк (П0,к ))
/(хк(" 0,к)) =-:-гг;-,
("0,к - 1)!
где хк(п0,к) - время от начала отсчета до генерации п0,к - го по счету запроса к-го пользователя; п0,к -фиксированное целое число, причем п0,к принадлежит отрезку [0, пк]; Як - интенсивность формирования запросов к- пользователя. Для оценки параметров Як и п0,к можно воспользоваться критериями X. В ряде технических приложений, описанных в работе [6], встречаются нестационарные пуассоновские процессы, т.е. процессы, в которых интенсивность наступления событий сама является функцией времени Х(1)„ причем очень часто величина Х(1) является реализацией стационарного случайного процесса. Общих методов анализа характеристик таких процессов пока не существует. Единственное общее указание, которое можно сделать относительно анализа потоков событий такого типа, состоит в том, что оценки параметров и проверка гипотез значительно упрощается, если удается обнаружить определенные закономерности процесса (например, спектральную плотность целочисленного процесса).
Среди последовательностей событий, интервалы времени между которыми не являются одинаково распределенными, наибольшее практическое значение имеют так называемые последовательности событий, смещенные случайными воздействиями. Это процессы, в которых события
должны проходить согласно расписанию через определенные интервалы времени, но по различным причинам отклоняются от этих предписанных моментов времени. Наиболее простая модель таких последовательностей получается, если предположить, что согласно расписанию, события должны проходить последовательно через интервал времени а и что задержки являются независимыми и одинаково распределенными случайными величинами. Тогда действительным моментом времени наступления х,,к по расписанию события является: ,к = а0 + ка + Ьк. Здесь Ьк является реализацией некоторой случайной величины В, с функцией распределения Рв(х,,к) и дисперсией и2в. В работе [6] приведены основные соотношения для статистической оценки корреляции интервалов времени между событиями такого типа.
Для сравнения интенсивностей потоков запросов от каждого пользователя СОИ можно использовать критерии, основанные на отношении функции максимального правдоподобия и индексе дисперсии [1]. Нулевая гипотеза состоит в равенстве ^ = , а конкурирующая гипотеза предполагает различную интенсивность для каждого из к пользователей распределенной СОИ. При нулевой гипотезе случайная величина
Н -
8а Зо Зо
5 "к ■ ык/ *0,к)- 5 "к ■ 1п(5 "к/ 5 *о.к)
^ к-1 к-1 к-1 к-1
имеет распределение с (-1)
степенями свободы. При малом уровне значимости случайной величины Н, не позволяющем сделать окончательных выводов о справедливости нулевой гипотезы, равенство интенсивностей потоков проверяется по критерию индекса дисперсии [1,2].
Основные этапы предложенной методики статистического анализа входных потоков были реализованы в среде М^^Ь [7,8] и использованы для оценивания потока запросов пользователей информационных систем
организационного управления. Экспериментальные данные подтверждают гипотезу о стационарности, независимости и экспоненциальной плотности распределения времени между запросами.
Литература
1. Кокс Д., Льюис П. Статистический анализ последовательности событий. М.: Мир, 1969. 312с.
2. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир, 1989. 540с.
3. Андерсон Т. Статистический анализ временных рядов. М.: Мир, 1976. 755 с.
4. Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, 820 p.
5. Большаков И. А., Ракошиц В. С. Прикладная теория случайных потоков. М.: Сов.радио, 1978. 248 с.
6. Оран Э., Борис Дж. Статистическое моделирование реагирующих потоков. М.:Мир, 1990. 390с.
7. Martinez, W.L. and A.R. Martinez, 2002. Computational Statistics Handbook with MATLAB. London: CHAPMAN & HALL/CRC, 763 p.
8. Дьяконов В. MATLAB: учебный курс. СПб: Питер, 2001. 560с.
9. Зырянов В.В. Методы оценки адекватности результатов моделирования // Инженерный вестник Дона, 2013, №2 URL:ivdon.ru/ru/magazine/archive/n2y2013/1707/.
10. Якоб Д. А. Разработка алгоритма нахождения входного потока заявок в имитационной модели контрольно-пропускной системы на основе статистических данных //Инженерный вестник Дона, 2014, №3 URL:ivdon.ru/ru/magazine/archive/n3y2014/2480/.
References
1. Koks D., L'yuis P. Statisticheskiy analiz posledovatel'nosti sobytiy. M.: Mir, 1969. 312 p.
2. Bendat Dzh., Pirsol A. Prikladnoy analiz sluchaynykh dannykh [Random Data. Aanalysis and Measurement Procedure]. M.: Mir, 1989. 540 p.
3. Anderson T. Statisticheskiy analiz vremennykh ryadov [Statistical analysis of temporary ranks]. M.: Mir, 1976. 755 p.
4. Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, 820 p.
5. Bol'shakov I. A., Rakoshits V. S. Prikladnaya teoriya sluchaynykh potokov. M.: Sov. radio, 1978. 248 p.
6. Oran E., Boris Dzh. Statisticheskoe modelirovanie reagiruyushchik hpotokov. M.: Mir, 1990. 390 p.
7. Martinez, W.L. and A.R. Martinez, 2002. Computational Statistics Handbook with MATLAB. London: CHAPMAN & HALL/CRC, 763 p.
8. D'yakonov V. MATLAB: uchebnyy kurs. SPb: Piter, 2001. 560 p.
9. Zyryanov V.V. Inzenernyj vestnik Dona (Rus), 2013, №2 URL:ivdon.ru/ru/magazine/archive/n2y2013/1707/.
10. Yakob D.A. Inzenernyj vestnik Dona (Rus), 2014, №3 URL:ivdon.ru/ru/magazine/archive/n3y2014/2480/.