ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
Том №271
июнь
2000
ПОТОКИ СОБЫТИЙ, СИСТЕМЫ И СЕТИ МАССОВОГО ОБСЛУЖИВАНИЯ
УДК 519.283
E.H. Беккерман, С.Г. Катаев, С.С. Катаева ОБ ОДНОМ АЛГОРИТМЕ РАСПОЗНАВАНИЯ MC-ПОТОКА СОБЫТИЙ
В работе предлагается алгоритм определения участков стационарности и оценивания соответствующих интенсивно-стей в распознаваемом MC-потоке событий.
В теории массового обслуживания широко исследуются системы массового обслуживания (СМО) с входящим МС-потоком заявок. Если на вход СМО поступает неизвестный поток заявок, то возникает задача распознавания в нем МС-потока для дальнейшего исследования этой системы уже разработанными методами.
МС-потоком называется поток, интенсивность которого представляет собой кусочно-постоянный марковский процесс Я.(/), принимающий значения из конечного множества констант1 {Х,,^...,^}, йазыЬаёмк* состояниями процесса >.(/). Длительности участков стационарности, т.е. участков, где Я,(/)=соп51, есть случайные величины, распределенные по экспоненциальному закону с параметрами {а1,а2,...,ал} соответственно. Переход из состояния /' в состояние у осуществляется по вероятности Рд из матрицы вероятностей переходов, которая обладает свойством ]Г рц = 1, рл = 0.
Пусть дана выборка моментов наступления событий распознаваемого потока фиксированного размера п: {0,/|,/2,...,'„}• Для любых пар событий с номерами / и у, где /=1,...,«-1, у'=2,...,и, причем /'</, строим оценки интенсивности потока по формуле у-, + 1
к =
(1)
ности потока. Остальные элементы матрицы назовем ложными оценками или шумом. Если исследуемый поток пуассоновский, то все элементы матрицы О являются чистыми оценками его интенсивности. В случае МС-потока, если события, начиная с номера и заканчивая номером у*, относятся к одному интервалу стационарности, то для любых пар событий с номерами / и у, где Мк, у*=1, У='*+1л. причем /</', элемент ^ матрицы £> будет чистой оценкой, так как на .интервале, стационарности МС-поток является пуассоновским. Эти оценки составят в матрице £> треугольный блок размерности (/к-/к+ +1), расположенный на главной диагонали.
Сгруппируем данные, содержащиеся в матрице оценок, в гистограмму
По (1) получим (л-1)(л-2)/2 оценок интенсивности исследуемого потока по всевозможным группам событий из выборки. Представим полученные данные в виде верхнетреугольной матрицы Д Элемент у) матрицы есть оценка интенсивности потока на интервале по (у—/+1) событиям. Предполагая, что исследуемый поток является МС-потоком, в дальнейшем для удобства будем использовать соответствующую терминологию. Заметим, что если исследуемый поток является МС-потоком, то для групп событий, принадлежащих одному и тому же интервалу стационарности, оценка (1) интенсивности потока на соответствующем временном интервале будет несмещенной, эффективной и ассимптогически нормальной, так как получена методом максимального правдоподобия [1].
Рассмотрим свойства полученной матрицы и ее отдельных элементов. Будем называть элемент матрицы Д = } чистой оценкой интенсивности потока на интервале стационарности, если все события, наступившие в моменты принадлежат одному и тому же интервалу стационар-
где А - шаг гистограммы; и* - частоты, т.е. количество элементов матрицы Д значения которых принадлежат интервалу ((к-\)ИЩ; ТУ- количество элементов матрицы Д значения которых принадлежат интервалу (0, тИ]\ т - количество шагов гистограммы.
На основании полученной гистограммы построим полигон частот. Из свойств оценки X. вытекает, что для пуассоновскога потока при достаточной длине реализации полигон частот представляет собой 5-образную кривую, максимум которой совпадает со значением интенсивности потока X с точностью до шага гистограммы [2]. В случае МС-потока это не так. Если бы в случае МС-потока удалось выделить га матрицы оценок только те элементы, которые являются чистыми оценками, полигон частот выглядел бы как сумма 5-образных кривых, максимумы которых совпадают с интенсивностями потока на интервалах стационарности [3].
В данной работе предлагается алгоритм выделения чистых оценок интенсивности МС-потока путем определения участков стационарности, причем в качестве исходной информации используются только времена наступления событий.
Поставим в соответствие каждому /-му событию выборки, /=1, И, вершину с тем же номером / некоторого графа (7(К,£), где V - множество мощности N вершин графа, а Е - множество пар вершин, т.е. множество ребер графа. Стоимостью каждого ребра графа, связывающего но иу'-ю (¿</) вершины, будем считать величину 4, т.е. элемент матрицы Д Число ребер графа составит N{N-1)^2. Если группа событий с номерами
41
if, ¡2.....// составляет участок стационарности потока с интенсивностью Х,=Хр, то это означает, что: 2
а )- £ dy = \р , где / - множество упорядо-
~ О (/.»е/
ченных по номерам пар из {if, if, .., //*};
б) номера ij .....Л, идут подряд, т.е. ij" =
= '■;-,+1;
в) все dij, (ij)el, принадлежат в основном некоторому интервалу (кр-Ак, Хр+АХ).
Оценка интенсивности, полученная по всей фуппе
событий, т.е. (if,ik) -я компонента матрицы Д должна быть наиболее близкой к истинному Xг
Эти соображения определяют идею алгоритма выделения участков стационарности потока При выборе удачного интервала (Хр-Ак, Хр+ДХ.) и удалении из графа G всех ребер, стоимость которых не попадает в указанный интервал, в графе выделятся компоненты связности Gk = HVkEk), соответствующие участкам стационарности, относящимся к р-му состоянию MC-потока (G* является подграфом графа G). Разумно ожидать, что участку стационарности в наибольшей степени отвечает такой подграф, в котором, во-первых, число ребер максимально, а во-вторых, каждая вершина должна быть соединена с наибольшим числом вершин, т.е. степени вершин должны быть примерно одинаковыми. Эти требования могут быть учтены введением следующих характеристик для выделенных компонент связности G*:
а) степень компактности компоненты
Ä
2 Ъ>
СОМР[*] =-S!-
Nt(Nt-\y
где Nk - число вершин G*; s, - степень /-й вершины. Величина СОМР[А] характеризует близость подграфа Gk к полному;
б) степень однородности компоненты
Д
"X A log А
ENTR[£] = —^——-,
log Nt
где pt - отношение степени /-й вершины компоненты G* к величине (Nk-1). Характеристика ENTR[£] по виду напоминает формулу энтропии случайной величины с распределением phi= 1, Nk. Величина энтропии, как известно [4], характеризует степень однородности множества.
Пусп» задан интервал значений оценок интенсивности [А/, X"], граф G разбит вышеупомянутым способом на компоненты связности и для каждой компоненты вычислены характеристики COMP и ENTR. Если при увеличении интервала [А/, X"] и соответствующем разбиении графа G на компоненты связности для к-й компоненты Nk остается неизменным, а число связей увеличивается, то благодаря увеличившемуся числителю значение СОМР[Л] возрастает, и подграф Gk приближается к полному. Присоединение в новом разбиении к к-й компоненте изолированной в предыдущем разбиении вершины увеличивает знаменатель, а числитель может возраста в меньшей степени, если, например, вершина присоединилась толь-42
ко одной связью, и это приведет к уменьшению значения СОМР[£]. С другой стороны, рост числа связей может достигаться увеличением степени только одной или нескольких вершин, поэтому само по себе большое значение СОМР[£] не гарантирует оптимальности разбиениг. Характеристика ENTR[&], отвечающая за однороднось компонент, достигает своего локального максимум*, когда степени всех вершин компоненты равны. Для каждой компоненты Gk СОМР[£] и ENTR[£] - слабо флуктуирующие многоэкстремальные функции от [X/, Х''].
Опишем процедуру выделения связных компонент графа.
1. Задан интервал [А/, X."]. Из графа удаляются все ребра, стоимости которых не попадают в данный интервал. Граф G разбивается на компоненты связносп Gfc к= 1,2,... (в том числе изолированные вершины).
2. Интервал [А/, X."] увеличивается. Получаются новые разбиения графа G, в которых компоненты изменяются: расширяются за счет изолированных вершин, поглощают другие компоненты. Наконец, при достижении интервалом некоторой величины граф G не разобьется на компоненты, останется связным.
3. На множестве разбиений к-я компонента характеризуется последовательностями характеристиг СОМР[Л] и ENTR[£]. Выбирается то разбиение, дл! которого СОМР[А] достигает своего локального максимума, но при этом и ENTR/fc] близка к своему локальному максимуму. Те компоненты, которые этому условию удовлетворяют, считаются перспективными в смысле соответствия интервалам стационарности. Средняя стоимость ребра полученной компоненты, которая рассчитывается с учетом ранее отброшенных ребер, будет оценкой интенсивности потока для одного из состояний. Если эти оценки для разных компонент близки, то это интервалы стационарности одного состояния МС-потока.
Что касается выбора интервала [X/, X"] и принципов его расширения, то на этот счет можно привести следующие соображения. Можно, определив границы множества значений оценок по матрице Д зафиксировать левый край интервала X' на нижней границе множества значений оценок и с заданным шагом увеличивать значение X," до тех пор, пока граф продолжает разбиваться на компоненты связности. Затем, зафиксировав X." на правой границе множества значений оценок, поступить аналогичным образом с X.'. С другой стороны, для выбора перспективных интервалов [Х;, X"] можно воспользоваться информацией о местоположении пиков гистограммы.
Ясно, что если события с номерами ih /2,..., ih относятся к одному интервалу стационарности, значит, (/,/)■« компоненты матрицы D при /е {1,..., i'i-l} и je {/'ь N}, а также при /б{/ь ik} и je{ik+\, N) являются заведомо ложными оценками (шумом). Представляется целесообразным удалить из матрицы D ложные оценки и повторил, процедуру выделения связных компонент графа. Если состав компонент не изменяется, то интервалы стационарности для данных состояний считаются определенными.
Пример. Построена имитационная модель МС-по-тока с двумя состояниями и следующими параметра-
ми: >-1=20; Х2=80; а1=0,1; а2=1,2. Разбиение первых 200 событий по состояниям для данной реализации показано в табл. 1.
Таблица!
События Состояние
1-109 1
110-182 2
183-190 1
191-200 2
Предполагается, что нам известны только моменты наступления событий. По этим моментам была построена (симметризованная для иллюстрации) матрица Д оценок интенсивности потока, трехмерное изображение которой представлено на рис. 1, где по оси «оценка интенсивности» отложены значения соответствующих элементов матрицы Д.
Рис. 1. Исходная матрица £> оценок интенсивности потока событий
Гистограмма, соответствующая матрице Д, изображена на рис. 2, из которого видно, что огибающая гистограммы заметно отличается от 5-образной кривой, а это говорит о наличии в рассматриваемом потоке как минимум двух состояний.
оценка интенсивности
Рис. 2. Огибающая гистограммы оценок интенсивности
Анализ множества разбиений событий на группы по различным интервалам [А/Д"] в левой части множества значений оценок к позволил выделить лучшее в смысле характеристик СОМР и ЕЫТЛ разбиение для наибольшей по численности группы событий. Полученное разбиение, упорядоченное по количеству событий в группе, относилось к интервалу [4, 19] и приведено в табл. 2.
Таблица2
№ ФУП -пы Число событий Начальное событие Конечное событие Ср. оценка интенсив-ности Оценка по группе
1 60 28 87 19,648 21,316
2 27 89 115 21,888 23,259
3 23 1 23 21,334 23,818
4 5 181 185 21,007 23,652
5 3 188 190 18,170 18,216
По близости средних оценок интенсивности к и
оценок по группе X можно сделать предположение о том, что все ? групп событий относятся к одному состоянию МС-потока, а 1-я и 2-я группы, более того, принадлежат одному участку стационарности потока со случайно выпавшим событием под номером 88. Из матрицы Д удаляются элементы ¿у при /=1,27 и /= =28,200, а также при /=28,115 и/=116,200, и процедура разбиения событий на группы повторяется. Заметим, что поскольку разбиение фиксировалось для интервала, оптимального только для 1-й группы событий, то удаление шума из матрицы Д для групп 3-5 не проводилось. Лучшее разбиение, относившееся к интервалу [4, 3<5], приведено в табл. 3.
ТаблицаЗ
Номер груп пы Число событий Начальное событие Конечное собы тие Ср. оценка интенсивности Оцен* капо группе
1 88 28 115 21,198 22,135
2 27 1 27 24,470 27,026
3 22 176 197 48,040 48,792
4 6 145 150 30,363 51,420
5 5 116 120 40,632 56,313
6 4 165 168 35,240 41,115
7 4 153 156 38,175 52,244
Вновь 1-я и 2-я группы объединяются в одну по близости Я и Я , а также по последовательности номеров составляющих их событий (т.е. обе группы принадлежат одному участку стационарности потока). Группы 3-7
имеют заметно отличные от 1-й и 2-й оценки X и 1, поэтому их можно рассматривать либо как еще не сформировавшиеся участки стационарности для другого состояния потока, либо как совокупности событий, относящихся к разным участкам стационарности одного или различных состояний. Из матрицы Д были удалены элементы ^ при Н,115,/=116,200, и процедура разбиения событий на группы была повторена. Лучшее разбиение, относившееся к интервалу [4, 27], приведено в табл. 4. Анализ этой таблицы позволяет сделать предварительный вывод о существовании двух участков стационарно-
43
ста, относящихся к состоянию МС-потока, величина интенсивности которого принадлежит интервалу [22, 30\. Первый участок содержит события с 1-го по 115-е, а второй - со 180-го по 191-е. Относительно 3-й и 4-й групп ничего определенного сказать нельзя.
Таблица4
№ группы Число событий Начальное событие Конечное событие Ср. оценка интенсивности Оценка по группе
1 115 1 115 22,567 23,192
2 12 180 191 25,576 30,672
3 4 146 149 28,037 35,700
4 3 117 119 29,218 36,444
Следующий этап состоял в выделении другого состояния МС-потока, в котором интенсивность наступления событий близка к верхней границе множества значений оценок интенсивности. Теперь разбиение событий на группы, аналогичное описанному, проводилось по различным интервалам [X/, А/'] в правой части множества значений оценок интенсивности потока. Здесь окончательный результат относился к интервалу [70, 76] и приведен в табл. 5.
Таблица5
Номер труп ПЫ ' Число событий Начальное событие Конечное событие Ср. оценка интенсивности Оценка по группе
1 81 110 200 74,685 70,247
2 6 23 28 80,966 88,190
Трехмерное изображение матрицы Б оценок интенсивности потока после удаления из нее всех ложных оценок (шума) представлено на рис. 3.
Рис. 3. Очищенная матрица £> оценок интенсивности потока событий
Сравнивая табл. 4 и 5, видим, что все события оказь лись распределенными по состояниям. Это позволяет утверждать, что исследуемый поток есть МС-поток с двумя состояниями. Однако некоторые события оказались отнесенными как к 1-му, так и ко 2-му состояниям. На рис. 4 эти «спорные» участки отмечены черными прямоугольниками. Надо принять решение об отнесенш этих «спорных» участков к тому или иному состоянию.
1 состояние
1 состояние
Г
23
В
28
200
115
180 191
2 состояние
2 состояние
Рис. 4. Результирующее распределение событий по состояниям
В качестве критериев, которыми необходимо руководствоваться в этой ситуации, естественно использовать оценки интенсивностей. В табл. 6 приведены основные характеристики групп событий, составляющих «спорные» участки.
Таблицаб
Номер груп пы Число событий Начальное событие Конечное событие . СР; . оценка интенсивности • Оценка по группе
1 6 23 28 80,966 88,190
2 6 110 115 60,502 64,410
3 12 180 191 25,576 30,672
Из табл. 6 видно, что участки 23-28, 110-115 следует отнести ко 2-му, а 180-191 - к 1-му состоянию. Окончательно полученное распределение событий по состояниям приведено в табл. 7.
Таблица7
События Состояние Ср. оценка интенсивности
1-22 1 21,281
23-28 2 80,966
29-109 1 20,978
110-179 2 80,118
180-191 1 25,576
192-200 2 114,946
Результирующие оценки интенсивности МС-потока (их средние значения по участкам стационарно-
А Л
ста) равны: А., =21,58, Х2 =83,87. Рассмотренный пример показал, что:
а) количество состояний определено точно;
б) оценки интенсивности наступления событий для обоих состояний близки к истинным значениям интенсивности модельного потока;
в) число интервалов стационарности потока отличается от истинного на 1;
г) число событий, отнесенных не к «своему» интервалу, составляет 10 из 200.
В предложенном алгоритме не используется никакой информации о распознаваемом потоке, кроме времен наступления событий. При усовершенствовании процедуры принятия решений этот алгоритм позволит распознавать МС-погоки с различным числом состояний; оцени-
вать их интенсивности и длительности нахождения потока в каждом интервале стационарности, что при большем числе событий, нежели в приведенном гримере, поможет оценить интенсивности перехода из одного состояния в другое.
ЛИТЕРАТУРА
1. Терпугов А.Ф. Математическая статистика Томск: Изд-во ТГУ, 1974.
2. Катаева С.С. Об одном подходе к распознаванию MC-потока событий //Массовое обслуживание. Потоки, системы, сети: Материа-
лы международной конференции «Математические методы исследования телекоммуникационных сетей». Минск, 1997. С. 43. 3 Беккермаи E.H., Катаева С.С. Эвристический способ обнаружения информационного признака MC-потока и его исследование // Массовое обслуживание. Потоки, системы, сети: Материалы международной конференции «Математические методы исследования систем и сетей массового обслуживания». Минск, 1998. С. 5-9. 4. Шеннон К. Математическая теория связи // Работы по теории информации и кибернетике. М.: ИЛ, 1963.
Статья представлена кафедрой исследования операций факультета прикладной математики и кибернетики Томского государственного университета, поступила в научную редакцию 19 февраля 2000 г.
УДК 519.8
Е.В. Глухова, А. С. Шкуркин
РАСЧЕТ ХАРАКТЕРИСТИК ПЕРИОДА ЗАНЯТОСТИ В ОДНОЛИНЕЙНОЙ СМО С ВЫТЕСНЕНИЕМ ЗАЯВОК
Находится преобразование Лапласа от плотности вероятностей длительности периода занятости в однолинейной СМО с вытеснением заявок, а также математическое ожидание и дисперсия длительности периода занятости. Сфоятся оценки интенсивности входящего потока заявок и среднею времени обслуживания по наблюдениям над моментами начала периодов занятости.
вычислить можно. Йусть р^) и рп(ц)
сти вероятностей £ и т|, а
постановка задачи
плотно-
Однолинейные СМО с вытеснением заявок встречаются при описании так называемого продлевающегося мертвого времени [1]. Математическая модель таких систем СМО выглядит следующим образом. Имеется однолинейная СМО, на которую поступает рекуррентный поток заявок с плотностью вероятностей для интервалов времени х между заявками вида рх(т) = Хр^Хх), где рх (г) - функция, обладающая свойствами:
а) Р1(г)* 0,
б)//>,(*)* = 1, ]2рх(г)сЬ = \. (1) о о
Тогда X имеет смысл интенсивности потока заявок.
Если каждая заявка обслуживается независимо от остальных, то время её обслуживания / имеет плотность
о
(2)
вероятностей вида рх (t) = — р0
0п
где функция
р0(г) имеет те же свойства, что и функция /?,(г). В этом случае параметр 0О -среднее время обслуживания заявки. Термин «вытеснение заявок» означает следующее: если в период обслуживания какой-то заявки придет следующая заявка, то она вытесняет с обслуживающего прибора находящуюся там заявку и сама занимает её место. Вытесненная заявка теряется и на обслуживание не возвращается. Обозначим через £ длительность периода занятости в такой системе и через т) - интервал времени, проходящий между началами периодов занятости. Нас будет интересовать распределение вероятностей этих величин. В частном случае пуассоновского входящего потока эта задача решена в [1].
Распределение вероятностей величин £ и ц
Найти плотности вероятностей величин ^ и т] затруднительно, а преобразование Лапласа от них
- их преобразования Лапласа. Найдём выражение для gr|(s). Пусть в пустую СМО поступила заявка, требующая для своего обслуживания времени Г. Тогда возможны два варианта.
1. За время обслуживания этой заявки не поступит никакой другой заявки, т.е. наступит событие / > т. В этом случае г] = т, так как через время I период занятости окончится и следующий период начнётся в момент х.
2. За время обслуживания этой заявки в систему поступит новая заявка, т.е. наступит событие т < В этом случае т] = т + т)', где т)' - интервал времени до начала нового периода занятости, отсчитываемый от поступления этой новой заявки, г) и т|' имеют одно и то же распределение вероятностей, так как новая заявка вытесняет старую. Получившаяся ситуация ничем не отличается от исходной и имеет место соотношение:
*„(*) = ^ V, (^)Л +
+ М{е-«)} 1Л*)е-"Хрх (Хх )А. о"о о
Но, по сказанному выше, м{ё~п<} = gц{s) и о у"о) °о I_
о 4öo )"оо
(3)
'А
что и даёт явное выражение для gqC?) ■