Математическое моделирование. Оптимальное управление Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 4 (1), с. 211-216
УДК 519.21
НЕЛОКАЛЬНОЕ ОПИСАНИЕ ВХОДНЫХ ПОТОКОВ НЕОДНОРОДНЫХ ТРЕБОВАНИЙ
© 2012 г. А.М. Федоткин
Нижегородский госуниверситет им. Н.И. Лобачевского [email protected]
Поступила р ридакцию 07.03.2012
Рассмотрен нелокальный способ задания потоков неоднородных требований. Эффективность такого подхода показана на примерах описания потоков неоднородных требований разной физической природы [1]. Этот способ можно успешно применять для сложных потоков, когда интервалы между последовательными поступлениями требований являются зависимыми и имеют различные распределения. Простота и успешность такого описания потока зависит от выбора стробирующего точечного процесса вида {т,; г > 0}. Был разработан пакет программ, который позволяет не только проверить выдвинутые теоретические предположения нелокального описания, но и применить предложенные формальные методы статистического анализа входного потока неоднородных требований к обработке данных наблюдений за реальными потоками.
Ключирые слвра: случайный процесс, конечномерные распределения, маркированный точечный процесс, распределение Бартлетта.
Рассмотрим метод нелокального описания [2, 3] потока неоднородных требований (поток машин на автомагистрали, микросхем на конвейере, покупателей в магазине, поток вычислительных программ, поступающих на обработку компьютером и т.д.). При г = 1, 2, ... обозначим через т, момент появления в системе требования с номером г. Последовательности {т,; г > 1} взаимно однозначно соответствует [4] считающий случайный процесс {"л(0: 1 > 0}. Как правило, случайные величины т,+1 — т,, г > 1, являются зависимыми и имеют различные функции распределения. В этом случае практически не удается определить конечномерные распределения считающего случайного процесса {"л(0: 1 > 0}. В работе рассматривается именно такая сложная ситуация.
В теоретических исследованиях и приложениях очень часто поток { т,; г > 1} подвергается различным преобразованиям. Эти преобразования приводят либо к изменениям расположений моментов т, , г > 1, на оси времени, либо к появлению новых и исчезновению прежних моментов [4, 5]. В отличие от этого в данной работе первоначальный поток { т, ; г > 1} не изменяется. Строится последовательность случайных точек тг, г = 0, 1, ..., на оси времени с помощью выбора некоторой функциональной зависимости каждого элемента т, от моментов т,, г > 1. На содержательном уровне это означает, что
происходит разбиение потока { т'; i > 1} моментами т,, i = 0, 1, ..., с целью более простого его описания. Тогда нелокальное описание входного потока заявок представляется в виде векторной случайной последовательности {(т,, Л'); i > 0}, где случайная величина л, задает число поступивших заявок за промежуток [т,, т, + 1). Таким образом, цели и методы преобразования потока { т i ; i > 1} здесь совершенно отличаются от известных из литературы [4, 5]. В работе [1] в случае появления в потоке групп большого размера впервые предложены и подробно изучены три следующих способа разбиения потока { т i; i > 1} или получения маркированного точечного процесса {(т,, л і); i > 0}.
Перрый спвсвб. Предположим, что первая заявка поступает в систему в момент т' =0. В этом так называемом синхронном случае случайные величины т0, т1, ... определяются соотношениями вида
т, = Xk , ki + 1 = inf{k: k > ki , тk - тk-1 > h0},
k0 = 1, h0 = const > 0, и т1,т'2, ... — абсциссы точек разрыва исходного случайного процесса {л(0: t > 0} или моменты поступления заявок в систему. Если множество {k: k > kі , т'k - тk-1 > h0} = 0 при некотором i > 0, то полагаем т, + 1 = +<». Итак, этот алгоритм так выбирает случайные точки т0, т1, ... на оси времени, что каждому промежутку [т,, т, + 1) со-
ответствует ,-я случайная величина "Лг = ^ + 1 - ^ или величина г-й транспортной пачки для потока машин. Случайная величина "Пг всегда определяет количество требований на промежутке [тг, т, + 1). При этом произвольный ,-й момент т, совпадает с некоторым моментом т\ разрыва
считающего случайного процесса {"л(0: 1 > 0}, а интервалы между любыми двумя последовательными требованиями из г-й группы строго меньше величины ^, т.е. требования условно объединяются в группы (пачки) по принципу близости моментов их поступления. Наконец, интервал между моментом поступления последнего требования из г-й группы и моментом поступления первого требования пачки с номером г + 1 не меньше величины ^. Этот интервал будем называть интервалом между двумя последовательными пачками.
Втврвй спвсвб. Пусть теперь момент т первого поступления требования удовлетворяет условию т1 ^ 0 . В этом так называемом асинхронном случае предлагается второй способ разбиения первоначального потока {т,; г > 1} на группы. Согласно этому способу будем определять случайные величины т0, Т1, ... равенствами т, = т'^ , ^ = inf{k: k > 1, тk+1 - т\ > ho} + 1,
Ь + 1 = inf{k: k > ^ , т'к - т > ho}.
При втором алгоритме выбора точечного процесса {тг; г > 0} сначала идет поиск момента т0 = т ^ поступления такого требования, за которым впервые последует группа требований. При г > 1 каждый следующий момент т, выбирается так, что интерал времени между моментом тг поступления первого требования из г-й группы и моментом тг-1 поступления первого требования пачки с номером (г - 1) будет не меньше заданной величины ^. Этот способ выделения первых требований в группе следует применять в случае интенсивного входного потока { т,; г > 1}. Итак, требования в потоке условно объединяются в пачки (группы) не только по принципу близости моментов их поступления, но и с учетом более детального поиска первого требования в каждой из групп.
Третий спвсвб. При каждом с = 0,1,... обозначим через т (с) = {т (с); г > 0} определяемый ниже поток случайных точек на оси времени [0, да), которые связаны определенным образом с некоторыми моментами поступления требований в
систему. Предполагаем, что моменты т (с), г > 0, этого потока совпадают с некоторыми точками разрыва исходного считающего случайного
процесса {"л(0: t > 0}. Тогда имеем т(с) = х 'к ,
кс, i е {1, 2, ...}. Пусть величина "п/с) = кс, , + 1 - kc, t задает число поступивших требований на про-
г (с) (с) ч и . и
межутке [т i ,т:+1) и является величиной i-й
группы потока вида {(т(с) ,п(с)); i > 0}. Величи-
5 (с) f f 1
i = х к - х к - 1 определяет времен-
C,i+1 C,i+1
ной интервал между последовательными группами с номерами i и i + 1 исходного считающего процесса {"n(t): t > 0} при его новом нелокальном описании в виде последовательности {(т ,(с),п,(с)); i > 0}. Тогда элементы т(с), с > 0, i > 0, потоков {(т(с), п(с)); i > 0} будем строить с помощью рекуррентных соотношений следующего вида:
к0, i+1 = inf {к: к > к), i, т'к - тк-1 > А0},
sc = min {inf{к: к > 0, пкс) - d,
Пк^ = d + 1, 5кс) < h1}, inf{k: к > 0, пкс) - d, пк+1 - d, 5кс) < h2}};
х(с+1) = при - sc ,
' [х(с) при i > sc.
В этих формулах к00 = 1, d — некоторое натуральное число и постоянные величины h0, hj, h2 удовлетворяют условию h0 < hj < h2 . При третьем алгоритме выбора точечного процесса {хг- ; i > 0} сначала происходит разбиение исходного точечного процесса {т \; i > 1} первым способом с целью получения маркированного точечного процесса {(т(0), n(0)); i > 0} нулевого уровня. Далее, последовательно, начиная с нулевой пачки "П0(0), объединяются первые две соседние группы в одном из следующих случаев:
а) если предыдущая пачка содержит не более d заявок, последующая включает ровно d + 1 требование, и одновременно интервал между такими группами строго меньше величины h1;
б) если предыдущая и последующая группа содержат каждая не более d требований, и интервалы между ними строго меньше величины h2. Это позволяет найти маркированный точечный процесс {(т(1), n(1)); i > 0} первого уровня, к которому применяем ту же самую процедуру, что и к маркированному точечному процессу {(т(0) ,П(0)); i > 0}. В результате получаем маркированный точечный процесс {(т(2), п(2)); i > 0} второго уровня и т.д. Легко видеть, что множество {ю: Нтс^шт(с) существует} совпадает с достоверным событием Q для любого i > 0. Отсюда вытекает, что для любого i > 0 можно опре-
делить случайную величину т, = Нтс^ да т(с). При таком алгоритме выбора потока {(т,, л,); г > 0} имеем: т, = т 'к , = к, + 1 - к, для всех г > 0.
Используя один из предложенных способов и подбирая соответствующим образом параметры h0, hl, h2 и d, как правило, удается построить последовательности {т, - т, - 1; г > 1} и {л,; , > 0}, каждая из которых составлена из независимых и одинаково распределенных случайных величин. Для проверки гипотезы о независимости и одинаковом распределении указанных случайных величин, которые соответствуют различным реальным задачам, применялось четыре критерия. Приведем схему применения этих критериев на примере случайных величин X, = т, - т, - 1, г > 1.
Перрый критерий. Фазово-частотный критерий Валлиса и Мура [6], основанный на статистике
^(п,ХьХ2, ...,Хп) =
= (Т (п XX X) 2п - 7 )
= (Т 1(n, X1, X2, ..., Хп)----) I = .
3 д/16п - 29
Здесь п - объем повторной выборки (Х1, Х2, ..., Хп), а Т1(п, Х1, Х2, ..., Хп) — так называемое случайное число фаз. Значение случайной величины Т1(п, Х1, Х2, ..., Хп) определяется по выборочным значениям х1, х2, ..., хп случайных интервалов Х1, Х2, ..., Хп следующим образом. Для всех г = 1, 2, ... , п - 1 вычисляется знак разности х, + 1 - хг. Нулевые значения разностей не учитываются. Последовательность одинаковых знаков называют фазой. Далее вычисляют суммарное число плюсовых и минусовых фаз, причем начальная и конечная фазы исключаются. Тогда значение случайной величины Т1(п, Х1, Х2, ..., Хп) равно такому суммарному числу. В случае справедливости выдвинутой гипотезы последовательность случайных величин ^(п, Х1, Х2, ..., Хп); п > 30} сходится по распределению к стандартному нормальному закону. Согласно фазово-частотному критерию выдвинутую гипотезу следует отвергать, если наблюдаемое значение 21(п, х1, х2, ..., хп) случайной величины 21(п, Х1, Х2, ..., Хп) удовлетворяет условию: | 21(п, х1, х2, ..., хп) | > Са. Пороговое значение Са определяется при заданном уровне значимости а по интегральной функции распределения Ф(х) стандартной нормальной случайной величины из условия: Ф(-Са) = а/2.
Второй критерий. Инверсионный критерий [7] базируется на статистике
Та(щ,Х1,Хг, ...,Хп) =
: (Л(п,Х1,Х2, ...,Хп) - )-
6
Здесь Л(п, Х1, Х2, ..., Хп) — случайное число инверсий для выборки Х1, Х2, ..., Хп, которое определяем следующим способом. Строим вариационный ряд Х(1) < Х(2) < ... < Х(п) для исходной выборки (Х1, Х2, ..., Хп). Пусть Л,(п, Х1, Х2, ... , Хп) есть случайное число элементов множества {X, + 1, X, + 2, ..., Хп}, которые стоят в вариационном ряду левее элементаХг. Тогда
Л(п,Х1,Х2, ...,Хп) = Л1(п,Х1,Х2, ...,Хп) +
+ Хь X2, ..., Хп) + Лп - 1(n, X1, X2, ..., Хп)
определяет общее число инверсий для выборки (Х1, Х2, ..., Хп). Предлагаемая во втором критерии статистика в условиях выдвинутой гипотезы при п ^ да распределена по стандартному нормальному закону. Согласно инверсионному критерию выдвинутую гипотезу следует отвергать, если значение 22(п, х1, х2, ..., хп) статистики 22(п, Х1, Х2, ..., Хп) удовлетворяет неравенству: №, х1, х2, ..., хп)| > Са.
Третий критерий. Критерий серий, основанный на медиане выборки [8], устроен следующим образом. Сначала определяем выборочное значение хтеа(п, х1, х2, ..., хп) медианы как средний член значения (х(1), х(2), ..., х(п)) вариационного ряда (Х(1), Х(2), ..., Х(п)), т.е. хтеё(п, х1, х2, ..., хп) = х((п + 1)/2), если п нечетно, и хтеа(п, х1, х2, ..., хп) = (х (п/2) + х((п+ 2)/2))/2, если п четно. Затем вместо каждого х, ставим плюс, если х, > хтеа(п, х1, х2, ..., хп), и минус, если х, < хтеё(п, х1, х2, ..., хп). Члены выборки, равные хтеа(п, х1, х2, ..., хп), не учитываются. В результате получаем последовательность из плюсов и минусов. Под серией понимается последовательность подряд идущих плюсов или подряд идущих минусов. Под протяженностью серии понимается количество знаков, составляющих серию. Последовательность из всех плюсов и минусов характеризуется общим числом серий Т(п, х1, х2, ..., хп) и протяженностью Д(п, х1, х2, ..., хп) самой длинной серии. Гипотеза о независимости исходных результатов наблюдения отвергается, если нарушается хотя бы одно из двух неравенств
Т(п, х1, х2, ..., хп) > (п + 1 - 1.96(п - 1)1/2)/2, Д(п, х1, х2, ..., хп) < 3.3 X ^(п + 1).
При этом вероятность ошибки заключена между 0.05 и 0.0975.
Четрертый критерий. Фазово-частотный критерий с учетом длин фаз [8]. Как и в критерии Валлиса и Мура, вычисляем количество фаз Т2(п, Х1, Х2, ..., Хп). При этом начальная и конечная фазы также учитываются. Далее определяем протяженность или количество Д(п, х1, х2, ... , хп) знаков в самой длинной фазе (серии). На уровне значимости 0.05 << а < 0.0975 выдвинутая гипотеза отвергается, если нарушается хотя бы одно из двух неравенств:
3/2
п
V V V ъг Л^2п - 1 л/16п - 29
ХЬ X2, ..., Хп) > ---- - 196------Т=----,
3 790
Д(п, х1, х2, ..., хп) < С0,а.
Значение порога С0 а равно 5 при п < 26, равно 6 при 26 < п < 153 и, наконец, равно 7, если 153 < п < 1170.
Применение в работе [1] критерия хи-квадрат [9] для обработки различных конкретных статистических данных об интервалах т, + 1 - т,, г > 0, указывает на хорошую согласованность распределения каждого из этих интервалов с распределением вида Р({ю: т, + 1 - т, < ?}) = 1 - ехр{-(1 - h)/ст}, 1 > к;
Р({га: т, + 1 - т, < ?}) = 0, 1 < h.
Это распределение является смещенным экспоненциальным распределением с параметрами h > 0 и ст > 0. При этом неизвестные параметры h и ст оценивались видоизмененным методом минимума хи-квадрат [9]. Пусть множество возможных значений случайной величины X, + 1 = т, + 1 - т, разбито на 5 непересекающихся частей
Gl = [0, а),
G2 = [а, а + Ъ),..., Gs _ 1 = [а + (5 -3)Ъ, а + (5 - 2)Ъ), Gs = [а + (5 - 2)Ъ, да), при этом 5 << п, а > тт{хь х2, ..., хп}, Ъ > 0. Если гипотеза об экспоненциальном распределении случайной величины Хг верна, то легко находим следующие вероятности:
Р1 = р1(Н, ст) =
= Р({ю: 0 <X, < а}) = 1 - ехр{-(а - h)/ст};
Рк = Pk(h, ст) =
=Р({ю: а + (к - 2)Ъ < X,- < а + (к - 1)Ъ}) = =(ехр{(2 - к)Ъ/ст} - ехр{(1 - к)Ъ/ст}) х х ехр{-(а - h)/ст}, к = 2, 3, ..., 5 - 1;
Р5 = р*(к, ст) = Р({ю: X, > а + (к- 2)Ъ}) =
= ехр{-(5 - 2)Ъ/ст} ехр{-(а - h)/ст}.
Неизвестные параметры h и ст оцениваем
статистиками h ист соответственно. Эти статистики определяем из решения следующей системы трансцендентных уравнений
ехр{(а - h )/ст } = п/(п - и^),
ехр{Ъ/ст} = (]Г(к - 1)^к - и)/]Г(к - 2)^к, (1) к=2 к=2
которые непосредственно получены из хорошо известных [9] соотношений
]Гр;‘иЭрк/ дк = 0, ]Гр;‘иЭрк/ Эо = 0. (2)
к=1 к=1
Величина ик при каждом 1 < к < 5 определяет число выборочных значений х1, х2, ..., хп, которые принадлежат множеству Gk. Первое уравнение системы (1) всегда разрешимо относительно статистики ст при естественном ограни-
чении 0 < к < тіп{хі, х2, ..., х„} на статистику
к . Этот факт существенно был использован при выводе второго уравнения системы (1) из равенств (2). Система (1) имеет единственное решение
(
ст = Ъ /
1п(Х!(к - 1м,к - щ) - 1п(Х(к - 2)щ)
Л
к = а - Ъ1п(п/(п - щ1))/11п(^(к-1)щк - щ) -
- 1п(£ (к - 2)щ)
В результате применения одного из способов разбиения первоначального входного потока получаем при каждом фиксированном , > 0 как случайный момент тг = т к поступления в систему первого требования в г-й группе, так и случайное число л, требований в этой группе. Проверка гипотезы о независимости и одинаковом распределении случайных величин л,, г > 0, проводилась с применением первого, второго или четвертого критерия по той же схеме, что и для случайных величин т, + 1 - т,, г > 0. Третий критерий, предназначенный только для анализа непрерывных распределений, в случае статистического анализа последовательности {л,; , >
> 0}, естественно, не был использован. Компьютерный анализ реальных данных о потоках показывает [1], что натуральные случайные величины л,, , > 0, являются независимыми в совокупности и, как правило, имеют одно и то же распределение
Р(к л, = 1}) = 1 - ^,
Р({ю: л, = г}) = §(1 -//г 2, г > 2, 0 < § ,/< 1, с параметрами § и / Это распределение было введено в работе [2] и названо распределением Бартлетта. Видоизмененным методом минимума хи-квадрат [9] с использованием уравнений, которые аналогичны уравнениям (2), для неизвестных параметров § и /в работе [1] были получены следующие оценки ~ и / :
~ = (п + 1 - щ)п~1,
/ иъ + 2и 4 + 3и5 +... + (у — 2)иу и2 + 2иъ + 3и4 +... + (у — 2)иу В этих оценках при фиксированном значении к = 1, ...., V - 1 величина ик определяет количество таких элементов в наблюдаемой выборке у0, у1, ..., уп случайных величин л0, "Пь ..., лп, каждый из которых равен к. Число выбранных разрядов для значений л, есть V. Наконец, величина иу определяет число элементов в этой выборке, каждый из которых не менее V. При этом имеет место равенство и1 + и2 + ... + иу = п + 1.
Если транспортный поток или поток требований другой физической природы имеет тенденцию к образованию группы небольшого размера, то здесь предлагается использовать разбиение входного потока { т i; i > 1} с помощью следующего способа.
Четвертый способ. Пусть при фиксированном с = 0,1,... моменты т(с), i > 0, на оси времени [0, да) совпадают с некоторыми моментами т i , i > 1, поступления требований в систему.
Другими словами, моменты т(с), i > 0, совпадают с некоторыми точками разрыва исходного считающего случайного процесса {"л(0: t > 0}, т.е. т(с) = х'к , кс, j е{1, 2, ...}. Тогда при каждом с
> 0 величина п,(с) = кс, i + i - кс, i задает число поступивших требований на промежутке [т(с),
(с)
т;+1) первоначального потока и является величиной i-й группы виртуального потока {(т(с), П(с)); i > 0}. Величина 5(с) = х 'к - х' -1
с,'+1 кс,1+1
определяет временной интервал между последовательными группами с номерами i и i +1 исходного входного потока {'n(t): t > 0} при его нелокальном описании в виде последовательности {(т(с) ,п(с)); i > 0}. Тогда при каждом фиксированном с > 0 элементы т(с), i > 0, потока
{(т,(с),п,(с)); i> 0} будем строить с помощью рекуррентных соотношений вида:
к0, i+1 = inf {к: к > к0, i, т'к - т'к-1 > h0},
Sc = inf{k: к > 0, пкс) - d, пк+1 - d,
5кс) < h1, пкс) = пй},
х(с+1) = при i - *с ,
‘ |гс при i > S .
В этих формулах п-1 = 1 при каждом с > 0,
к00 = 1, d — некоторое натуральное число и постоянные величины h0, h1 удовлетворяют условию h0 < h1.
При четвертом алгоритме выбор окончательного точечного процесса {хг-; i > 0} осуществляется в несколько этапов. Сначала, подбирая постоянную величину h0 специальным образом, проводим разбиение исходного точечного процесса { т i; i > 1} первым способом с целью получения маркированного точечного процесса {(т(0),п(0)); i > 0} нулевого уровня. Если в реальном потоке могут образовываться группы (пачки) небольшого размера, то величина h0 « « min{x1, x2, ..., x„}. Например, если в реальном
потоке число требований в группе (пачке) не может быть больше двух, то h0 - min{x1, x2, ..., x„}. Далее, к полученному маркированному точечному процессу {(т(0),п,(0)); i > 0} нулевого
уровня применяем следующую процедуру: по-
(0)
следовательно, начиная с нулевой пачки п0 , объединяем первые две соседние группы, если предыдущая группа пкс) и последующая группа пк- содержат каждая не более d требований, интервалы между ними строго меньше величины h1, и, наконец, выполняется равенство пк-1 = = пкс). Это позволяет найти маркированный точечный процесс {(т(1),п(1)); i > 0} первого уровня, к которому применяем ту же самую процедуру, что и к маркированному точечному процессу {(т(0) ,п,(0)); i > 0}. В результате получаем маркированный точечный процесс {(т ,(2),п,(2)); i > 0} второго уровня и т.д. Легко видеть, что множество {ю: Нтс^ш т(с) существует} = = Q для любого i > 0. Теперь для любого i > 0 определим случайную величину хг- = Нтс^ш т(с). При таком алгоритме выбора потока {(хг-, "Лг); i > 0} имеем: Xj = х 'к , Лг = к + 1 - к для всех i > 0.
Список литературы
1. Fedotkin A.M., Fedotkin M.A. Model for Refusals of Elements of a Controlling System // Transactions of the first French-Russian Conference on «Longevity, Aging and Degradation Models in Reliability, Public Health, Medicine and Biology, LAD 2004», St. Petersburg State Politechnical University, Saint Petersburg, 2004. Vol. 2. Р. 136-151.
2. Федоткин М.А. Неполное описание потоков неоднородных требований // В кн.: Теория массового обслуживания. М.: МГУ, ВНИИСИ, 1981. С. 113-118.
3. Федоткин М.А. Процессы обслуживания и управляющие системы // Математические вопросы кибернетики. М.: Наука, 1996. Вып. 6. С. 51-70.
4. Гнеденко Б.В., Коваленко И.Н. Введение в теорию массового обслуживания. 3-е изд., испр. и дополн. М.: Ком Книга, 2005. 400 с.
5. Климов Г.П. Стохастические системы обслуживания. М.: Наука, 1966. 244 с.
6. Закс Л. Статистическое оценивание. М.: Статистика, 1976. 600 с.
7. Ивченко Г.И., Медведев Ю.И. Математическая статистика. М.: Высшая школа, 1984. 248 с.
8. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 472 с.
9. Крамер Г. Математические методы статистики. М.: Мир, 1975. 648 с.
NON-LOCAL DESCRIPTION OF NONUNIFORM REQUEST INPUT FLOWS
A.M. Fedotkin
A non-local description of nonuniform request flows is considered. The effectiveness of such an approach has been shown by the examples of flow descriptions of nonuniform requests having different physical nature [1]. This way of description can be successfully applied to complex flows, when the intervals between successive arrivals of requests are dependent and have different distributions. The simplicity and efficiency of this flow description depends on the choice of a strobe point process of the form {t,; i > 0}. A software package has been developed which allows one to verify the theoretical assumptions of the nonlocal description and to apply the proposed formal methods of statistical analysis of nonuniform request input flows to the processing of observational data on real flows.
Keywords: random process, finite-dimensional distributions, marked point process, Bartlett distribution.