УДК 519.234
А. В. Маер, В. А. Симахин
НЕПАРАМЕТРИЧЕСКИЕ ДАТЧИКИ ДЛЯ СЛУЧАЙНЫХ СТАЦИОНАРНЫХ ПРОЦЕССОВ
Рассмотрены алгоритмы непараметрических датчиков случайных стационарных процессов. На основе непараметрических алгоритмов прогноза находится интервал зависимости случайного процесса.
Ключевые слова: датчик, непараметрический, прогноз, процесс, моделирование.
Методы статистического имитационного моделирования нашли широкое распространение как в научных исследованиях, так и в технических приложениях. Именно с их помощью удается получить выводы при исследовании сложных систем, зависящих от большого числа случайных факторов (переменных, показателей, элементов). Особая роль при таких исследованиях отводится датчикам случайных величин, которые должны адекватно отражать суть физических явлений, характерных для случайных процессов, участвующих в исследовании. Определение функции распределения случайного процесса фактически определяет задание математической модели физического явления и тем самым определяет адекватность получаемых решений. Обычно, исходя из физических или интуитивных соображений, выбирают некоторое
стандартное распределение G( x(t), 9), а затем по обучающей выборке x1,..., xNоценивают неизвестный параметр 9 и проверяют по некоторым критериям адекватность параметрической модели, например, линейной авторегрессии (АР), скользящего среднего (МА), АРМА, ARCH, GARCH и т. д. - параметрический подход. Понятно, что при этом задается вид параметрической модели и распределение случайных помех. Построить датчик случайного процесса в данном случае не представляет трудностей. Но при параметрическом подходе имеется ряд трудноформализуемых моментов (например, выбор вида параметрической модели процесса и распределения G(x(t), 9), критерия адекватности, интервала зависимости и т. д.). Но необходимо понимать, что любая ошибка в задании априорной информации о виде модели и распределения G(x(t), 9) приводит к неизвестному смещению при окончательных выводах. Именно этот момент и вызывает значительный интерес к непараметрическому подходу, когда вид распределения F(x(t)) случайного процесса X(t) априори считается неизвестным. Действительно, выборка x1,..., xN в виде эмпирических функций распределения FN (x(t)) несет информацию
о неизвестном распределении F(x(t)) случайного
процесса X(t). Следовательно, возможно построение датчиков на основе непараметрических оценок Fn (x(t)). Такие датчики назовем непараметрическими. Интерес к непараметрическим датчикам случай-
ных величин в математической статистике особенно вырос с появлением такого статистического метода, как бутстреп [1], который получил широкое распространение [2]. Как известно, в математической статистике большинство результатов исследований носит асимптотический характер. Желание узнать свойства статистических процедур при конечных объемах выборки N с помощью метода статистических испытаний и породило бутстреп-метод [1]. В последние десятилетия исследования в области создания бутстреп-процедур сосредоточены на создании непараметрических датчиков случайных процессов [3; 4]. В рамках этого направления был предложен ряд непараметрических датчиков случайных процессов: блочный бутстреп, решетчатый бутстреп, локальный бутстреп. Но то, что хорошо для исследования статистических процедур в задачах математической статистики, в большинстве случаев не совсем приемлемо в задачах статистического моделирования, где требуются большие массивы случайных неповторяющихся чисел. При блочном бутстрепе нарушается структура статистической зависимости, решетчатый бутстреп - это фактически параметрический датчик, локальный бутстреп основан на непараметрической регрессии и создает датчик, имитирующий исходную выборку [3].
В данной работе рассмотрены основные принципы построения непараметрических датчиков случайных процессов на основе непараметрических оценок условных функций распределения.
Постановка задачи и алгоритм датчика. Пусть (х^ - стационарный в узком смысле случайный процесс, удовлетворяющий условию слабой зависимости [5] с функцией распределения F(x(t)). В реальных задачах бесконечномерная функция распределения F(x(t)) представляется в виде к-мерной Fk 0к) с конечным интервалом зависимости.
Пусть x1,...,xN - выборка из X^) с неизвестной
функцией распределения F(x(t)), X = (Хр...,Xk)Т -к-мерная случайная величина с функцией распределения ^ (4). Обозначим через Fj (^. / !]_1), . = 1, k условные функции распределения случайной величины
X, Fl(tl) = Fj(^ /^), . = 1, . = (^,..., .
Для построения непараметрических датчиков воспользуемся стандартным методом генерирования случайных векторов с помощью преобразования [6]
Ui = Fi( Xi);
U 2 = F2( X 21 Xi);
Uk = Fk (Xk I Xk-i).
Fn (tj I t-i) = j;
B
jN
jN
NhN- ,=i
к
N J A=i V "N
i і t - x
B» = Nhj-i sn K
JV/7N i=i X=i
к
2) вектор (t,n ^Х... Tw (tk I h-i))T
имеет асим-
(i)
Как известно [6], случайные величины и1,...,ик
будут независимы и равномерно распределены на [0; 1]. С помощью обратного преобразования системы (1) и получают датчики случайных векторов. Метод получения непараметрических датчиков заключается в следующем. Вместо неизвестных Fl(Xl),..., Fk (Хк / Хк_1) в систему (1) подставляются их непараметрические оценки Fш(Х1),..., FkN(Хк /Xk_1) и затем решается система типа (1). Для реализации данного метода необходимо выполнение следующих условий:
- оценки Fш(Х1),..., FkN(Хк /Хк_1) должны быть из класса непрерывных непараметрических оценок условных функций распределения;
- преобразование типа (1), где вместо неизвестных F1(X1),..., Fk(Хк /Хк_1) стоят их оценки F1N (Х1),..., FkN (Хк / Хк_1), должно также асимптотически приводить к независимым и равномерным в [0; 1] случайным величинам и„..., ик;
- так как решение системы типа (1) сводится к нахождению непараметрических оценок условных квантилей распределения FjN (X / Х._1), то необходимо, чтобы эти оценки сходились по вероятности к квантилям распределения Fj (X. / Xj_1).
Для этого воспользуемся непараметрическими оценками условных функций распределения [5]:
(2)
ГДе TjN (tj / tj_l ) = у]hN (j (tj / tj_l ) - Fj (tj / tj_l )),
j K2(u)du = Q <да, (т. е. асимптотически
FlN(tj),..., FkN(tk /tk-j) - независимы);
3) пусть §j квантиль уровня р условной функции распределения Fj (tj / tj-1), тогда §jN Pr > §^, где |jN - оценка условного квантиля, удовлетворяющего
уравнению FjN (§jn / tj-1) = P, 0 < P < 1.
Данные теоретические результаты и позволяют практически создавать алгоритмы непараметрических датчиков стационарных случайных процессов. Для этого необходимо использовать алгоритм стохастической аппроксимации нахождения корня уравнения FjN (tj / tj-1) = p одной переменной tj при фиксированном векторе tj-1. Рассмотрим алгоритм получения одного многомерного случайного числа x* = (х*,..., xk )T. Пусть u1,..., uk - равномерные на [0; 1] числа. Генерируем u1 и решаем уравнение F1N (xk) = u1 ^ xk = F1N1(u1). В результате получаем xk. Данный алгоритм давно используется для получения одномерных случайных чисел. Генерируем u2 и решаем уравнение F2N (xk / xk) = u2 ^ xk = F2N (u2 / xk),
генерируем
и решаем уравнение
^(хк/ хк_1)=ии ^ х* =р'т^к/ хк_1). На j такте ^об-ходимо решить уравнение FjN (х* / Х*^) = иотноси-
*
тельно Хк, при условии, что известно число
—»* / * * \ Т
х_ = (х1,..., х._1) вида
к,
N j-i
S П K
i=i Л=!
к
= u , j = 2,k. (З)
где КЛ - ядерные функции [6]; G(u) - симметричная функция распределения; ^ ^ 0, N • hkN ^ да, N ^ да.
При некоторых условиях регулярности на Fk(Хк), КЛ(и), hN, G(u) можно доказать [5]:
1) F0(t, /?м) ^(/. /Г,);
В результате, при заданном интервале зависимости к, мы получаем начальные значения хк,..., х*к случайного временного ряда. Для получения следующего значения хк+1при заданных хк,..., хк генерируем ик+1 и решаем уравнение
S G|і+р |ПK
Nk
S Пк
i=k+i X=i
к
= uh
(4)
птотически нормальное распределение с нулевым вектором средних и диагональной корреляционной матрицей
hJNа? = Qj • I_1 (?,-_1)F(^ /^)[1 _F(^ /Г,,)],
Алгоритмы (3), (4) зависят от выбора ядерных функций G(u), КЛ, параметра размытости hN, интервала зависимости к. Выбор ядерных функций G(u), КЛ и параметра размытости hN хорошо исследован в рамках непараметрической статистики (на-
u
k
*
хл - Хі-Л
h
N
ХЛ- Хі-Л
хл - Хі-Л
к
хл“ Хі-Л
пример, в [5]) и в рамках данной статьи не рассматривается. Выбор интервала зависимости к является достаточно критичным во всех бутстреп-процедурах генерации ге-выборок случайных процессов (длина блока в блочном бутстрепе, порядок АР-модели) и, несмотря на многочисленные исследования, остается достаточно субъективным. В данной работе предлагается алгоритм нахождения параметра к, основанный на непараметрических алгоритмах прогноза [7], который может быть использован в разных бутстреп-процедурах. Возьмем простой непараметрический алгоритм прогноза регрессионного типа [5; 7]. Алгоритм нахождения параметра к заключается в следующем. На основании первых значений ряда х1,..., ху,1 < Л < к делаем прогноз следующего значения XОбразуем квадрат невязок прогноза
N
Q( Л) = ^ (XЛ+1 - хі )2. Значение параметра к находим
і=Л+1
из условия минимума Q(Л) (для циклических гетеро-скедастических случайных процессов наблюдается минимум) или Q(Л) < I, где I задается пользователем.
Моделирование. Для теста возьмем случайный стационарный процесс
X(0 = ^4єт(^ + ф) + Ь -є,
где ф равномерная на [0; 2л] случайная величина; Ь - константа уровня помех; є - стандартная нормальная величина. Вначале определялся интервал зависимости к. На рис. 1, 2 приводятся зависимости Q( Л) (рис. 1. - без помех; рис. 2. - с помехой Ь = 0,1; N = 100), из которых следует, что интервал зависимости процесса без помех равен 2, с помехами - 5.
Рис. 1
Без помех: F1N (:) получается равномерным на [-1; 1]; F2N^ /^) получается двухточечным; F3N^ / tl, ^) вырождается в сингулярное. Моделировались и другие процессы, но наглядность, как в тестовом примере, существенно снижается.
Рис. 2
Таким образом, в работе предложен метод генерации случайных процессов, основанный на классической схеме генерации (3) с использованием непараметрических оценок условных функций распределения.
Предложен метод нахождения интервала зависимости на основе непараметрических оценок прогноза. Данный метод может быть использован в качестве блока адаптивной настройки в классических бутст-реп-процедурах (блочный бутстреп, локальный бутст-реп).
К недостаткам предложенного метода следует отнести большую вычислительную емкость. Хотя моделирование производилось на кластерах, требуется большая вычислительная производительность. Сейчас рассматривается реализация таких алгоритмов в ней-росетевом базисе.
Библиографические ссылки
1 . Эфрон Б. Нетрадиционные методы многомерного статистического анализа. М. : Финансы и статистика, 1998.
2. Davison A. C., Hinkley D. V. Bootstrap Methods and Their Application. Cambridge : Cambridge University Press, 1997.
3. Бюльман П. Бутстрап-схемы для временных рядов // Квантиль. 2007. № 3. С. 37-56.
4. Hardle W., Horovitz J., Kreiss J-P. Bootstrap methods for time series // International Statist. Review. 2003. № 71. P. 435-459.
5. Васильев В. А., Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. М. : Наука, 2004.
6. Ермаков С. М., Михайлов Г. А. Курс статистического моделирования. М. : Наука, 1976.
7. Simakhin V. A. Nonparametric Robust Prediction Algorithms // Book of Abstracts of the International Symposium on Stochastic Models in Reliability Engineering, Life Science and Operations managemen. Beer Sheva, 2010. P. 204-218.
A. V. Mayer, V. A. Simakhin
NONPARAMETRIC SENSORS FOR STOHASTIC STATIONARY PROCESS
In the article we consider an algorithm of nonparametric generator's building for stohastic stationary process. Dependency interval of stochastic process is determined with the help of nonparametric algorithms ofprognosis.
Keywords: generator, nonparametric, prognosis, process, modeling.
© Маер А. В., Симахин В. А., 2010
УДК 519.224:330.46
А. А. Новоселов
ПОСТРОЕНИЕ МНОГОМЕРНЫХ ДИСКРЕТНЫХ РАСПРЕДЕЛЕНИЙ С ЗАДАННОЙ КОРРЕЛЯЦИОННОЙ СТРУКТУРОЙ
Рассмотрены методы воспроизведения многомерного дискретного распределения с заданной корреляционной структурой и маргинальными распределениями. Для воспроизведения используются смеси базовых распределений и решение некоторых оптимизационных задач.
Ключевые слова: дискретное распределение, корреляция, копула, смесь.
Пусть заданы нормальные распределения со средними значениями ц1, ..., и стандартными отклонениями с1, ..., сй. Для произвольной корреляционной матрицы R существует единственное многомерное нормальное распределение, обладающее такими маргинальными распределениями и корреляционной матрицей. Хорошо известный алгоритм воспроизведения соответствующего случайного вектора X = (Хь..., Х^) основан на факторизации ковариационной матрицы.
Обозначим
(г
Л =
0
0 0
диагональную матрицу со стандартными отклонениями на диагонали, тогда С = ЛКЛ является ковариационной матрицей распределения вектора X. Будучи неотрицательно определенной и симметричной, ковариационная матрица С может быть представлена в виде
С = ЛЛ (1)
с некоторой матрицей Л, причем последняя определяется не одним образом. Примерами такого представления являются разложение Холецкого и ортогональное разложение.
При наличии разложения (1) вектор X воспроизводится из стандартного нормального случайного вектора I по формуле
X = Л’1. (2)
Действительно, для I справедливо Е11’ = I, где I -единичная матрица соответствующего размера, поэтому EXX' = Е(Л'ИЛ) = Л'(ЕИГ)Л = ЛЛ = С, так
что X обладает требуемой ковариационной структурой.
В случае, когда компоненты X имеют фиксированные дискретные распределения, аналогичный метод оказывается неприменимым. Во-первых, заданным маргинальным распределениям и ковариационной матрице соответствуют, вообще говоря, многие многомерные дискретные распределения. Может оказаться и так, что подходящее многомерное распределение не существует.
Во-вторых, алгоритм вращения (2) не сохраняет дискретную решетку значений, на которой задано распределение.
В работах [1; 2] анонсированы методы воспроизведения двумерного дискретного распределения с заданными маргинальными распределениями и корреляцией, основанные на смесях некоторых базовых распределений и минимизации уклонения от независимого распределения. В настоящей работе предлагается обоснование этих методов.
Описание двумерного дискретного распределения. Пусть размерность й = 2. Обозначим К = {1,...,т} х {1,...,п}. Дискретное распределение вектора X = X2)' задается на прямоугольной сетке
значений {х1Ь..., х1т}х{х21,..., х2п} в виде PX1 = хи; X2 = х2р) = гр, (/', р) е К. Обозначим совместное распределение компонент вектора X:
Г = {Гр, (/', р) е К}. (3)
Здесь Р^1 = хи) = р, I = 1,...,т и Р^2 = Х2р) = qj,
р = \,...,п, так что векторы
р = (р1,...,рт), q = (^,..^п) (4)
описывают маргинальные распределения компонент.
0
а
2