Научная статья на тему 'Сравнительный анализ методов оценки стационарности самоподобных процессов'

Сравнительный анализ методов оценки стационарности самоподобных процессов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
469
169
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелухин О. И., Осин А. В., Невструев И. А., Урьев Г. А.

Проведен сравнительный анализ трех наиболее распространенных методов оценки стационарности самоподобных случайных последовательностей;. на примере фрактального гауссовского шума показано, что методы серий и инверсий позволяют правильно идентифицировать стационарность самоподобных процессов с заданной доверительной вероятностью; произведена оценка стационарности и самоподобности мультиплексированных цифровых речевых потоков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Comparative study of the evaluation techniques for self-similar processes stationarity

In this paper we perform comparative study of the most popular evaluation techniques for self-similar processes stationarity. Fractional Gaussian noise is used as example and for it we show that with given significance level the run and inversion tests allow to reveal self-similar processes stationarity. Stationarity and self-similarity evaluation of the multiplexed speech traffic is performed..

Текст научной работы на тему «Сравнительный анализ методов оценки стационарности самоподобных процессов»

УДК 693.548.58

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОЦЕНКИ СТАЦИОНАРНОСТИ САМОПОДОБНЫХ ПРОЦЕССОВ

О.И. Шелухин, А.В. Осин, И.А. Невструев, Г.А. Урьев

Проведен сравнительный анализ трех наиболее распространенных методов оценки стационарности самоподобных случайных последовательностей;. на примере фрактального гауссовского шума показано, что методы серий и инверсий позволяют правильно идентифицировать стационарность самоподобных процессов с заданной доверительной вероятностью; произведена оценка стационарности и самоподобности мультиплексированных цифровых речевых потоков.

In this paper we perform comparative study of the most popular evaluation techniques for self-similar processes sta-tionarity. Fractional Gaussian noise is used as example and for it we show that with given significance level the run and inversion tests allow to reveal self-similar processes stationarity. Stationarity and self-similarity evaluation of the multiplexed speech traffic is performed..

Постановка задачи. Наиболее простой способ проверки стационарности случайных процессов заключается в оценке их статистических характеристик. Если основные статистические характеристики, определяющие процесс х(ґ), - плотность распределения вероятностей (ПРВ) w(x), математическое ожидание т, и дисперсия а2 - не зависят от времени, то можно полагать процесс стационарным. На практике такие простые соображения, позволяющие проверить справедливость гипотезы о стационарности, обычно отсутствуют. В подобных случаях эта гипотеза должна быть проверена путем анализа имеющихся реализаций конечной длительности. Способы проверки могут быть различными - от визуального просмотра реализаций опытным специалистом до детального статистического оценивания различных параметров процесса. Длина реализации должна быть настолько большой, чтобы можно было разделить нестационарный тренд и низкочастотные случайные колебания.

Помимо этих допущений, удобно (но не обязательно) предположить, что любые представляющие интерес нестационарные свойства процесса полностью описываются медленными изменениями во времени среднего квадрата процесса. Окончательная проверка реализаций на наличие трендов может быть выполнена различными способами.

Особую проблему представляет тестирование случайных процессов на самоподобность. Проблема заключается в конечном наборе данных, когда невозможно проверить, является трасса трафика самоподобной по определению или нет. Поэтому в реальном измеренном трафике исследуются различные свойства самоподобности и долговременной зави-

симости. Однако установление самоподобности только путем обнаружения ее свойств может быть ошибочным.

К подобным свойствам могут приводить некоторые нестационарные процессы. Это означает, что пульсирующий трафик может быть вызван как долговременной зависимостью, так и нестационарно-стью наблюдаемого процесса. Без какого-либо обоснования при помощи строгих статистических тестов на стационарность во многих случаях можно корректно говорить только о пульсирующей структуре трафика на заданном масштабе времени для заданного набора данных.

Наибольшее распространение при оценке стационарности самоподобных процессов получил метод с использованием коэффициента стационарности (WSS - Wide Sense Stationary). Однако, как отмечается в работе [1], его использование в ряде случаев дает неверные результаты.

Если известно выборочное распределение оценок основных статистических параметров распределения, то можно использовать для решения данной задачи критерий серий, или критерий инверсий [6].

Современные исследования показывают, что самоподобность может возникать в результате объединения множества отдельных, хотя и сильно изменчивых ON/OFF-источников [3,4,5]. Другими словами, наложение множества ON/OFF-источников дает самоподобный объединенный сетевой трафик, стремящийся к фрактальному броуновскому движению.

Проведем сравнительный анализ перечисленных методов на примере оценки стационарности речевых мультиплексированных последовательностей [2].

Коэффициент стационарности в широком смысле ^88)

Известно, что для стационарных в широком смысле процессов их среднее значение т и дисперсия о2 неизменны на всей области существования. Однако в действительности проверка этого положения на конечной выборке (например, видео данные) затруднена. Поэтому статистические характеристики, такие как среднее значение и дисперсия, обычно определяются в виде

N

м (х )=I1 & •

Л к=1

1 N

— (х )=^ТГ - м (х ))2.

(1)

и имеет t -распределение Стьюдента с и = 2 N — 2 степенями свободы.

Статистический тест на равенство дисперсий называемый Е -тестом, выражается формулой

'2

(2)

Е=1 ■

Ра =

=|1 апёе |т|<t„,.| е Еи1,и2,1—а <Е<Еи1,„2,^,

(3)

[0 е1 а^-а,

где Т - и Е - тесты выполняются на блоках / и у ;

t а - процентные точки ДФР для ^распределения

и,~2

и Еи и 1— а и Е^ ^ а - процентные точки ДФР для Е-распределения.

Тогда коэффициент стационарности в широком смысле может быть определен как

—1) ^=1 а?+\

(4)

Если общее число сегментов в наборе данных - —, то

(5)

к=1

Рассмотрим набор данных, разделенный на 8 независимых сегментов, каждый из которых имеет длину N . Если выборочное среднее значение каждого сегмента обозначить как mi, а дисперсию

как ст2, / = 1,2,...,8, то можно проверить равенство средних значений и дисперсий между любыми двумя блоками / и у .

Статистический тест на равенство средних значений, называемый также т -тестом, имеет вид

В результате, например для теста равенств средних значений (1) и теста равенств дисперсий (2), можно выбрать доверительный интервал 95%. Таким образом, даже для стационарных данных можно ожидать 5% ошибок тестов для среднего значения (дисперсии). Так как эти тесты независимы, в худшем случае 10% из всех тестов на стационарность будут ошибочными для стационарных данных, поэтому можно ожидать, что коэффициент WN для стационарных данных будет как

минимум равен 0,9. Использование критерия WSS для случая ФГШ с различными показателями Херста Н, а также для процесса с Гауссовским распределением и мультиплексированных потоков показан на рис. 1.

и имеет Е -распределение с и1 = N — 1 и

и2 = N — 1 степенями свободы.

Введем в рассмотрение индикаторную функцию

Рис. 1. Зависимость коэффициента стационарности WSS от размера блока усреднения: а - ФГШ, для различного показателя Херста Н; б - процесса с Гауссовским распределением и речевого трафика, полученного путем мультиплексирования п потоков

Видно, что хотя все анализируемые последовательности априорно являлись стационарными и отличались только показателем Херста Н, лишь в случае Н=0,5 метод WSS дал верные результаты.

В этом случае значение WSS колеблется вблизи 1 (Н=0,5 соответствует случаю гауссовской последовательности с независимыми значениями). При H > 0,5 значение WSS не превышает 0,4, что свидетельствует о нестационарности исследуемой последовательности.

Очевидно, это вызвано сильными корреляционными связями исследуемой последовательности

- долговременной зависимостью процесса. Аналогичные результаты наблюдаются при анализе мультиплексированного речевого трафика, полученного на выходе речевого кодера.

Таким образом, метод WSS при анализе стационарности самоподобных процессов может давать неверные результаты.

из двух взаимно исключающих классов, которые можно обозначить как (+) или (—).

В качестве примера рассмотрим последовательность одновременных измерений двух случайных величин х и у (/ = 1,2, ...,И), где каждое наблюдение — это хI > у (+) или хг < уI (—). В результате образуется последовательность, вид которой представлен на рис. 2.

Число серий, появившихся в последователь-

ь+ .. ++++--------++-- +.........++++

Непараметрические критерии

Рассмотрим следующую последовательность действий для проверки стационарности случайного процесса по отдельной его реализации х(().

1. Реализация разделяется на N равных интервалов, причем наблюдения в различных интервалах полагаются независимыми.

2. Вычисляются оценки среднего квадрата (или отдельно средних значений и дисперсий) для каждого интервала, и эти оценки располагаются в порядке возрастания номера интервала:

2 2 2 2

х1 , х2 , х3 , к , хN.

3. Эта последовательность оценок среднего квадрата проверяется на наличие тренда или других изменений во времени, которые не могут быть объяснены только выборочной изменчивостью оценок.

Окончательная проверка реализаций на наличие трендов может быть выполнена различными способами. Если известно выборочное распределение оценок, то можно воспользоваться статистическими критериями. Однако знание выборочного распределения оценок среднего квадрата требует знания частотной структуры процесса. Обычно при проверке стационарности эти сведения отсутствуют. Поэтому более желательно применение непараметрических критериев, при использовании которых не требуется знать выборочные распределения оценок. Два таких непараметрических критерия, которыми можно воспользоваться для решения данной задачи — это критерий серий и критерий инверсий. Последний представляет собой более мощное средство для обнаружения монотонных трендов в данных наблюдений. Критерий инверсий может быть непосредственно использован для проверки гипотезы о стационарности.

Критерий серий. Рассмотрим последовательность N наблюдаемых значений случайной величины х, причем каждое наблюдение отнесено к одному

Рис. 2. Пример распределения инверсий для случайного процесса

ности наблюдений, позволяет выяснить, являются ли отдельные результаты независимыми наблюдениями одной и той же случайной величины. Если последовательность N наблюдений состоит из независимых исходов одной и той же случайной величины, т. е. если вероятность отдельных исходов ((+) или (—)) не меняется от наблюдения к наблюдению, то выборочное распределение числа серий в последовательности является случайной величиной г со средним значением

Мг =

2NlN2 1

---+1

N

(6)

(7)

и дисперсией

_ 2 = 2 N N 2 (2 N N 2 — N) г N2 (— 1) .

Здесь N1 — число исходов (+); N2 — число исходов (—).

В частном случае N1 = N2 = N/2 выражение (6) принимает вид

Мг

=N+1.

2

В [6] приводятся 100а-процентные точки функции распределения числа серий, по которым можно с заданной достоверностью оценить стационарность наблюдаемых последовательностей. С этой целью для проверки гипотезы с любым требуемым уровнем значимости а надо сравнить наблюдаемое число серий с границами области

и гп.

где

принятия гипотезы, равными гп;1—а/2 и <па/2:

N=N/2.

Если число серий окажется вне этой области, то гипотеза должна быть отвергнута с уровнем значимости а. В противном случае гипотезу можно принять.

Использование критерия серий для случая ФГШ с различными значениями показателя Хер-

ста Н показаны на рис.3. Видно, что в отличие от критерия WSS метод серий правильно идентифицирует стационарность самоподобного процесса. Аналогичные результаты, полученные для речевых мультиплексированных потоков показаны на рис. 4. Видно, что в случае одного речевого источника гипотеза о стационарности отвергается.

Это совпадает с известными результатами о не-стационарности случайной последовательности на выходе речевого кодера. В случае десяти источников оценочная кривая лежит на границе доверительной области. В случае ста мультиплексированных источников гипотеза о стационарности речевого трафика принимается.

^ 2

Рис. 3. Оценка стационарности ФГШ с различным показателем Херста Н методом серий по дисперсии (ст ) и математическому ожиданию (т) блоков данных размером п в выборке длиной N

\\

!\

А

I

Рис. 4. Оценка стационарности мультиплексированных потоков методом серий по дисперсии (ст ) и математическому ожиданию (т) блоков данных размером п в выборке длиной N

ООО

Рис. 6. Оценка стационарности мультиплексированных потоков методом инверсий по дисперсии (ст ) и математическому ожиданию (т) блоков данных размеромп в выборке длиной N

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Критерий инверсий.* Рассмотрим последовательность из N наблюдений случайной величины х, обозначенных х1 (г = 1, 2, ..., Ы). Подсчитаем теперь, сколько раз в последовательности имеют место неравенства хг > х^ при г < / Каждое такое неравенство называется инверсией. Обозначим через А общее число инверсий.

Формально порядок вычисления А следующий. Определим для множества наблюдений х\, х2, ■■■, хN величины

Г1, х > х ,■,

нч =

Тогда

х; < х

Н= 0.5

1-Ю3

N — 1

} = - + 1

Например,

N

Л =£h,;, Л2 =Yh2j, A3 =Yh

1=2 1=3 1=4

Если последовательность из N наблюдений состоит из независимых исходов одной и той же случайной величины, то число инверсий является случайной величиной А со средним значением и дисперсией

N N-1)

Мл =

4

2N3 + 3N2 - 5N = N(2N + 5)(.N -1)

(8)

(9)

72 72

В [6] приводятся 100а-процентные точки функции распределения для А.

Критерий инверсий явялется более мощным по сравнению с критерием серий при обнаружении монотонного тренда в последовательности наблюдений. Однако он не столь эффективен при выявлении тренда типа флуктуаций.

Результаты применения критерия серий для случая ФГШ с различными показателями Херста показан на рис. 5. Из представленных результатов видно, что метод серий правильно идентифицирует стационарность тестовой самоподобной последовательности в виде ФГШ.

Результаты по оценке стационарности мультиплексированных речевых последовательностей представлены на рис.6. Видно, что как и в методе инверсий, гипотеза о стационарности одиночной речевой последовательности отвергается, особенно при малых N.

Таким образом проведенный сравнительный анализ показал, что метод WSS при анализе стационарности самоподобных процессов может давать неверные результаты.

Методом WSS можно определить различие между независимыми и одинаково распределенными данными с долговременной зависимостью, однако с помощью него нельзя уловить различие между нестационарными и самоподобными данными.

В отличие от критерия WSS методы, использующие критерии серий и инверсий позволяют правильно идентифицировать стационарность самоподобных процессов с заданной доверительной вероятностью.

Критерий инверсий явялется более мощным по сравнению с критерием серий при обнаружении монотонного тренда в последовательности наблюдений. Однако не столь эффективен при выявлении тренда типа флуктуаций.

Могут быть предложены и другие тесты по оценке стационарности, однако все они не могут объективно показать, являются ли, например, видеоданные стационарными или самоподобными, однако они подтверждают, что самоподобные модели могут быть использованы для генерирования данных.

Для тестирования стационарности и различия между долговременной зависимостью и нестацио-нарностью разработаны соответствующие методики. Однако применение этих тестов не так легко на практике. Более того, такие тесты редко поддерживают полученные с их помощью результаты с высокой надежностью.

ЛИТЕРАТУРА

1. Шелухин О.И., Тенякшев А.М., Осин А.В. Фрактальные процессы в телекоммуникациях /Под ред.

О.И. Шелухина. - М.: Радиотехника, 2003.

2. Шелухин О.И., Тенякшев А.М., Осин А.В. Моделирование информационных систем /Под ред.

О.И. Шелухина. - М.: САЙНС-ПРЕСС, 2005.

3. Шелухин О.И. Самоподобные процессы и их применение в телекоммуникациях. - Теоретические и прикладные проблемы сервиса, 2002, №3(4), с. 62-71.

4. Park. K., Willinger W, Self-Similar Network Traffic and Performance Evaluation, John Wiley & Sons, 2000.

5. Шелухин О.И. Фрактальные (самоподобные) процессы и их применение в телекоммуникациях. - Нелинейный мир, 2004, т.2., №1, с.24-36.

6. Бендат Дж., Пирсол А., Прикладной анализ случайных данных. Пер. с англ. - М.: Мир, 1989.

Дата поступления: 01.11.2005

i Надоели баннеры? Вы всегда можете отключить рекламу.