Научная статья на тему 'Изучение свойств ранговых аналогов F-критерия Фишера при отклонениях от гауссовской модели дисперсионного анализа'

Изучение свойств ранговых аналогов F-критерия Фишера при отклонениях от гауссовской модели дисперсионного анализа Текст научной статьи по специальности «Математика»

CC BY
599
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАНГОВЫЕ КРИТЕРИИ / ДИСПЕРСИОННЫЙ АНАЛИЗ / НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ / RANK CRITERIA / ANALYSIS OF VARIANCE / NONPARAMETRIC MODELS

Аннотация научной статьи по математике, автор научной работы — Шуленин Валерий Петрович, Табольжин Владимир Вячеславович

Проводится сравнение характеристик F-критерия Фишера, Н-критерия Краскела Уоллиса и L-критерия Пейджа в рамках различных супермоделей, описывающих отклонения от классической гауссовской модели дисперсионного анализа. Сравнение проводится как при конечных объемах выборки методом статистического моделирования, так и в асимптотике путем вычисления относительной эффективности Питмена.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF THE PROPERTIES OF THE RANK ANALOGUES F-TEST FISHER FOR DIFFERENT MODELS IN THE ANALYSIS OF VARIANCE

Small sample performance of the F-test Fisher, H-test Kruskal -Wallis and L-test Page are considered for different models in the analysis of variance. Asymptotic relative efficiency of tests is calculated for different models.

Текст научной работы на тему «Изучение свойств ранговых аналогов F-критерия Фишера при отклонениях от гауссовской модели дисперсионного анализа»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2008 Управление, вычислительная техника и информатика № 1(2)

УДК 519.24

В.П. Шуленин, В.В. Табольжин

ИЗУЧЕНИЕ СВОЙСТВ РАНГОВЫХ АНАЛОГОВ Р-КРИТЕРИЯ ФИШЕРА ПРИ ОТКЛОНЕНИЯХ ОТ ГАУССОВСКОЙ МОДЕЛИ ДИСПЕРСИОННОГО АНАЛИЗА

Проводится сравнение характеристик F-критерия Фишера, Н-критерия Краскела - Уоллиса и L-критерия Пейджа в рамках различных супермоделей, описывающих отклонения от классической гауссовской модели дисперсионного анализа. Сравнение проводится как при конечных объемах выборки методом статистического моделирования, так и в асимптотике путем вычисления относительной эффективности Питмена.

Ключевые слова: ранговые критерии, дисперсионный анализ, непараметрические модели.

Пусть объекты изучаемой совокупности (или популяции) Ж характеризуются некоторым результирующим показателем X. В соответствии с факторным признаком А, который может принимать к значений Аь...,Аь вся совокупность Ж разбивается на к групп Жь...,Жк (или к подпопуляций Ж1,.,Жк популяции Ж). Статистическими данными являются наблюденные реализации х11хп1х1кх„кк

к выборок Х1кХп^к из совокупностей Жь...,Жк с непрерыв-

ными распределениями изучаемого показателя X. Исходные данные кратко записываются в виде [Ху],у = 1,__,к, г = 1,...,Иу , они получены в результате пу на-

блюдений за результирующим показателем X при каждом фиксированном у-м уровне Ау, у = 1,...,к, фактора А. Рассмотрим различные модели наблюдений.

1. Гауссовская модель

Предполагается, что исходные данные [Ху], г = 1,-■■,«/, У = 1,---,к, представляют собой выборку, полученную в результате п независимых наблюдений над показателем X из к нормальных совокупностей Ж,...,Жк со средними значениями

2 2 2 2

ццк и с равными, но неизвестными дисперсиями С) = а2 = ••• = ак = а . Эту модель наблюдений называют нормальной (или гауссовской) моделью 1 однофакторного дисперсионного анализа с фиксированными эффектами. Для удобства дальнейших ссылок выделим в явном виде и пронумеруем все предположения этой модели наблюдений:

X/ = Н/ + £/•, г = 1,-,П] , у = 1,...,к , п = (щ + ••• + пк), (1)

где

а) ц7- = М(X | А = Aj), у = 1,..., к , постоянные величины,

б) Егу - независимые случайные величины,

в) Еу - нормальные случайные величины, т.е. Ь(&у) = N(0; а2),

г) дисперсии совокупностей Жь...,Жк равны неизвестному параметру о2, то

2 2 2 2 есть С) = а2 = • • • = ак = а .

В рамках этой модели требуется убедиться в том, что изменение фактора А не влияет на итоговый показатель X. На статистическом языке эта задача сводится к проверке статистической однородности наблюдаемых данных {Ху}, і = 1,—,Пу ,

І = 1,...,к, которая кратко записывается в виде проверки гипотез:

Н0 : ц1 = ц2 = ••• = Ик = И, Н : не все цу равны , у = 1,...,к . (2)

Эти гипотезы проверяются с помощью F-критерия Фишера (см., например, [1]), основанного на статистике Г = Б'В / ^ , где и Б^ средние квадраты соответ-

ственно между и внутри групп Ж\,...,Щ, вычисляемые по формулам

В 1 к - _ 2

Бгв = ^ /(к -1) = — Е П] (X., - X.. )2 ,

к -1 ]=1

9 1 к «у _ 2

4 = /(И - к) =---- ЕЕ {Ху- Х.у )2 .

П - к у=1 г=1

Статистика Г = Б'В / Б^ при гипотезе Я0 имеет F-распределение Фишера с числами степеней свободы (к -1) и (п - к), то есть справедливо выражение

1{Р = Б2В / БІ | Н0} = Г(к -1, п - к). (3)

Критическая область размера а находится справа от квантиля Г-а (к -1, п - к) уровня (1 -а) для F-рaспределения с числами степеней свободы (к - 1) и (п - к).

2. Непараметрическая модель с произвольными альтернативами

На практике предположения нормальности наблюдений не всегда могут быть обоснованы. В таких случаях рассматривают более общие модели наблюдений и предполагают, что {Ху}, і = 1,—,Пу , 7 = 1,—,к, являются независимыми случайными величинами, которые одинаково распределены лишь при фиксированном у-м уровне Ау , у = 1,...,к, фактора А, то есть ХуXу является выборкой из

условной функции распределения Гу (х) = Р{Хгу < х | А = Ау}, у = 1,..., к, V/ е (1,...,Пу). Отметим, что Гу (х) является произвольным непрерывным распределением, функциональный характер которого не конкретизируется и изучение влияния фактора А на итоговый показатель X в условиях этой непараметрической модели сводится к проверке гипотез

Нд : Г= Г2 =... = Гк , И* : не все Гу равны, у = 1,..., к . (4)

Эти гипотезы проверяются с помощью Н-критерия Краскела - Уоллиса (см., например, [2, 3]), статистика которого вычисляется не по исходным наблюдениям {Ху}, а по их рангам {Лу} , і = 1,...,Пу, у = 1,...,к, по формуле

12 к _

н =-—т Е «у{Я.у -(« +1)/2}2 , (5)

п(п +1) у=1 7 7

где Я,у - средний ранг наблюденийу-й группы, у = 1,...,к . При больших объемах выборки Н-критерий определяется асимптотической критической областью раз-

мера а в виде неравенства Н > %1_а (к -1), где х2-а (к -1) обозначает квантиль уровня (1 - а) для хи-квадрат распределения с числом степеней свободы к - 1.

3. Непараметрическая модель с упорядоченными альтернативами сдвига

Часто на практике уровни Аь...,Ак фактора А отражают эффективность воздействия на показатель X в определенном направлении, например по мере увеличения интенсивности воздействия. В таких случаях рассматривают упорядоченные альтернативы. Предполагается, что XуХп,у - н.о.р. случайные величины

с произвольной непрерывной функцией распределения ¥(х-0у), у = 1,...,к, V/ ё (1,..., пу). Для изучения влияния фактора А на итоговый показатель X в условиях этой непараметрической модели проверяются гипотезы

Я0“ : 0! =02 =... = 0* , К : 01 — 02 *... — 0*, (6)

где хотя бы одно из неравенств строгое. Эти гипотезы также непараметрические, так как ¥(х -0у) - произвольная непрерывная функция распределения, и они

проверяются с помощью Ь-критерия Пейджа (см., например, [2, 3]), статистика которого вычисляется также не по исходным наблюдениям {Ху}, а по их рангам

{Щ}, * = 1, п] , У = 1,..., к, по формуле

1 к -Ь =— X {У - (к +1) / 2}{ Я.у - (пк +1)/2}. (7)

пк у=1

При больших объемах выборки Ь-критерий Пейджа определяется асимптотической критической областью размера а в виде неравенства

Ь > Х-а {(к2 - 1)(пк +1)/144п}172,

где А,1-а = Ф-1 (1 - а) и Ф-1 обозначает квантильную функцию стандартного нормального распределения Ф(х).

4. Рассматриваемые типы супермоделей

Понятие «супермодель» (см., например, [4]) используют при изучении свойств робастности статистических процедур. Существуют различные подходы к заданию супермоделей. При изучении робастности процедур по распределению, один из вариантов задания супермодели состоит в конкретизации семейств распределений, включающих «идеальное» распределение, в которое мы верим и выбираем его в качестве основы, а также распределения, которыми могут характеризоваться наблюдения в условиях реального эксперимента. Мы рассмотрим два типа супермоделей, предложенных Тьюки [6].

Первый тип содержит ^-аппроксимацию стандартных симметричных распределений и задается в виде семейства распределений путем конкретизации их квантильных функций, то есть в виде

3 (Г) = (Г: Г-1 (и) = Х1 + [иХз - (1 - и )^3 ]/Х2}, 0 < и < 1, (8)

где Х1 характеризует параметр положения, Х2 является масштабным параметром и Х3 - параметром формы распределения. Подходы к определению этих параметров

описаны в [7]. В семействе распределений (Г) мы выделим супермодель

(у2), которая описывает отклонения от нормального распределения по эксцессу у2 при следующих значениях эксцесса: 1,75, 3, 4, 5, 9. Отметим, что для нормального распределения эксцесс у2=3. Второе семейство (г) содержит

^-аппроксимацию распределений Стьюдента с числом степеней свободы г, принимающим следующие значения: 1, 5, 6, 7, 8, 9, 10, 25, 50, да. Отметим, что семейство распределений Стьюдента включает нормальное распределение (т^да) и распределение Коши (г=1). Это семейство является удобным для описания широкого класса распределений, упорядоченных по степени «тяжести их хвостов» (см., например, [4]).

Второй тип супермоделей содержит гауссовские распределения с масштабным засорением и определяется в виде

36>т (Ф) = (Г: ^ (х) = (1 -є)Ф(х) + єФ(х/т)}, 0 <є< 1/2 , т> 1. (9)

Отметим, что при є = 0, или при т = 1, имеем нормальное распределение Ф(х), х є Я1.

5. Сравнение критериев при конечных объемах выборки

В рамках описанных типов супермоделей приведем результаты сравнения характеристик F-критерия Фишера, Н-критерия Краскела - Уоллиса и Ь-критерия Пейджа. В качестве сравниваемых характеристик критериев используются их вероятности ошибок первого и второго рода. Изучение робастности F-критерия Фишера по уровню значимости при конечных объемах выборки проводится методом статистического моделирования, при этом исходные наблюдения {X/} вычисляются по формуле

Ху =\ + [и/3 - (1 - и )"3 ]/Х2, і = 1,..., П] , у = 1,..., к , (10)

где и у случайные величины с равномерным распределением в интервале [0,1]. Отметим, что ранговые статистики Н- и Ь-критериев имеют дискретные распределения, поэтому при сравнении критериев, которое проводилось при фиксированном уровне значимости а = 0,05, использовались асимптотические непрерывные аппроксимации их распределений при нулевой гипотезе. При этом в процессе моделирования проверялось качество этих аппроксимаций при различных объемах выборки путем построения оценок уровней значимости критериев по числу опытов М = 10 000. Отметим, что при моделировании использовались равные объемы выборок в группах Жь..., Жк, то есть щ = п2 =.. .= пк = п. Мощности критериев сравнивались при альтернативах сдвига вида (6), при этом параметр положения Х1 в (10) зависел от номера группы у и вычислялся по формуле ^1 (у) = (у -1)А, у = 1,...,к , где А > 0 - заданный параметр, характеризующий сдвиг распределений по группам Жь...,Жк. Результаты моделирования в виде оценок уровней значимости а критериев (при А = 0) и оценок мощностей критериев Ж(А) при различных значениях параметра А, полученные по числу опытов М = 10 000, при числе групп к = 5, приведены в табл. 1 для Г є (у2) и в табл. 2 для Г є (г). Результаты эксперимента для Г є 3Ё т (Ф) приведены в табл. 3.

Объем выбор- ки Парам. У2 = ЗХ2 = 0,1975 Хз = 0,1350 У2 = 4X2 = 0,0262^ = 0,0148 у2 = 5 Х2 = -0,0870 Х3 = -0,0443 Ъ = 9 Х2 = -0,3203 Х3 = -0,1359 у2=1,75 Х2 = 0,5943 Хз = 1,4501

А 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60

Р 0,051 0,093 0,283 0,601 0,872 0,051 0,107 0,300 0,622 0,870 0,046 0,102 0,300 0,622 0,871 0,045 0,103 0,323 0,642 0,862 0,051 0,093 0,273 0,585 0,879

п = 5 Н 0,038 0,069 0,221 0,517 0,813 0,038 0,081 0,257 0,564 0,828 0,036 0,083 0,269 0,587 0,847 0,036 0,091 0,317 0,651 0,864 0,033 0,068 0,194 0,459 0,771

Ь 0,053 0,265 0,644 0,912 0,991 0,051 0,288 0,680 0,930 0,993 0,053 0,302 0,708 0,935 0,992 0,051 0,328 0,757 0,955 0,995 0,052 0,256 0,610 0,889 0,989

Р 0,051 0,169 0,614 0,949 0,998 0,049 0,179 0,613 0,943 0,998 0,051 0,177 0,621 0,943 0,996 0,048 0,184 0,639 0,941 0,992 0,053 0,165 0,603 0,950 0,999

п= 10 н 0,045 0,152 0,569 0,930 0,997 0,041 0,170 0,608 0,942 0,999 0,045 0,179 0,649 0,955 0,998 0,046 0,209 0,720 0,973 0,999 0,044 0,144 0,517 0,897 0,996

ь 0,053 0,424 0,895 0,996 1,000 0,052 0,457 0,922 0,998 1,000 0,051 0,479 0,935 0,999 1,000 0,050 0,544 0,954 0,999 1,000 0,053 0,410 0,871 0,995 1,000

р 0,046 0,350 0,928 1,000 1,000 0,055 0,357 0,929 1,000 1,000 0,047 0,350 0,925 1,000 1,000 0,050 0,356 0,926 0,998 1,000 0,049 0,333 0,935 1,000 1,000

и = 20 н 0,045 0,324 0,914 0,999 1,000 0,051 0,366 0,941 1,000 1,000 0,044 0,386 0,954 1,000 1,000 0,048 0,443 0,977 1,000 1,000 0,045 0,306 0,892 0,999 1,000

ь 0,053 0,658 0,993 1,000 1,000 0,054 0,701 0,996 1,000 1,000 0,047 0,734 0,998 1,000 1,000 0,050 0,788 0,999 1,000 1,000 0,049 0,650 0,990 1,000 1,000

Таблица 2. Оценки уровня значимости и мощности Р-, Н- и Ь-критериев в условиях модели Тьюки - - семейство распределений Стьюдента

Объем выбор- ки Парам. г = 1 Х2 = -3,0674 Х3 = -1,000 г = 5 Х2 = -0,2480 Х3 = -0,1358 г = 9 Х2 = -0,0003 Х3 = -0,0002 г = 25 Х2= 0,1342 Х3 = 0,0892 г = да Х2 = 0,1975 Х3 = 0,1350

А 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60

Р 0,016 0,017 0,027 0,051 0,078 0,042 0,075 0,200 0,436 0,675 0,050 0,089 0,215 0,453 0,714 0,049 0,097 0,271 0,563 0,838 0,051 0,102 0,296 0,609 0,868

п = 5 Н 0,034 0,050 0,102 0,188 0,285 0,036 0,066 0,191 0,418 0,478 0,039 0,072 0,184 0,404 0,669 0,035 0,071 0,216 0,487 0,782 0,036 0,076 0,233 0,521 0,808

Ь 0,056 0,162 0,347 0,523 0,679 0,056 0,247 0,583 0,840 0,962 0,053 0,230 0,550 0,836 0,961 0,054 0,262 0,633 0,898 0,987 0,053 0,269 0,651 0,910 0,992

Р 0,015 0,024 0,032 0,048 0,082 0,044 0,126 0,412 0,767 0,845 0,049 0,130 0,450 0,818 0,975 0,054 0,168 0,564 0,922 0,996 0,053 0,175 0,615 0,946 0,999

п= 10 н 0,046 0,090 0,225 0,417 0,620 0,041 0,137 0,479 0,842 0,978 0,045 0,124 0,447 0,829 0,975 0,047 0,154 0,533 0,906 0,994 0,047 0,157 0,567 0,929 0,998

ь 0,051 0,242 0,539 0,787 0,914 0,052 0,377 0,842 0,984 1,000 0,052 0,366 0,807 0,980 1,000 0,054 0,417 0,886 0,993 1,000 0,052 0,427 0,898 0,996 1,000

р 0,015 0,018 0,032 0,052 0,087 0,049 0,219 0,736 0,976 0,999 0,050 0,242 0,792 0,990 1,000 0,055 0,316 0,905 0,999 1,000 0,052 0,342 0,935 1,000 1,000

и = 20 н 0,046 0,137 0,476 0,784 0,937 0,046 0,272 0,847 0,997 1,000 0,047 0,255 0,815 0,993 1,000 0,051 0,302 0,895 0,999 1,000 0,047 0,318 0,916 1,000 1,000

ь 0,049 0,368 0,790 0,962 0,995 0,05 0,604 0,982 1,000 1,000 0,051 0,569 0,976 1,000 1,000 0,052 0,645 0,991 1,000 1,000 0,048 0,659 0,993 1,000 1,000

Изучение свойств ранговых аналогов Р-нритерия Фишера

Таблица 3

Оценки уровня значимости и мощности Е- и И-критериев для ¥ е Зе т (Ф) , число групп к = 5 , число опытов М = 10000

Объем выборки А 8 = 0 , Т = 1 3 = Т 0, = 8

0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п = 20 Б 0,046 0,220 0,803 0,995 1,000 0,048 0,135 0,495 0,892 0,992

Н 0,045 0,203 0,775 0,993 1,000 0,047 0,169 0,639 0,971 1,000

Анализируя данные этих таблиц, можно сделать следующие выводы.

1. Эмпирический уровень значимости F-критерия обладает стабильностью при

отклонениях от гауссовской модели по эксцессу в рамках супермодели (у 2)

(см. табл.1). Однако F-критерий не обладает свойством робастности по уровню значимости в рамках супермодели (г). В частности, для распределений с «тяжелыми хвостами» (см. табл.2 при г = 1), вместо заданного уровня а = 0,005, эмпирический уровень значимости равен « 0,016 . При увеличении числа степеней свободы г «затянутость хвостов» распределений начинает приближаться к гауссовской и эмпирические уровни начинают проявлять стабильность в окрестности заданного уровня.

2. Асимптотическая аппроксимация точного распределения ранговой статистики Н-критерия Краскела - Уоллиса при нулевой гипотезе с помощью выражения Ь(Н | Н0) = %2 (к -1), является неудовлетворительной при малых объемах выборки. См., например, табл. 2 при п = 5 и любом числе степеней свободы, начиная с г = 1 и до г ^ ж. Вместо заданного уровня значимости а=0,005, эмпирический уровень значимости равен « 0,03 . При увеличении объемов выборки качество аппроксимации улучшается, и при п > 10 она уже является удовлетворительной для целей практики. Этот вывод сохраняется и для супермодели, описывающей отклонения от гауссовской модели по эксцессу, то есть для ¥ е (у2).

3. Для рассмотренных в эксперименте альтернатив и для гауссовской модели

наблюдений вида (1), F-критерий имеет незначительное преимущество в мощности перед Н-критерием. Однако при отклонениях от гауссовской модели, то есть в рамках супермоделей (Х2), (г) и 3ЁТ (Ф), ситуация меняется. Н-критерий

имеет преимущество в мощности по сравнению с F-критерием, причем оно проявляется в большей степени при «утяжелении хвостов распределений» и при увеличении объемов выборки. Для рассмотренных в эксперименте упорядоченных альтернатив, Ь-критерий Пейджа, как и ожидалось, имеет существенно большую мощность по сравнению с F и Н-критериями. Причем качество нормальной аппроксимации распределения ранговой статистики Ь при нулевой гипотезе вполне удовлетворительное и для малых объемов выборки, начиная с п = 5.

4. Проведенные эксперименты при числе групп к = 10, качественно не меняют эти выводы.

Отметим, что рассмотренные в предыдущих экспериментах супермодели

(X 2), (г) и 3Ё,Т (Ф), были использованы, в частности, для изучения робаст-

ности по распределению уровня значимости F-критерия. Эти супермодели описывают различные варианты отклонения от предположения нормальности (1в) гаус-

совской модели (1). Изучим теперь робастность уровня значимости F-критерия при отклонениях от предположения (1г) о равенстве дисперсий в группах ЖЬ...,ЖЬ оставив все остальные предположения гауссовской модели (1) верными. Для этого исходные наблюдения [Ху} будем вычислять по формуле (10), в которой ^ = 0, что обеспечивает справедливость предположения нулевой гипотезы (2), то есть Н0 : ц1 = ц2 = ••• = И* = И . Далее, коэффициенты Х2 и Х3 соответственно будут равны Х2 = 0,1975 и Х3 = 0,1350 , что обеспечивает выполнение предположения нормальности модели (1). Затем для нарушения предположения (1г) о равенстве дисперсий в группах Жь...,Жк, сделаем масштабный параметр Х2 зависящим от номера группы j, то есть Х2(у) = уХ2 , j=1,...,k. В результате исходные наблюдения [ Ху} вычисляются по формуле

Ху =Хх + [и/3 - (1 - и у )%3 ]/Х2 (у), / = 1,..., п] , у = 1,..., к . (11)

Результаты эксперимента приведены в табл. 4.

Таблица 4

Оценки уровня значимости F- и ^критериев в случае нарушения предположения о равенстве дисперсий

Тесты Количество уровней и объемы выборок

к = 5, п = 10 к = 10, п = 10 к = 5, п = 20 к = 10, п = 20

Б 0,102 0,137 0,095 0,136

И 0,063 0,067 0,067 0,072

Из табл. 4 видно, что при невыполнении предположения (1г) о равенстве дисперсий в гауссовской модели вида (1) уровень значимости F-критерия превышает заданный уровень а = 0,05 больше, чем в два раза. Причем уровень значимости F-критерия значительно возрастает с увеличением количества уровней факторного признака А. Отметим, что условия рассматриваемого эксперимента для Н-критерия соответствуют альтернативе И\ , так как дисперсии распределений в группах разные и, следовательно, не все ^}, j = 1,■■■,k, равны. Приведенные данные для Н-критерия превышают заданный уровень значимости а = 0,05, что является проявлением свойства «несмещенности» Н-критерия, так как эти данные характеризуют его мощность при рассмотренных альтернативах.

6. Асимптотическое сравнение критериев

В литературе разработаны различные подходы к асимптотическому сравнению критериев. Наиболее часто используют асимптотическую относительную эффективность Питмена (см. [2, 5]), которая вычисляется не для фиксированной альтернативы, а для последовательности контигуальных альтернатив, сходящихся к нулевой гипотезе при неограниченном увеличении объема выборки. Для многих непараметрических критериев получены общие выражения для эффективности Питмена по отношению к их «конкурентам» из нормальной теории. В частности, в [2] показано, что эффективность Питмена для Н-критерия Краскела - Уоллиса относительно F-критерия Фишера вычисляется по формуле

АКЕр (Н: Г) = 12а

= 12а у

| / (г -1 («)^«)

1_0

(12)

где а2 = П(X) и /(х) - плотность функции распределения Г(х) наблюдений

над показателем X. Отметим, что формула (12) имеет достаточно общий характер. По формуле (12) вычисляется также асимптотическая относительная эффективность Питмена для критерия знаковых рангов Уилкоксона и 1-критерия Стьюден-та в одновыборочном варианте и в двухвыборочном варианте для рангового критерия Уилкоксона и двухвыборочного 1-критерия Стьюдента [5]. Это замечание распространяется на относительную эффективность Питмена многих непараметрических критериев по отношению к их «конкурентам» нормальной теории (см., например, [3]).

Отметим, что плотность распределения вероятностей, выражаемая через кван-тильную функцию Г-1 (и) = Х1 + [иХз - (1 - и)^3 ]/ Х2, 0 < и < 1, которая определяет элементы множества (Г) вида (8), записывается в виде

/(Г-1 (и)) = 1/(Г-1 (и))7 = [Х3 (и^3-1 + (1 - и )"3 -1}/Х2 ]-1 , 0 < и < 1. (13)

Далее, можно убедиться, что для Г еЗ^ все центральные моменты = М (X - а)к нечетного порядка равны нулю и, следовательно, коэффициент асимметрии у1 = ц3 / ц^/2 = 0, а коэффициент эксцесса у2 = ц4 / ц2, вычисляется по формуле

_ц1 _ {1/(4Х3 +1) - 4Б(Х3 + 1,3Х3 +1)}

У 2 ^2 2[1 /(2Х3 +1) - Б( Х3 +1, Х3 +1)]2

+ ЪБ(2Хъ +1,2X3 +1) (14)

2[1 /(2Х3 +1) - Б(Х3 +1, Х3 +1)]2 ’

где В(х, у) обозначает бета-функцию. Кроме того, выражение для дисперсии имеет вид

о} = 2[1/(2Х3 +1) - Б(Х3 +1,Х3 +1)]/X2 . (15)

С учетом формул (13) и (15), выражение (12) для Г еЗ1 запишется в виде АЯЕр (Н : Г) = 24 [1 /(2Х3 +1) - Б(Х3 +1, Х3 +1)] х

х(|[Х3{ы%3-1 + (1 -м)Хзйы )2 . (16)

о

Численные расчеты показывают, что для Г е (X2) асимптотическая относительная эффективность Питмена Н-критерия относительно F-критерия при значениях эксцесса у2: 3, 4, 5, 9, 1,75 соответственно равна 0,954, 1,067, 1,167, 1,379, 1,066, а для семейства распределений Стьюдента Г е (г) при числе степеней свободы г: 5, 7, 25 и г она соответственно равна 1,382, 1,162, 0,993, 0,954. Эти результаты на качественном уровне хорошо согласуются с результатами моделирования.

2

2

Рассмотрим теперь гауссовскую модель с масштабным засорением вида (9), то есть предполагаем, что Г е 3Ё,Т (Ф). Отметим, что распределения Р (х) этого семейства характеризуются симметричными относительно нуля плотностями распределения вероятностей вида /Ё т (х) = (1 - б)ф(х) + (б / т)ф(б / т), где

ф(х) = (2п)~1/2 ехр{-х2 /2}, -да < х < да . Для Г е 3Ё,Т (Ф) имеем

ГО

Я/ = I х2А,т (х)^х = 1 + е(х2 -1) ,

-ГО

(1 -6)2 л/2 6(1 -6) б2

_ .1 I _ I -VI / <_• ■ I ____ I С'2

I /Ё,т (х)^х =■

^л(х2 +1) 2тл/я

С учетом этих выражений, из (12) получаем, что асимптотическая относительная эффективность Питмена Н-критерия относительно F-критерия для Г еЗЁ1 (Ф) вычисляется по формуле

ЛЯЕре т (Н: Г) = {3[1 + б(т2 -1)] / п} х

х{(1 -е)2 + 2^2 6(1 -б)/л/ т2 +1 +б2 / т}2 . (17)

Численные значения асимптотической относительной эффективности Питмена Н-критерия относительно F-критерия для гауссовской модели с масштабным засорением приведены в табл. 5.

Таблица 5

Эффективность Питмена ЛЯЕР (Н : Р) для Г еЗЁ1 (Ф)

т 8

0,00 0,01 0,03 0,05 0,08 0,10 0,15 0,20

3 0,955 1,009 1,108 1,196 1,309 1,373 1,497 1,575

5 0,955 1,150 1,505 1,814 2,201 2,412 2,795 3,006

7 0,955 1,369 2,115 2,759 3,553 3,977 4,724 5,099

Из приведенной таблицы следует, что Н-критерий Краскела - Уоллиса, проигрывая лишь 5% в эффективности оптимальному при гауссовском распределении F-критерию Фишера, обладает существенными преимуществами даже при небольших, трудно обнаруживаемых, отклонениях от гауссовской модели. Или, другими словами, можно сказать, что F-критерий Фишера теряет оптимальность очень быстро при переходе от нормальной модели к модели из ее окрестности, содержащей распределения с «более тяжелыми хвостами».

Таким образом, подводя итог, можно сказать, что при возможных отклонениях от предположений гауссовской модели наблюдений вида (1) в условиях реального эксперимента, предпочтение в выборе критерия следует отдать ранговому критерию Краскела - Уоллиса (или критерию Пейджа при упорядоченных альтернативах), а не классическому F-критерию Фишера.

ЛИТЕРАТУРА

1. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ: Пер. с англ. М.: Мир, 1982.

2. Хеттсманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987.

3. Холлендер М., Вулф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983.

4. Шуленин В.П. Введение в робастную статистику. Томск: Изд-во Том. ун-та, 1993.

5. Кендэлл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

6. Randles R.H., Wolf P.H. Introduction to the Theory of Nonparametric Statistics. N.Y.: Wiley, 1979.

7. Ramberg J.S. An approximation method for generation symmetric random variables // Com-mun. ACM. 1972. V. 15. P. 987 - 990.

Статья представлена кафедрой теоретической кибернетики факультета прикладной математики и кибернетики Томского государственного университета, поступила в научную редакцию 17 сентября 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.