П.Ф. Тарасенко
ПРОВЕРКА ЛИНЕЙНЫХ ГИПОТЕЗ НА ОСНОВЕ ИНДИКАТОРНЫХ ПРИЗНАКОВ
В рамках линейной модели независимых наблюдений предлагается и исследуется метод проверки линейных гипотез для ситуации, когда о распределениях случайных аддитивных погрешностей известно только, что они имеют общие квантили заданных уровней, известные с точностью до параметров. В частном случае такого рода априорная информация позволяет описывать неизвестный масштаб распределений погрешностей с помощью интерквантильного размаха. Приводятся тесты для проверки однородности выборок, основанные на индикаторах остатков.
Возможности построения статистических процедур во многом определяются имеющейся априорной информацией о стохастической составляющей обрабатываемых данных. В работе рассматривается класс квантильных априорных предположений о случайных погрешностях измерений. Они формулируются в виде суждений о квантилях распределения шумов, которые могут быть известны с точностью до параметров.
С одной стороны, такое описание априорной информации адекватно в ряде практических применений, например, при обработке результатов физических экспериментов и статистических обследований. При изучении зависимостей кван-тильная априорная информация приводит к описанию прогнозов в терминах квантилей условных распределений.
С другой стороны, знание квантилей с точностью до параметров слабее параметрического задания формы распределения. Такая информация оставляет задачу на непараметрическом уровне неопределенности. В то же время имеется возможность описывать неизвестный масштаб распределения с помощью интер-квантильного размаха, известного с точностью до параметра.
Дадим формальное описание квантильной априорной информации. Пусть, для определенности, _ скалярные
количественные наблюдения, полученные в рамках линейной модели с аддитивными, случайными и независимыми погрешностями 8Ь...,8И. Модель наблюдений опишем позднее, а пока сосредоточимся на модели той априорной информации
о распределениях погрешностей, с учетом которой мы собираемся строить статистические выводы. Пусть _ ф.р. с.в. 8,
и известно, что они могут различаться, но имеют общие квантили заданных уровней, известные с точностью до параметров. Иными словами, существуют векторы параметров ц,, при которых
Р,(ек + акц) = Ць к = 1,..., К-1, г=1,..., п, (1) где 0 < д1 <. < дК_1< 1, С1<.. .< сК_1 - известные величины, ц,
- М-мерный вектор неизвестных параметров, обычно имеющих смысл масштаба распределения, а векторы ак описывают способ параметризации. При этом допустимыми являются значения параметров
ц, е{ц :с + ^ц <... < Ск-1 + аКчц}. (2)
Считая ф.р. непрерывной, ц0=0, цк = 1 и с0= - ю, сК = ю, обозначим через рк = цк _ Цк_1 вероятности интервалов Ск (ц,) = (ск_1 + ^к-1ц, ск + а'кц) , а также введем векторы р=(р1,...рк)', с=(сь...,ск-1)' и матрицу Б=(аь...,ак_1). Тогда вектор границ интервалов примет вид с + Б'ц,, а класс ф.р.,
удовлетворяющих при фиксированном ц, априорным условиям (1), можно обозначить через РКМ (с + Б' ц,, р) . Поскольку вектор параметров ц, неизвестен, то априорная информация состоит в том, что при известных с, Б и р выполняется
6 {р : РкМ (с + -’ р)= ц 6 МКМ (С Б) }
где Мк,м(с, Б) _ множество допустимых параметров, определенное в (2).
В качестве основных примеров будем рассматривать и далее ссылаться на следующие ситуации.
Пример 1. Если требуется описать масштаб шумов с помощью интерквантильного размаха уровня р, то достаточно
положить К = 3, М = 1, с = (_с, с)', Б = (_1, 1)' и р=(р, 1_2р, р)', где постоянные с > 0 и р 6 (0,У2) известны. Здесь МКм(с, Б) = = (_с, ю) и предполагается, что середина интерквантильного интервала находится в нуле.
Пример 2. Если дополнительно известна медиана распределения шумов, то полагаем К = 4, М = 1, с = ( _ с, 0, с)', Б = = (_1, 0, 1)', р =(р, '/2_р, '/2_р, р)' при заданных постоянных с>0 и рб(0,У2).
Пример 3. Еще с одним классом задач [1_3], который известен как квантильная регрессия, связан случай, когда К = 2, М = 0, с = 0, р = (р, 1-р)'. Здесь единственная общая для всех шумов квантиль известна, поэтому отсутствуют параметры априорного разбиения.
Пример 4. В частном случае, если у распределения шумов общая медиана, то К = 2, М = 0, с = 0, р = (У2, 72)'. Этот класс задач рассматривается, например, в знаковом анализе [4].
Задачи проверки гипотез и оценивания параметров линейной модели наблюдений в условиях сформулированной выше модели шумов рассматривались ранее в [5_7]. В данной работе строятся и исследуются процедуры проверки линейных гипотез в рамках линейной модели наблюдений.
ПОСТАНОВКА ЗАДАЧИ
Рассмотрим линейную модель наблюдений
г, = х;е, +8,., , = 1,.,п, (3)
которая описывает статистическую зависимость наблюдений У = (7ь...,7п)' от неизвестных параметров 01= (01г-,. ,9Т,)', независимых случайных погрешностей измерений 8 = (8Ь...,8п)' и матрицы плана X, образованной столбцами Хь...,Хп. При этом для векторных параметров 01,..., 0п заданы линейные ограничения-равенства. Например, в задачах с двумя внутренне однородными выборками объемов к и п_к имеем 0, =... = 0к, 0к+1 =... = вя.
Будем рассматривать случай, когда о распределениях величин 8, (ф.р. Р) известно только, что
Р,6 РКМ (с + Б'ц, ’ р)’ (4)
причем векторы ц, 6МкДс, Б) неизвестны, но могут быть априори линейно связаны. Например, если две выборки объемов к и п-к могут различаются по масштабу шумов, то ц =...=цк, цк+1 =...=цп .
В общем случае объединенный вектор параметров ц, и 0, априори принадлежит некоторому линейному подпространству Ь, dimL= т < п (Т+М), а линейная гипотеза выдвигается относительно принадлежности объединенного вектора некоторому подпространству Ь0сЬ. Обозначим через Ь и Ь0 соответственно матрицы базисных векторов-строк пространств Ь и Ь0, и пусть их размерности равны
dimL = т х п(Т+М), dimL0 = т0 х п(Т+М).
Пусть линейное подпространство Ь1 есть некоторое дополнение Ь0 до Ь и Ь1 _ матрица его базисных векторов-строк, dimL1 = (т_т0) х п(Т+М). Тогда, если иметь
в виду очевидные обозначения для блоков введенных матриц, то пространство L можно параметризовать
= L0U® + L11iT , Мч = L02i® + L12iT , i = 1,---,n, а линейная гипотеза и ее альтернатива примут вид
Н0: т = О, H1: т Ф 0. (5)
Введенная модель пригодна для описания линейных гипотез относительно параметров, однако чаще используется более удобный и общий способ выдвижения линейных гипотез об откликах Yb...,Yn, а не о параметрах 0,-. Это приводит к модели
Y = L1,œ + J'i,.т + е,., i = 1,...n (6)
Fit ркm (c+(L2iD),ra+(J2iD),T,p),
причем L '2tw + J '2it eïK>M(c, D), расширенный вектор
наблюдений Z=(Yb...,Yn,p.'b..., ц'п)' априори принадлежит некоторому линейному пространству L, dimL = m< < n(1+M), линейная гипотеза есть ZeLocL, матрица L = (L1b..., L1n, L21,..., L2n) составлена из базисных векторов-строк пространства L0, dimL О = m0 < m, J=(J1b..., J1n, J21,..., J2n) - базисная матрица пространства L1, дополняющего L0 до L. В конкретных постановках задач матрицы A и L базисных векторов-строк пространств L и L0 определяются содержательным смыслом. При этом базис J в L1 не обязательно ортогонален L, способ его выбора, который будет определен позднее, диктуется стремлением обеспечить желательные свойства теста для проверки линейных гипотез вида (5) по наблюдениям Y.
СИНТЕЗ ТЕСТА
Будем строить статистические выводы на основе фактов (индикаторов) принадлежности остатков модели (6) множествам априорного разбиения. Для этого перейдем от остатков к их индикаторам
Si = Si (œ0, тО) = s(Yi — L1iœ0 — J1iТО , L2iœ0 — J 2iтО) ,
где индикаторная функция s(u, цО) принимает значение к, если иеСк(цо)=(с—(ц<)), Ск(цо)), где ск (^) = ck + dк^о - гипотетическая квантиль уровня qk для распределений шумов. В предположении, что ф.р. Fi непрерывны, запишем правдоподобие P{s | ю, т} индикаторных признаков s = (s1,., sn)':
P{s(raо,то) | ю,т} = ПП=1 P{Si(юо,то) | ю,т},
где
P{si (œо, то) = к 1 œт} =
= Fi (ck (Ц i (œ о, т о)) - L1i(œ - ®о) - J1i(т - т о) 1 Ц i (œт)) -- Fi (ск-1(Цi(œо, то)) - L1i(œ - œo) - J1i(т - то) 1 Цi (œ т)) (юО, т О)=L'2ira + J'2i т О, обозначение Р(х|ц,) не означает, что Fi известна с точностью до параметров ц, а только подчеркивает, что она принадлежит классу FKm (c+D'^i,p), т.е. выполняется (4). Однако можно
рассматривать производные Fi(x|^i) по ц на произвольно параметризованном семействе альтернативных распределений, на котором р(х|ц,) становится непрерывной функцией переменных х и ц. Такое параметризованное семейство будем называть траекторией альтернативных распределений и обозначать его через FK, M, i(c, D, p). Пусть на такой траектории Fi(x|^i) дифференцируема по х, ц и имеет непрерывную плотность /(хЩ) в окре-
стностях точек (х,ц,)=(ск(ц,),ц,,). Благодаря (4), для всех таких траекторий производные правдоподобия по параметрам ш и т в гипотетической точке одинаковы:
(ю0, т 0)!“ = ю 0, т=Т 0} =
где
=_P{si (ю0,т 0)|ю 0,т 0} ^ J J Щ*(ю 0,т 0)),
К(я) = (ЯМ),...,Я^п ),К2(^1),...,К2(^Я))',
Ъ(к)=[и _ /к_1]/Гк,
и 2(к)=[а / _ а к _/ _1]/рк,
./i,k=/i(ck( ц,)! ц,). Это позволяет строить статистические выводы на основе градиента отношения правдоподобия
V
(ю,т)
P{Si (ю 0,т о)|ю,т> P{Si (ю 0,т 0)|ю 0,т 0 >
ю=ю0
т=тс
=-l JI К(я(ю0,т0)). (7)
Для этого, прежде всего, наборы неизвестных величин Щ={Я/1),..., Щ(К)} следует заменить наборами Б,={Б/1),..., БК)}, которые называются метками. Часто Б) удается выбрать пропорциональными Щ, полностью сохранив смысл метода максимального отношения правдоподобия. В противном случае метки Б)■ трактуются как полученные в результате априорных догадок о величинах /.. После такой замены должно выполняться свойство 'YK=\Бj (к)рк = 0.
-dк=1“ j
Обозначим моменты меток через d12 =Xk=1B12(k) p Ч~ ^i=iB 2 (к )В2(к ) Рк , C = Хк=1^1 W"2 W Ук
,к=1^1 V'V Ук
»2 =Ек=1В2(к)В2(к)рк , С=Хк=1А(к)В2(к)рк .
Процедура проверки линейной гипотезы (5) будет состоять из двух шагов. На первом шаге, в предположении, что гипотеза выполняется, получим оценки параметров ш. На втором шаге, заменив истинное значение ш полученной оценкой, проверим гипотезу (5). Если на обоих этапах использовать принцип максимума отношения правдоподобия (7), то полученная процедура запишется в виде.
Юп = а^тшВпК,0)Ь'W1nLBп(ю0,0); (8)
«0бО
В'п (ю п ,0)JW2nJBп (юп ,0) >гг , (9)
где статистика Вп(ю0,т0)=В(«(ю0,т0)) определена как
В(5)=п-т(вм),...,в^п),в2(^1),...,В2(^п)) ', Wln и W2n образуют последовательности положительно определен-н^1х и невырожденных (в том числе в пределе) матриц, О _ множество допустимых значений параметров, т.е.
0={ю:Ь2,Ю6МКм(с,Б),,=1,...,п} .
В качестве ^ можно взять квантиль уровня у предельного распределения с.в. В '(s)J'W2nJB(s) или использовать квантиль точного распределения этой с.в., которую можно получить методом Монте-Карло, если иметь в виду, что Р{^',=к}=рк . В нормированном варианте W2n = (ЛУв J ' )_1, где
f d12I n ЄіС' enC
Vb = var{B n (0,0)>= Ce'j D2 0
Cen V n 0 D2
In = (5,.,. : i, j = 1,...,n) = (e1,...,en) - единичная матрица, e, = (5j : i = 1,...,n). В этом случае можно положить
*1 = Fm-mc(1 ГДе ^»-»0 - ф.Р. С.®. XL* . ЕСЛи До"
полнительно положить W1„=(LVBL')-1 Wjn = (lv, l')-1 и выбирать параметризацию альтернатив из условия LVJ' = 0, то целевая функция в (8) также будет нормирована, и имеет место представление
BJW^JB я = B'n A'W2b AB „ - B'„L'W2„LB„, (10)
т.к. пространства, определяемые базисами L(V,/2)' и J(Vf)' ортогональны, а слагаемые в (10) задают проекции вектора (V,2 )'Bn на них и на их прямую сумму. Благодаря (10), можно выражать статистику критерия (9) через матрицы А и L (которые определяются содержательной постановкой задачи), минуя явное вычисление матрицы J:
е) Существуют L0, 50 > 0 такие, что при всех raeQ,
юи = argmin q B(ra„|L), qП(« JJ) =qП(« JA)-q2„(«B|L)>ty ,
(11)
Hn. т=т„є {т:
для
которых Lю| +1 Il'2,.dl <50
выполняется
|т|| < ап 13 } р> ^ГЦ. (12)
Сформулируем теорему о равномерной линейности индикаторных статистик, исследуем асимптотический уровень значимости индикаторного критерия и его асимптотическую мощность при близких альтернативах (12). Для этого без ограничения общности положим га = 0 и будем ссылаться на следующие условия регулярности:
а) Элементы матриц Ь и J ограничены равномерно по объему выборки п.
б) Р{г,<х}=р(х||а,), р(х|ц,)є ¥км,(е,Б,р).
в) На альтернативных траекториях рк, м, ,(е, Б, р) ф.р. р(х|ц,) непрерывно дифференцируемы в окрестностях точек (х, ц,)=(ск, 0), к = 1,., К - 1.
г) На альтернативных траекториях рк, м, ,(е, Б, р) плотности /(х|ц,) удовлетворяют условию Липшица в окрестностях точек (х, ц,,)=(ск, 0), к = 1,., К - 1 и величины / (х|ц,,) ограничены равномерно по п.
Введем функции отклика меток
%, (и,ц)=£ [б, (к) - Б, (к+1)] (Ск |0) - р С + и + й'к ц| 0)],
к=1
V2, (и,Ц)= §Б2 (к)-В2 (к +1)] (Ск |0)-р (Ск +и +акц|0)],
где ?П (ю01 и) = ВП (ю0,0)и'(иУви')-1 иВи (ю,0).
В этом случае достигнутое на первом этапе значение целевой функции может быть использовано при вычислении статистики на втором этапе.
АСИМПТОТИЧЕСКИЕ СВОЙСТВА ИНДИКАТОРНЫХ СТАТИСТИК, ОЦЕНОК И КРИТЕРИЕВ ПРИ БЛИЗКИХ АЛЬТЕРНАТИВАХ
Изучим свойства процедуры (8)-(9) при близких альтернативах вида
y, (®) <- Lo( |l>|2 +| |Ь'2,^||2).
ж) Для любого R > 0 существует A(R) такое, что для всех raeQ, при |Lj,ra|2 +| |L'2,w| 2 > R выполняется
Y, (го)<-A(R)^j|Ц,го|2 +||L 2,го||2 .
Теорема 1 (о равномерной линейности индикаторных статистик). Пусть выполнены условия (а)-(г) и пусть последовательность {g^i<1} ограничена, а набор меток {B(1),...,B(K)} удовлетворяет условию £K=1B(k) pk = 0. Тогда каковы бы ни были траектории альтернативных распределений FK, м, ,(c, D, p), если ц,- = J 2,т , то для случайной функции
1 n
Un(ит)=-^ £ gi {в( (и,0))- (т))-
Vn ,=i
- (Li,Vi, + L2,V2,0 'И + (J1,Vl, + J2,Vj 'Т} при любых е >0, a>0, Y е (1,i(m1+iy) выполняется
lim sup P\ sup |Un(И T)| 1 = 0,
n^“ TeW2n (an1) |meW2n (an1) J
где W1n(A) = {oeRm° :||ro||<Ayfn,L'2,weMKM(c,D)V,},
W2n (A) = {reRm-m° :|| т|| < Ajn, J'2, теМ K M (c,D)V/|,
V1, =TKlB(k) - B(k +1)] f (ck | 0),
V 2. =SK=11d k [B(k) - B(k+1)] f (ct |0).
Если теперь ввести матрицу чувствительности меток
1 Г&^[УШ,..., V11n ] еУш I еnVn
\
V211e1
V 21Х
0
0
V Y21n~n ~ V22n у
где Ун,- = Zt-lB(k) - B1(k+1)] f■ (ck10),
V12. =St=-11[B1(k) - A(k+1)]dkf (Ck |0),
V21, =St=11[B2(k)-B2 (k +1)]f (Ck |0) ,
-лК-1 -J=1 [B 2
V22, =ЕК=-/[В2 (k) -B2 (k +1)]dkf (Ck |0) ,
Т,. (м,ц) = и Ть.(м,ц) + ц' ^ 2,(М,ц) и для функций Т,.(ю)=Т,. (Ь1 ,.ю,Ь'2,.ю), заданных на множестве О, = {(0: Ь2,Ю6М км (с,Б)}, будем рассматривать следующие условия регулярности:
д) При всех ЮбО, выполняется Т,. (ю) < 0 , и равенство
I |2 И ¡а 2
здесь достигается, если и только если Ь1,ю + Ь'2,юУ = 0.
то на основе теоремы 1 можно получить предельные разложения для индикаторных статистик из (8) и (9) при близких альтернативах тп вида (12).
Теорема 2. Пусть выполнены условия (а)-(г), существуют предельные матрицы
£0 = limJ¥nL', £j = limJ¥nJ', £2 = limJV5J'>0
n^« n^« n^«
и Qn - некоторая оценка параметров ю, для которой nP°|| raJI = op (1) при каком-либо ßo£ (K^ipß). Тогда
JB п(® п,0)=JB п (0,т п)+yfn (£ 0® п - £1Т п )+op(1).
Теорема 3. Пусть выполнены условия (а)-(ж) и существуют предельные матрицы £01 = limL^J', £jj = limLV„L'<0, £21 = limLV5L'>0.
п—>« п—>« п—>«
Тогда для индикаторной оценки (8) выполняется
V««n =-£-i [lBn (0,Tn ) -Jn £01Tn
+(1).
Теорема 2 позволяет судить о локальном поведении функции мощности индикаторного критерия (9), если
k=1
рассматривать близкие альтернативы с разной скоростью сходимости. При этом критерий (9) будет иметь асимптотический уровень значимости у, если £0 = 0. Для использования критерия (11) матрица J должна выбираться так, чтобы ЬУв J'=0. По теореме 3 индикаторная оценка свободных параметров при близких альтернативах асимптотически нормальна, 4п _ состоятельна и удовлетворяет условию теоремы 2, если £01 = 0 или тп = о(п~1/2).
Эти дополнительные требования будут выполнены, когда, например, матрицы Ув и Тп пропорциональны или когда из ЬУвJ'=0 следует, что J¥nL' =0 и Ь¥ в J'=0. Для проверки этого условия не обязательно строить матрицу J. Достаточно убедиться в пропорциональности матриц J0¥пЬ' и J0УвЬ', где Jo _ любой базис, дополняющий Ь0 до Ь, например, когда A=(L',J0')'. При построении тестов будем проверять это условие их применимости.
ПРИМЕРЫ МЕТОК
Пример 1. Метки могут быть взяты в виде {в1(к)}= ={_1, 0, 1}, {в2(к)}={1,_ 0, 1}, где Q = 2р/(1_2р). Эти наборы пропорциональны наборам {р(к)}, если для плотности выполняется условие квантильной симметрии /(_с) = /, (с). Для моментов меток имеем а?2 =2р, Б2=0, С=0, так что матрица Ув будет диагональной. При условии квантильной симметрии имеем щъ=2/(с), Щъ=^21Г0, 1^22 ,=2,/(с)(0+1) и матрица ¥п тоже будет диагональной.
Пример 2. Здесь метки можно взять в виде {в1(к)}= ={_б,_аА, аА, 0}, {в2(к)} = {0, _1, _1, 0}, где 0=2р/(1_2р). Пропорциональность с наборами Щ(к)} будет иметь место, если /(_с)=/(с) и аА=а,, где а,=(/(0)_/(с))//(с). Величину аА, таким образом, можно трактовать как априорную догадку о квантильной островершинности (или затянутости) гипотетического распределения. При отсутствии других соображений, рекомендуется брать аА=0/2. Моменты меток имеют вид й?2 = 2р(а^ + 0),
Б2=е, с=0, и вновь матрица Ув является диагональной. В условиях квантильной симметрии при дополнительном естественном требовании /(0)=0 выполняется У12,=У21Г0, Щll=2fl(c)(аAаi+Q), ^22 ,=2/(с)(0+1), матрица ¥п диагональная.
Пример 3. Для квантильной регрессии метки {в1(к)} = ={_1/р, 1/(1_р)} являются взвешенными знаками остатков. Эти метки всегда пропорциональны набору {р(к)} и для них й12 =[р(1_р)]-1, Ув = й121 п. При этом, если / (0)=/(0), то Тп=1п/(0)/п, и имеется пропорциональность матриц Ув и Тп.
Пример 4. Для частного случая медианной регрессии метки {в1(к)}={_1, 1} соответствуют знакам остатков. Здесь й2 =1, Ув=1„, ¥ п =У(0)/п при /, (0)=/(0).
Если ф.р. Е, непрерывно дифференцируемы, то условия регулярности (д)_(ж) выполняются в примерах 3 и 4 всегда, в примере 1 _ для всех симметричных ф.р. (и, по крайней мере, для близких к симметричным
ф.р.), а в примере 2 _ для достаточно широкого класса симметричных и близких к симметричным распределений (равномерному, Лапласа, распределениям семейства Стьюдента, в том числе Коши, и др.).
ЗАДАЧИ ОДНОФАКТОРНОГО АНАЛИЗА
Рассмотрим модель наблюдений Уу=9]+8,/;;'=1,..., ц; ,= 1,..., п; п=ЕЯ=1п,- , (13)
где 91,., 9Я _ неизвестные параметры.
Гипотеза об однородности ц выборок по параметрам сдвига формулируется в виде
Я0:01=...=0<г (14)
В качестве альтернативы выступает нарушение любого из этих равенств.
В примерах 3 и 4 при гипотезе свободен только параметр ш = 9 _ общее значение параметра положения выборок. Запишем участвующие в процедуре (11) статистики:
2 1 ? 2(ю|Ь) = -2-Й1 п
ЕЕв1 у(Ю)
? и(ю| J)=Е йт
у=1 а1
V у=1 ,=1
г л2
1 п1 1 Я п1
—Е в1 у (ю)—ЕЕ в1 у (ю)
п у ,=1 п у=1 ,=1
(15)
(16)
где в1 у (ю)=в^(у у _0)), s(u)=(3+sign(u))/2 .
В примерах 1 и 2 если все выборки имеют один неизвестный квантильный масштаб ц, то с точностью до обозначений вку (ю)=вк(^(уу _0,ц)), ю=(0,ц)' статистика теста ^2 (ю | J) будет иметь вид (16). Здесь примеры 1 и 2 отличаются наборами меток и индикаторными функциями, которые были введены ранее. Статистика, используемая в (11) на первом этапе, отличается от (15):
ЕЕв1 у(Ю)
V
ЕЕв2 у (ю)
V
. (17)
Если выборки имеют разные (и неизвестные) кван-тильные масштабы ц, то условия применимости нормированного теста не выполняются. Возможен еще один вариант, когда общий параметр масштаба ц известен. В этом случае ш=9, а статистики в (11) имеют вид (15) и (16) с точностью до обозначения в1у (ю) = в1 (^(у у _ 9, ц)).
Перейдем к проверке гипотезы однородности Я выборок по квантильным масштабам
#0^1= ••• =Мя- (18)
Она может проверяться в рамках примеров 1 и 2 при известных и неизвестных параметрах положения выборок 0у Если известно, что 9,=9, но само значение 9 неизвестно, то ю = (9, ц)' и, как ранее, вку (ю) = вк (,$(у у _ 9, ц)), а статистики в (11) имеют вид (17) и
1 п 1 Я п
—Е в2 у (ю)—ЕЕ в2 у (ю)
пу ,=1 п у=1 ,=1
у
2
(19)
Если известно, что 9j=9 и параметр 9 известен (9=0 без ограничения общности), то
? п (ю |Ь)=
1
ЕЕв2 у (ю)
V
(20)
а ^ п (ю I J) дается (19) с точностью до обозначений ю = ц и в2у (ю) = в2 (^(у у, ц)). Для случая, когда 9у не-
2
п
2
2
п
п
2
п
известны и могут различаться, имеем ю = (91,..., 9Я, ц)', вку (ю) = вк (^(у у _9, ц)), а статистики из (11) с точностью до этих обозначений даются формулами (17) и (19).
Наконец, для гипотезы однородности по сдвигам и масштабам
#0:01= ... =9ц, ц1= ... =цц, (21)
в обозначениях вку (ю) = вк (^(у у _ 9, ц)) и ю = (9, ц)'
целевая функция $^(ю|Ь) имеет вид (17), а выражение для статистики теста (11) сводится к
( 1
? П (юи = § а 2
у= а-( 1
ч пу ,=1
п1 1 Я п1
§ Б, у (ю) - - §§ Б, у (ю)
п у=1 ,=1
Л2
+ § а 2
у=1 а 2
ч пу ,=1
п1 1 Я п1
§ Б г у (ю) - - §§ Бг у (ю)
п у=1 ,=1
2
(22)
5 І!(ю |Ь) = §
Б,2* у*(ю)
у=1 а1 пу*
5 2(ю |J) =
5'(ю)О-15(ю)
а,2
(25)
5 2(ю |J)=§
Б-**, (ю) Б-*** (ю)
при этом вид ^п (ю |J) останется прежним. Наконец, если допустить, что масштабы выборок могут различаться, то нормированный тест построить не удается, т. к. условия его применимости не выполняются.
Перейдем к проверке гипотезы об отсутствии действия обоих факторов:
#0 : а1 = ... = ау, ¿1 = ... = Ьь_1= 0. (26)
Здесь в примерах 3 и 4, а также в примерах 1 и 2 при известных масштабах шумов имеем ш = а,
(27)
5 2(ю|Ь)=Б2**(ю)/(а2и**),
ДВУХФАКТОРНЫЙ АНАЛИЗ АДДИТИВНОЙ СХЕМЫ ДЕЙСТВИЯ ФАКТОРОВ
Рассмотрим модель эксперимента, которая не предполагает совместного влияния факторов:
Уу1= ау +¿1 + 8 у{;/=1,..., У; 1=1,., Ь; ,= 1,...,п/г, (23)
где аь...,ау, Ь1,.,Ьь-1 _ неизвестные параметры, Ьь=0; 8у/ _ независимые случайные отклонения, информация о распределении которых сводится к модели одного из четырех примеров, рассмотренных ранее. Введем обозначения для объемов выборок п* =Еы'п, , п*1 =Еу=1пл ,
п„ =ЕЬ=п*1 • Имея в виду метки остатков вку1 (ю) , будем использовать обозначения вида
вк*л(Ю)=Еп=1вку1(Ю), вк**,(Ю)=Е'=1вку,(Ю),
вк* у*(ю)=Е,=1 вк*у (ю) , вк***(ю)=Е,=1вк**, (ю) . Начнем с проверки гипотезы об отсутствии действия одного из факторов:
#0 : ¿1 = ... = Ьь_1= 0. (24)
Для примеров 3 и 4 вку1 (ю)=вк ^(уу1 _ а у)), где
Ю=(а1,...,ау)', s(u)=(3 + sign(u))/2 . При этом
?-(»и)^;(<0), <28)
у=1 а1 иу, а1 п** а1
примеры отличаются индикаторами и метками: для примеров 1 и 2 вку1 (ю) = вк (^(уу, _ а, ц)), где ц _ известная величина, в то время как для примеров 3 и 4 вку1 (ю)=вк(5(уу,_а)). При одинаковых объемах выборок пу, формула (28) упрощается, подобно (25). Как и ранее, допущение разных масштабов шумов в выборках приводит к невозможности построения нормированного теста.
При неизвестном (но общем для всех выборок) масштабе шумов ц в рамках примеров 1 и 2 имеем ю = (а, ц) ', вку1 (ю) = вк (^(у у, _ а, ц)), тестовая статистика для проверки гипотезы (26) будет иметь вид (28), но для оценки свободных параметров вместо (27) будет использоваться целевая функция
2, |т. Б12***(ю) Б2***(ю)
5 п (ю|Ь) = + 2*2
а, п** а 2 п**
(29)
Следующий вид гипотезы включает предположение об отсутствии действия факторов на масштабы шумов выборок в рамках примеров 1 и 2:
Н0 : Ції = ••• = Цуь. (3°)
Здесь ю = (а,,...,ау,Ь—,...,Ьь-1,ц) ' - вектор свободных
параметров Бу (ю) = Бк (5(уу1 - а у - Ь, и)) ,
5 2(Ю |Ь) -§Б1У(ю) + 5' (ю)0-15(ю) +§ §^1(ю)
=1 пу* у=1 1=1 а2 пу1
а12
22
^ б,* ;.*(ю)
где поэлементно [?(ю)], = Б,**; (ю)-§п 1— ------,
у=1 пу*
[О]*, = п,1зк1 -§’=ппк /пу* . При одинаковых объемах выборок, если п , = п**/(УХ), то (25) упрощается:
2 ( | Т) ^ Б2*у, (ю ) Б2*** (ю )
5 и(ю | Т)=§§-02------------2*2-
у=і /=- а2 пу, а2 п*=
(31)
*2"у/ “2'
Для аналогичной гипотезы вида
Н0 : ьі = ... = Ьь-1= 0, И11 = • = Ц/ь (32)
имеем ю = (al,...,а/,ц)' , Бку,(ю) = Бк(5(Уу/ - ау,Ц)) ,
¿Б~,(ю) ,і,АБ22*у/ (ю)
(33)
1 й1 п,, й1 п,,
Для примеров 1 и 2 при известных и одинаковых для всех выборок масштабах шумов ц можно использовать точно такие же статистики вида (25), но при этом полагая вку, (ю) = вк (^(уу, _ ау, ц)). В случае, если
общий параметр масштаба ц неизвестен, имеем ю = (а1,..., а у, ц)', вку, (ю) = вк ^(уу1 _ а у, ц)), а в (25) изменится вид статистики
, 2 (ю|Ь) .¡Е
/•=1 Й1 Пу* й 2 п**
/■=1 Й1 п/* /=1 ,=1 й2 пу
структура ^п (ю|J) будет даваться (с точностью до обозначений) суммой статистик вида (25) и (31).
Наконец, для проверки гипотезы
#0 : а1 = ... = ау, ¿1 = . = Ьь_1= 0, . = цуь (34)
получаем ю = (а, ц)', вку1 (ю) = вк (5(уу, _ а, ц)), целевая
функция ^2(ю|Ь) имеет вид (33), но $2(ю|J) есть сумма статистик вида (28) и (31).
Тесты, полученные здесь для проверки гипотез (32) и (34), можно применять только в условиях примера 1. Для примера 2 условия применимости нормированного теста будут выполнены, только если аА=а.
ЗАКЛЮЧЕНИЕ
Пользуясь (11), можно построить тесты для проверки линейных гипотез в двухфакторной модели, которая учитывает совместное влияние факторов, но эти задачи не являются темой данной работы. Это же можно сказать и о проверке гипотез об отсутствии влияния одного из факторов на масштабы шумов.
Целевые функции $ п (ю|Ь) , которые используются для оценки свободных параметров, являются кусочнопостоянными, и это требует специальных методов минимизации, которые здесь не рассмотрены.
Согласно теоремам 2 и 3, при гипотезе предельным распределением статистик $ ^ю^) будет хи-квадрат с соответствующим числом степеней свободы. Однако при уме-
ренных объемах выборки для выбора порога тестов можно использовать процентные точки распределения статистик $^Ю^), в которых величины вку(ю) заменены на вку (яу1), где ду1 _ независимые дискретные с.в., принимающие значения 1,.. ,,К с вероятностями р1,. рк.
Обращает на себя внимание структура тестовых статистик $ :(ю|J). Она во многом аналогична числителю отношения Фишера_Снедекора, которое используется для проверки линейных гипотез в гауссовском дисперсионном анализе. В то же время, благодаря описанию масштаба распределений шумов с помощью ин-терквантильного размаха, реализуется возможность проверки выборок на однородность не только по сдвигам, но и по масштабам.
ЛИТЕРАТУРА
1. Koenker R., Bassett G. Regression quantiles // Econometrica. 1978. Vol. 46. P. 33-50.
2. Koenker R., Bassett G. Tests for linear hypothesis and Li estimation // Econometrica. 1982. Vol. 50. P. 1577-1584.
3. KoenkerR., Portnoy S. M estimation of multivariate regressions // JASA. 1990. Vol. 85. Issue 412. P. 1060-1068.
4. БолдинМ.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. М.: Наука, 1997.
5. Тарасенко П.Ф. Оптимальные тесты, основанные на индикаторах событий // Вестник Томского гос. ун-та. Прил. № 1(1), сент.2002. Докл. IV Всеросс. конф. «Нов. информ. технологии в исслед. сложн. структур». Томск, 10-13 сентября 2002. C. 185-190.
6. Тарасенко П. Ф. Проверка гипотез о параметрах линейной модели на основе индикаторных признаков // Обозрение прикладной и промышленной математики. 2003. Т. 10. Вып. 2. IV Всеросс. симп. по прикл. и пром. матем., осенняя сессия: Тез. докл. Ч. I, С. 515-517.
Статья представлена кафедрой теоретической кибернетики факультета прикладной математики и кибернетики Томского государственного университета, поступила в научную редакцию «Кибернетика» 20 апреля 2004 г.