УДК 519.233.32
А.К. Горшенин1
ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ В МОДЕЛИ РАСЩЕПЛЕНИЯ КОМПОНЕНТЫ*
В работе рассматривается задача проверки статистической значимости параметрически близких компонент смеси вероятностных распределений. Для ее решения приводится асимптотически наиболее мощный критерий. Найдены предельные распределения, потеря мощности и асимптотический дефект. Подробно рассматривается применение данного критерия для случая смесей нормальных и гамма-распределений.
Ключевые слова: смеси вероятностных распределений, асимптотически наиболее мощный критерий, потеря мощности, асимптотический дефект.
1. Введение. В статье [1] был предложен асимптотически наиболее мощный критерий для проверки гипотез о числе компонент в модели вида (параметр в € [0,1])
к к
г= 1 г= 1
Данная модель ориентируется на проверку значимости произвольной компоненты с, возможно, малым весом. Однако, решая задачу об уменьшении числа компонент в подгоняемой модели смеси вероятностных распределений, важно не исключить из рассмотрения практически важные компоненты, ошибочно объединив их в одну компоненту. Это означает, что возможна ситуация, когда в смеси присутствуют компоненты с близкими значениями параметров, в том числе и весов.
Отметим, что многие популярные алгоритмы (EM-, SEM-, МСЕМ-алгоритмы и их всевозможные модификации) для статистической декомпозиции смесей используют заранее заданное число компонент и в процессе итерационной процедуры практически не могут его изменять. Однако при применении подобных алгоритмов возникает проблема различения близких по параметрам компонент смеси. Дело в том, что алгоритмы EM-типа не во всех ситуациях интерпретируют данные компоненты как различные, а объединяют их в одну компоненту. Этот недостаток подобных алгоритмов наиболее явно проявляется при тестировании на выборках из смесей с известным распределением (см., например, статью [2]).
В работе предлагается асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений в смысле максимизации предельной мощности критерия, который позволяет решить задачу декомпозиции ошибочно "склеенных" компонент. Нахождение асимптотически наиболее мощного критерия и изучение его свойств опираются на подход, подробно изложенный в статье [1]. Данная работа представляет собой развитие ранее полученных результатов с учетом всех дополнительных особенностей, возникающих в связи с заменой модели (1), описывающей случай добавления компоненты, на рассматриваемую далее модель, описывающую случай расщепления компоненты.
2. Постановка
задачи. Предположим, что каждое из независимых наблюдений Хп — = (Xi,..., Хп) имеет плотность, представимую в виде конечной if-компонентной смеси плотностей некоторых законов распределения, т. е.
К К
РгФг{х), ^Рг = 1, Pi > О,
г= 1 г= 1
где фг(х), i = 1,..., К, — функции плотности распределений, отвечающие одному ядру. Всюду предполагается, что смесь является идентифицируемой (если для конкретных распределений для этого требуются дополнительные условия, они оговариваются отдельно). Пусть к — некоторое известное
1 Факультет ВМК МГУ, асп., ИПИ РАН, науч. сотр., e-mail: а.к.gorsheninQgmail.com
* Работа выполнена при финансовой поддержке РФФИ, проект № 11-01-12026-офи-м.
натуральное число. Требуется проверить гипотезу HQ: К = к против альтернативы Н\\ К = к + 1. Другими словами, требуется проверить значимость (к + 1)-й компоненты (например, если веса pi, г = 1,..., к + 1, упорядочены по убыванию). Такая задача довольно типична и возникает, когда нужно убедиться в значимости нескольких компонент с близкими параметрами или объединить их без значимой потери информативности модели. Ответ на подобный вопрос особенно существен для так называемых сеточных методов разделения смесей [3, 4].
Для удобства асимптотического анализа предлагаемых критериев сведем описанную выше задачу проверки гипотез о значении дискретного параметра К к задаче проверки гипотез о значении непрерывного параметра. С этой целью для некоторого в € [0,1] будем считать, что Х\ имеет плотность
к-1
р(х, в) = ^Ргфг{х) + (Рк - в) ■ фк{х) + в ■ ф(х) = f(x) + в ■ д(х), (2)
г= 1
к к
f(x) = ^РгФг{х), = 1, Pi> 0, д(х) =ф(х) -фк(х), 0 < в < рк,
г= 1 г= 1
функция ф(х) является плотностью из того же семейства распределений, что и все фг{х). Отметим, что, в отличие от случая добавления компоненты функция д(х), вообще говоря, не является плотностью какого-либо распределения, поэтому нельзя осуществить непосредственный перенос результатов статьи [1] на случай расщепления компоненты.
Требуется проверить простую гипотезу Hq против последовательности сложных альтернатив Нпд вида (так как равномерно наиболее мощного критерия для проверки простой гипотезы против сложной, как правило, не существует)
Я о : 0 = 0, Нп 1 : в = 0 < t < С, С > О,
Vй
где параметр t неизвестен. Фактически осуществляется проверка гипотезы о том, является ли рассматриваемая смесь ^-компонентной (при справедливости нулевой гипотезы Hq) или (& + 1)-компонентной (при справедливости альтернативы Нп д).
3. Асимптотически наиболее мощный критерий проверки гипотез о числе компонент смеси. Используем асимптотический подход, подробно описанный, например, в книге [5]. Согласно лемме Неймана-Пирсона, для любого фиксированного t G (О, С] наилучший критерий для проверки гипотезы HQ против простой альтернативы Нпд основан на логарифме отношения правдоподобия
п
K(t) = Ys{l(Xiitn~1/2)^l(Xii°))i l(x,6) = \ogp(x,6). (3)
г= 1
Мощность такого критерия уровня а € (0,1) обозначим через ß*t(t). Хотя статистика Лn(i) не может быть использована для построения критерия проверки гипотезы Hq против альтернативы Нп д из-за того, что t неизвестно, однако ß*(t) задает верхнюю границу для мощности любого критерия при проверке гипотезы Hq против фиксированной альтернативы Il„.\. t > 0.
В дальнейшем понадобятся следующие функции (j ^ 1):
^(х) = §-1(х,в) =(-1)^0'-1)!Шу, L(1)= 1 ¿ii^l. (4)
dO3 0=о \f(x)J y/n^f(Xi)
Рассмотрим достаточные условия, при которых логарифм отношения правдоподобия асимптотически нормален. Это так называемое условие локальной асимптотической нормальности, точнее, возможность представить логарифм отношения правдоподобия Лn(i) в виде
An(i) = i4l)^^ + c„(t), (5)
где остаточный член £n(i) 0 по вероятности при гипотезе Hq при п —> оо, а фишеровская информация / = Eq (/(^(Xi)) . Отметим, что сама возможность записать логарифм отношения правдоподобия в виде An(t) = tLn ^ — ^if + rjn(t) для некоторой функции rjn(t) доказана в статье [1].
Лемма. Пусть при к = 1 в равенстве (2) интеграл / ф2(х)фг 1{х)йх конечен, а при к ^ 2
—ос
ос /к-1 \-1
конечен интеграл f д2(х){ ^ Ргф^х) ) dx. Тогда для плотности р(ж,0), определенной равен— ос \i= 1 /
ством (2), выполнено соотношение (5).
Доказательство. Обозначим через S необходимую правую окрестность точки 9 = 0. Всюду в дальнейшем подразумевается выполнение условия 0 ^ 9 < 5.
A. Очевидно, что линейная функция является абсолютно непрерывной, поскольку если <
г
< где (ai, bi) — произвольная система попарно непересекающихся интервалов, то для произвольной линейной функции вида у(х) = ах + b, а,Ь — конечные фиксированные числа, получим
~ У(щ)| = Н • - а^ < |а| • ¿i = e
г г
при соответствующем выборе Плотность р(х,9) при каждом фиксированном ж G Ж является линейной функцией по 9, а значит, является абсолютно непрерывной по 9 из правой 5-окрестности нуля.
B. Найдем производную
др(х,9) _ d(f(x) + 9g(x)) _ дв ~ дв ~9{х)-Очевидно, что данная производная существует при почти всех (по мере Лебега) ж G Ж для любого 9 из правой 5-окрестности нуля.
C. Установим непрерывность функции
2 2 00 т = =*(■■,»'*') = ¡ттШТ-^-
\ дв ) \f(x) + 9g(x)J J f(x) + 9g(x)
— ос
Функция д(х) ф 0 почти наверное, а в силу известного свойства интеграла Лебега это означает, что функция 1(9) > 0 (в силу неотрицательности подынтегрального выражения условие 1(9) ф О эквивалентно 1(9) > 0) почти наверное для любого 9 из правой 5-окрестности нуля (включая и значение 9 = 0).
оо
Пусть сначала k = 1 и f ф2(х)ф{l(x) dx < оо. Воспользуемся тем фактом, что 0 ^ 9 < S,
—оо
и выпишем оценку для подынтегральной функции
92(Х) . 1 , , , . 0 „,, , , ,2, ч
(1 ^ 9) ■ фг(х) + 9ф(х) (1-5)
Отсюда
< Тл-К Лх) - 2Ф(Х) + Ф (хЖ (х)).
оо
— оо
что по предположению леммы означает конечность 1(в).
оо /к-1 \
Пусть теперь к ^ 2 и f g2(x)l J2 РгФг(х) ) dx < оо. Тогда (с учетом представлений в форму-
—оо \г=1 /
ле (2))
Снова получаем, что 1(9) конечен.
Воспользовавшись теоремой Лебега о мажорируемой сходимости [7], получим
Hm [ £2(ж) dx= [ £2(ж) dx
ÄJ f(x)+9g(x) Х J f(x)+90-g(x)
Данное соотношение означает непрерывность функции 1(в) в правой 5-окрестности нуля (включая и значение 0 = 0).
Согласно известному результату [6], выполнение данных условий влечет справедливость соотношения (5). Лемма доказана.
В качестве критерия с предельной мощностью
ß*(t) = $(tVl-ua),
где Ф(«а) = 1 — а, символ Ф(-) обозначает функцию распределения стандартного нормального закона, для различения гипотез о числе компонент рассмотрим критерии, основанный на статистике L>n из равенства (4). Лемма означает, что критерий Ln ^ является асимптотически наиболее мощным. Согласно центральной предельной теореме, L^1-® при п ^ оо имеет нормальное распределение с параметрами 0 и I (при справедливости нулевой гипотезы). Тогда критическое значение с^ может быть найдено из соотношений
Рп,о(415 > <£>) = «, c« = y/ïua + о(1),
где символом РП)0 обозначено распределение Хп при в = 0.
3.1. Асимптотическое поведение разности мощностей. В работе [5] показано, что нормированный предел разности мощностей (также называемый потерей мощности) для критерия, основанного на статистике (4), имеет вид
r{t) = JL=.<p(ua- tVfj [В ol{2)(Xi) - /-^«(Xi^pfi)],
где символ ср(-) обозначает плотность стандартного нормального распределения.
Введем обозначение для моментов порядка s случайной величины £ = g(Xi)f~1(Xi):
+ СЮ
Ф,=ЕоС = Ео (д(Х1)Г1(Х1)У = I gs(x)f1-s(x)dx, s = 2,3,4. (6)
— сю
Легко видеть, что
/ = Ф2, = Во^НХг) = Ф4-Ф|,
r(t) = ^=-<p(ua-ty/^) (7)
С помощью величины r(t) из формулы (7) можно найти асимптотический дефект (аналогично рассуждениям, проведенным в статье [1])
d = lim dn = lim (kn -n)= 2-- = (ф4 - ^ ^)■ (8)
« TW ос n ' ty/^ • <p(ty/^ - Ua) 4Ф2 V 2 Ф2/
Здесь через d,n обозначен дефект, кп — число наблюдений, необходимых критерию, основанному на статистике L^1-® из формулы (4), для достижения той же мощности, что и критерию, основанному на статистике Лn(i) из формулы (3), при альтернативах вида t/y/n. Первое равенство в соотношении (8) понимается в том смысле, что если предел существует и конечен, то он по определению называется асимптотическим дефектом.
3.2. Условия сходимости моментных характеристик Фв. Рассмотрим условия, гарантирующие конечность моментных характеристик (6) для некоторых частных случаев смесей распределений. В этом разделе будем пользоваться неравенствами (и = 2, 3, а > О, Ь ^ 0)
Е- < • гтт:<;- о
b а
Запишем подробно выражения для моментных характеристик (6):
+ос к \ -1 Ф2 = J (ф2(х) + фЦх) - 2ф{х)фк{х)) Г£ргФ^)) dxi
-ос i=1
+ОС к
Фз = / {Ф3(х) - фЦх) ~ 3ф2(х)фк(х) + 3ф(х)ф2к(х)) [Y1Ргфг(х) ) dx,
Т {к \_3
Ф4= / {Ф4(х) +фЦх) +йф2к(х)ф2(х) ^4ф3(х)фк(х) ^4ф(х)ф3к(х)) I ^Ргфг{х)\ dx.
-ос
Заметим, что в условиях леммы требуется выполнение условий:
ОС ОС ¿,— 1 _]_
J ф2(х)ф^1(х) dx < ОС, к = 1, J д2{х)(^21Ргфг{х)^ dx < ос, к ^ 2,
-ос -ос
которые, очевидно, гарантируют конечность моментной характеристики Поэтому в дальнейшем при рассмотрении конкретных распределений будем учитывать условия сходимости данных интегралов. При этом в случае к ^ 2 эти условия могут быть найдены с учетом неравенства
/к — 1 \ -1 /к — 1 х -1
дЧх) < + ^Рг^г(ж)
Сходимость интеграла от правой части неравенства влечет сходимость левой части. Далее, очевидно, что (см. неравенства (9))
к % —и
^СФки(х), с> 0.
■>•—1 /
4=1
Интегралы от ф(х) и фк(х) конечны, так как данные функции представляют собой плотности некоторых распределений. Таким образом, вопрос о конечности моментных характеристик (6) решается на основе условий сходимости интегралов вида
ос
J фи(х)ф~и+1(х) dx, 2 ^и^ 4,
которые для нормального и гамма-распределений подробно рассмотрены в работе [1].
Нормальное распределение. В этом случае с учетом вышесказанного можно вывести следующие достаточные условия сходимости моментных характеристик в модели (2) для смесей нормальных законов:
°2 < T^l-, к Js 1, о2 < 2 max a2, al <2 max а2, к Js 2. (10)
Л l^.j^.k-1 J l^.j^.k-1 J
Гамма-распределение. В этом случае можно вывести следующие достаточные условия сходимости моментных характеристик в модели (2) для смесей гамма-распределений:
г i i ] з
ß ^ max < — (3/3i + 1), -(ßi + 1) г , а > -аи к = 1, ß > max{i(3/3fc + 1),\{ßk + 1), | min (ft + 1)
^ 4 Z Z ISCzSCfc-l
/1 3 \
a>max|-iimm_ia,,i«fc|,
Итак, из вышесказанного получаем следующую теорему.
Теорема. Пусть выполнены достаточные условия конечности моментных характеристик Ф 5 = 2,3,4, из соотношения (6), а смесь в соотношении (2) идентифицируема. Тогда для модели расщепления компоненты критерий проверки гипотезы о том, что смесь является к-компонентной, против альтернативы, что смесь является (к + 1)-компонентной, основанный на статистике
г(1) = 1
обладает следуют,ими свойствами.
1. При справедливости нулевой гипотезы эта статистика имеет нормальное распределение с параметрами 0 и Ф2 при п ^ оо
£(4^ | Н0) ^ N (О, Ч>2).
2. При справедливости альтернативы эта статистика имеет нормальное распределение с параметрами ¿Ф2 и Ф2 при п ^ оо
£(4^ | НпЛ) ->ЛГ(*Ф2,Ф2).
3. Данный критерий является асимптотически наиболее мощным критерием с предельной мощностью (для заданного уровня а € (0,1)) вида
4. Потеря мощности для этого критерия составляет
r(t) = -<р(иа- ty/Щ (ф4 - ф| - •
5. Асимптотический дефект для этого критерия равен
t2 Л Щ
л = — ф4 - Ф2 -
4Ф2 \ Ф2
Замечание 1. В случае рассмотрения конечной смеси нормальных законов для конечности моментных характеристик Ф8 достаточно потребовать выполнения условий (10), а в случае рассмотрения конечной смеси гамма-распределений — условий (11).
Замечание 2. Отметим, что в теореме подразумевается выполнение условия Ф2 > 0. Его справедливость была установлена в пункте С доказательства леммы.
4. Примеры конкретных смесей вероятностных распределений. В этом разделе рассмотрим частные случаи смесей, для которых в явном виде можно выписать выражения для интегралов (6). Всюду в этом разделе предполагается, что рассматриваются идентифицируемые смеси (для нормального и гамма-распределений это условие конечности смеси в силу теорем, доказанных в [8]).
Для сокращения размеров формул ограничимся для всех типов распределений рассмотрением случая проверки гипотезы "в смеси одна компонента" против альтернативы "в смеси две компоненты", т. е. параметр к в формуле для плотности р(х, в) из равенства (2) считаем равным единице.
Выпишем вид моментных характеристик Фв, « = 2,3,4, из соотношения (6) для данного случая (предполагаем, что для каждого типа распределений выполнены условия конечности соответствующих моментных характеристик):
+ ОС +ОС +ОС
Г Ф2(Х) , Г ФЧх) , 0 Г Ф2(х) п
ф2= / Ф3= / ТзН^ 3 / Т"Н + 2'
.1 Ф1{Х) .) ФЦх) .] ф1{х)
—оо —оо —оо
+ ОС +ОС +ОС
*4 = [ Щ<Ь-4 [ Ш«Ь + 6 [ Ш^З. (12)
У ФЦх) У ф\{х) у фг{х)
—оо —оо —оо
Интегралы в формулах (12) представляют собой некоторые моментные характеристики, выражения для которых были найдены для различных классов распределений в работе [1]. Отметим, что все эти величины могут быть использованы для нахождения распределений, асимптотической мощности, потери мощности и асимптотического дефекта в теореме.
Нормальное распределение. Пусть выполнены условия (10). Проверяем гипотезу о том, что плотность каждого наблюдения является нормальным законом, против альтернативы, что плотность представляет собой смесь двух нормальных законов. При этом
1 Г (ж - аг)2 \ 1 Г (х - а)2
ФЛХ) =-7к=ехР1--ттй—Г' Ф\х) =—7^= ехР \--^""2
С71У27Г [ 2ах ) а\/2тх \ 2аг
В данном случае формулы (12) можно получить, воспользовавшись результатом статьи [1] (для 5 = 2,3,4):
2
al ° '
ф'Чх) erf I \S(l2 a ^ cri) (s - l)a? sa'i
:exp ' 4 7
— oc
ф\~\х) ^"V^-is-iy2 F1 2(sa2^(s^l)a2) 2 a2 2a2
Гамма-распределение. Пусть выполнены условия (11). Проверяем гипотезу о том, что плотность каждого наблюдения определяется гамма-распределением, против альтернативы, что плотность представляет собой смесь двух гамма-распределений. В данном случае
Ых) = вд)жЛ~1е~а1Ж' ф(х) = х>0-
Формулы (12) можно получить, воспользовавшись результатом статьи [1] (в = 2,3,4):
ф3(х) _ азр _1_ Га~1(^1)Г(а/3 - (а - 1)/31>
ф{~1{х) ~ о^-1^ ' (за- (в- 1)а1)^-(®"1)Л Г%б) '
СПИСОК ЛИТЕРАТУРЫ
1. Бенинг В.Е., Горшенин А.К., Королев В.Ю. Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений // Информатика и ее применения. 2011. 5. № 3. С. 4-16.
2. Горшенин А.К., Королев В.Ю., Турсунбаев A.M. Медианные модификации ЕМ- и SEM-алгоритмов для разделения смесей вероятностных распределений и их применение к декомпозиции вола-тильности финансовых временных рядов // Информатика и ее применения. 2008. 2. № 4. С. 12-47.
3. Королев В.Ю. Вероятностно-статистический анализ хаотических процессов с помощью смешанных гаус-совских моделей. Декомпозиция волатильности финансовых индексов и турбулентной плазмы. М.: ИПИ РАН, 2007.
4. Королев В.Ю. Вероятностно-статистические методы декомпозиции волатильности хаотических процессов. М.: Изд-во Моск. ун-та, 2011.
5. Bening V. Е. Asymptotic Theory of Testing Statistical Hypothesis: Efficient Statistics, Optimality, Power Loss and Deficiency. Untrecht: VSP, 2000.
6. Hajek J. Asymptotically most powerful rank-order tests // Ann. Math. Statist. 1962. 33. N 3. P. 1124-1147.
7. Колмогоров A. H., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1976.
8. Teicher Н. Identifiability of finite mixtures // Ann. Math. Statist. 1963. 34. N 4. P. 1265-1269.
Поступила в редакцию 11.04.11
TESTING OF STATISTICAL HYPOTHESES IN THE SPLITTING COMPONENT MODEL
Gorshenin A. K.
The paper examines the problem of testing of the statistical signifieaney of parametrieally close components of the probability distributions mixtures. To solve this problem the asymptotically most powerful test is suggested. The limiting distribution, power loss and asymptotic deficiency are found. The application of the test for the mixtures of normal and gamma distributions is examined in detail.
Keywords: mixtures of the probability distributions, asymptotically most powerful test, power loss, asymptotic deficiency.