Известия вузов России. Радиоэлектроника. 2006. Вып. 2======================================
УДК 621.391.2
М. А. Райфельд
Новосибирский государственный технический университет
Использование группировки для увеличения мощности непараметрического критерия, основанного на превышающих наблюдениях
Исследован подход к решению задачи обнаружения сигнала на фоне помехи, отличающейся дисперсией, в условиях непараметрической априорной неопределенности, направленный на увеличение мощности непараметрического критерия, основанного на превышающих наблюдениях. Предлагаемый подход базируется на предварительной группировке наблюдений с помощью пороговой процедуры.
Непараметрический критерий, ранговый алгоритм, статистика, вероятность ложной тревоги, мощность правила, различение гипотез, плотность вероятности
Во многих задачах вторичной обработки в радиолокации, связи, навигации актуальной является задача обнаружения сигналов, отличающихся дисперсией от помех, на фоне которых они наблюдаются. Классические байесовские методы различения гипотез неприменимы в условиях априорной неопределенности относительно вида и параметров распределения отсчетов сигнала и помехи. В подобных случаях обычно используются непараметрические тесты (например, знаковые или ранговые), основанные на статистиках, инвариантных к виду распределения помехи, и позволяющие благодаря свойству инвариантности стабилизировать вероятность ложной тревоги а на заданном уровне в обнаружителе Неймана-Пирсона (в случае независимых наблюдений) [1]. Некоторые из таких статистик обладают чувствительностью к наличию в выборке отсчетов полезного сигнала, отличающихся дисперсией от отсчетов помехи. Мощность непараметрического критерия зависит от вида распределения наблюдений.
Рассмотрим более подробно вопрос об использовании непараметрического критерия, основанного на превышающих наблюдениях, в задаче различения помехи и сигнала на основе контраста их дисперсий. Если плотности вероятности помехи и сигнала принадлежат к одному типу и отличаются параметром (дисперсией), то функции распределения наблюдений могут быть описаны с помощью уравнения
(*/ Ц) = ^ (х), (1)
где (х), Т7! (х) - функции распределения наблюдений помехи и сигнала соответственно, ц - параметр контраста дисперсий (параметр масштаба). Если ц > 1, то (1) означает, что дисперсия сигнала в ц2 раз больше дисперсии помехи. При 0 < ц < 1 дисперсия помехи в (1/ ц )2 раз больше дисперсии сигнала. Без ограничения общности будем далее полагать, что ц > 1.
При контрасте дисперсий наблюдений помехи и сигнала достаточно часто используют следующие двухвыборочные ранговые алгоритмы [2]:
28
© М. А. Райфельд, 2006
тест, основанный на квадратах рангов: 51 = ^I Я,- '-
/=1
т + п + 1
критерий Ансари-Брэдли: 82= ^
/=г
т + п + 1 2
Я-
2
т + п + 1
(рис. 1, кривые 3);
2
Здесь т, п - объемы рабочей и опорной выборок соответственно; Я, - ранг /-го отсчета рабочей выборки, найденный для объединенной выборки, состоящей из (т + п) отсчетов. Приведенные критерии при гауссовском распределении наблюдений существенно проигрывают классическому алгоритму, использующему для обнаружения контраста дис-
т
персий статистику суммы квадратов наблюдений 5 = ^ (х,) (рис. 1, кривые 4).
/=1
В статье рассматривается подход к различению сигнала и помехи, отличающихся дисперсиями, основанный на критериях превышающих наблюдений [3]. Двухвыборочный критерий, основанный на превышениях, строится на основе одной из приведенных ниже статистик:
т
т=Х
/ =1
либо
п
т
= УV,- , у ] /=1 ]=1
Т2 = У V + У л,
(2)
(3)
vmln < у] < х
шах>
-
(рис. 1, кривые 1). В формулах (2), (3)
Г0, Уш1п < X < Уmax, х
V ■ = ^ Т| ■ = ^
11 Iх/ < уш1п )
и(х/ >
ушах ); I1, (у] < хш1п ) ^ (у] > хшах )
- индикаторы превышений (х^ - /-й отсчет рабочей выборки X = {х^, х2, ... стоящей из т элементов; У] -]-й отсчет опорной выборки У = {у^, У2, ...,уп}, состоящей из п элементов; хш1п, хшах, уш1п, ушах - минимальный и максимальный элементы рабочей и опорной выборок соответственно). Предполагается, что в выражении (2) т > 1 и Т получен при п > 2 в связи с необходимостью находить минимальный и максимальный
элементы опорной выборки. В выражении в ,
р а = 10
(3) т > 2 и п > 2. В случае, если рабочая и к-'**..-''..-'''
опорная выборки состоят из наблюдений, 0 8 характеризующихся одной и той же плот-
10
,-3
ностью вероятности (гипотеза Н°), распределения статистик Т и Т2 (Р (Т.| Н°) и Р (Т21 Н°) соответственно) не зависят от вида распределения наблюдений и опреде-
0.6 0.4
0.2 Ь
0 1
10-4 .Г/ у
// /// У/ о
/
10
10
-3
,-4
■1 -2 ■3 ■4
1.6
2.2
Рис. 1
2.8
2
ляются только параметрами алгоритма (размерами выборок). Так, распределение статистики 7 определяется выражением
г^ / \ ^ / \~im-7 г ^ / ч ^ / \Т)7
х
Р (7] Н 0 ) = п (п -1) СТт | | [^ ( 2 ) - (5 )]т-7] {1 -[^0 ( 2 ) - (5 )]}71
п-, ст1 п(п-1)
х[(2 ) - (5)]п 2 Р0 (5) Р0 ( 2 ) ё5ё2 = ~т
ст+п (7! + 2)
где Сь = —-тЬ-1—)— биномиальный коэффициент. а!( Ь - а)!
Порог Сц , обеспечивающий заданную вероятность ложной тревоги а, определяется в результате решения уравнения
т
а= X Р (7х| Н 0 ) . (4)
71 =СГ1
Правило принятия решения ф (71) формулируется следующим образом:
Г1, 71 > СТ ;
97 > = {0, 7, < сТ1. (5)
а вероятность правильного обнаружения (мощность правила в) рассчитывается по формуле
т
в= X Р7Н1). (6)
7 =Ст1
Для определения распределения статистики 72 введем две вспомогательные статистики I и ]. Статистику I определим как количество к элементов из рабочей выборки, меньших Ут1п: г = к. В том случае, если некоторое количество элементов к' из опорной выборки меньше хт|п, будем считать г = -к'. Статистику ] определим как количество I элементов из рабочей выборки, больших утах : ] = I. Аналогично, если некоторое количество элементов Г из опорной выборки больше хтах, то ] = -Г. Присвоение статистикам I и у указанных знаков связано с учетом их значений в выражении для статистики 72. Можно отметить, что 72 = г + ].
Рассмотрим совокупность следующих простейших несовместных событий, связанных с вычислением статистики 72 :
• (г > 0) & (] > 0). Событие, заключающееся в том, что имеются I наблюдений из рабочей выборки, меньших утт, и у наблюдений, больших утах. Обозначим вероятность такого события как Р1 (г, ]).
• (г < 0) & (] < 0) . Событие, заключающееся в том, что имеются г наблюдений из опорной выборки, меньших хтт, и ] наблюдений, больших хтах. Этому событию сопоставим вероятность Р2 ( -г, - ] ).
—00 —00
======================================Известия вузов России. Радиоэлектроника. 2006. Вып. 2
• (г < 0) & (] > 0) & (] < т). Событие, заключающееся в том, что имеются I наблюдений из опорной выборки, меньших хтт, и несколько (но не все т) наблюдений у из рабочей выборки, больших утах . Вероятность такого события Р3 (-г, у).
• (г > 0) & (г < т) & (у < 0). Событие, заключающееся в том, что имеются несколько (но не все) наблюдений I из рабочей выборки, меньших >'тт, и у наблюдений из опорной выборки, больших хтах. Вероятность такого события обозначим Р4 (г, - у).
• (г = т). Событие, заключающееся в том, что все наблюдения из рабочей выборки меньше у|пт (следовательно, все элементы опорной выборки больше хтах и у = -п). Вероятность этого события Р5 (т, -п) .
• (у = т). Событие, заключающееся в том, что все наблюдения из рабочей выборки больше утах (следовательно, все элементы опорной выборки меньше х^п и г = -п). Вероятность такого события Р6 ( -п, т ).
Распределение статистики У? при гипотезе Н0 определяется в результате интегрирования двухмерного распределения Р^ (г, у'|Н0), являющегося композицией шести функций р - Р6, описанных выше и определенных на неперекрывающихся областях:
. да г
Р (г, у\Н 0 ) = п (п -1) .| . |(т-. | | [1 - Р (г)] [р О)]' х г! ]!(т-г- ] 1| J J
у ' -да -да
ст-2
х[р (г) - Р (5)]т+п-г-]-2 Р0 (5)Р0 (г)dsdz = Ст+п- -] -2 ,
Ст+п
причем здесь г, у е [1, т -1] и г + у < т .
По аналогии, вероятность Р? (-г, - ]jHo) может быть определена как
сп-2
п I • -1,7 \ ст+п-г- у-2 . . г1 ^
р2 Н-АН0) =-^—;l, у е ип-1] и г+у < п,
Ст+п
а вероятность Р3 как
да да иг
Р3 (у, -г|Н0) = тп(т - 1)(п -1)С]тСп | | | | [1 -р (и)]] х
—да —да —да —да
х[Р0 (и) - Р (V)]п+^'—2 [Р (5)]г [Р0 (г) -Р (5)]п+т—-—2 х
Сп—г - сп—г
хР0 (и ) р0 (V ) Р0 ( 5) р0 ( г ) dudvd5dг =
Сп+т
при г е [1,п -1]; у е [1,т -1].
По аналогии,
Ст-} _ ст-}
п I ■ I и \ т+п-г -]-1 т +п-г -] -2 . Г1 Л • П Л
р4 (_i, Ано)=-—~т-—; 1 е [1, т -1]; зе [1, п -1] •
сп+т
Вероятность Р5 (т, -п|Но ) определяется соотношением
да
Р5 (т, -п\Нд) = т | [^ (г)]П [1 -^ (г)]т-1Рд (г)йг = 1/ С^т ,
—оо ,п
Р6 (-п, т\Н о ) = 1/С
Результирующее распределение Р2 (г, з'|Но) имеет вид:
Р1 (*,3|Но), г е [1,т -1]; 3 е [1,т -1]; г + 3 < т; р2 (г,3\Но), г е [-1,1 -п]; 3 е [-1,1 -п]; |/ + 3| < п; Рз (г,3|Но), г е [1,т -1]; 3 е [-1,1 -п]; Р4 (г,3|Но), г е [-1,1 -п]; 3 е [1,т -1];
Р5 (и АН о), г = -п;3 = т;
, Р6 (и АНо), г=т;3 = -п•
Распределение Р Но) получается в результате интегрирования (суммирования)
п
функции (7) по одной из переменных: Р(721Но) = ^ Р^ (г, Т2 -/|Но) •
Р (г, 3|Но ) =
(7)
1=—п
Порог обнаружения С^ и вероятность правильного обнаружения в правила рассчитываются по формулам (4)-(6). Зависимости мощности критерия, основанного на статистике Т2, от контраста дисперсий приведены на рис. 1 (кривые 1) для нескольких значений а
при п = т = 32. Видно, что этот непараметрический критерий имеет мощность, сопоставимую с мощностями упомянутых критериев Ансари-Брэдли (см. рис. 1, кривые 3) и квадратов рангов (см. рис. 1, кривые 2). При этом в вычислительном плане статистика критерия, основанного на превышающих наблюдениях, оказывается существенно более эффективной, чем статистики ранговых критериев, из-за отсутствия процедуры ранжирования.
Доказано [2], что критерии, использующие статистики 7] и 72, являются локально
наиболее мощными в случае равномерного распределения наблюдений. Исследования показали, что статистики этого типа оказываются более эффективными для плотностей, описываемых функциями с ограниченными областями определения.
Далее предложен способ увеличения мощности критериев превышающих наблюдений, основанный на предварительной параметрической группировке исходных отсчетов по уровням с помощью пороговой процедуры 0(2;и), где 2 = {г^, Г2, ..., Г1} - выборка
отсчетов; и = {и^, «2, •••, ик} - набор порогов. Например, с помощью пороговой процедуры 0 (2; и) со скалярным порогом и исходную выборку 2 можно разбить на две груп-
пы: Ху и . При этом группа состоит из элементов 2, превышающих порог и, а - из элементов, меньших этого порога.
В результате такой процедуры формируются группы наблюдений, описываемые различными плотностями, с ограниченными областями определения (рис. 2). Исходная плотность распределения представляется комбинацией плотностей групп: Р (г) = уР (г, и) +
Р 1 1
г,и К \ Р2 ( г, и )
ш
0 и
Рис. 2
+ (1 -у)Р2 (г,и) , где у= | Р(г)ёг .
Если для обнаружения сигнала используется двухвыборочный непараметрический алгоритм, то группировке с использованием процедуры 0 (2;и) подвергаются наблюдения как рабочей, так и опорной выборок. В результате использования процедур 0 (X ;и) и 0 (Уи) к наблюдениям рабочей X и опорной У выборок формируются группы Х1Х2 и Уу соответственно. Непараметрический тест применяется к этим группам. Результирующая статистика формируется из статистик, рассчитанных для каждой пары соответствующих групп в результате, например суммирования последних. При нулевой гипотезе соответствующие группы опорной и рабочей выборок состоят из наблюдений, характеризующихся одной и той же плотностью вероятности, поэтому статистики критерия, рассчитанные для каждой из групп наблюдений, обладают непараметрическим свойством. В то же время результирующая статистика указанным свойством не обладает.
Далее для критериев масштабных различий предлагается использовать процедуру группировки с набором порогов вида и = {-и,и}. С помощью пороговой процедуры
©1 (X) из наблюдений рабочей выборки формируются группы Ху: - и < х < и и Х2 :
(х <-и) или (х > и), а из наблюдений опорной выборки - группы у и У2 с аналогичными условиями. С учетом указанного способа группировки при нулевой гипотезе вероятность попадания отсчета х в группу Х1 (отсчета у в группу у) определяется соотношением
р = ¿0 (и ) - ¿0 (-и ). (8)
Обозначим статистику критерия, основанного на превышающих наблюдениях, примененного к группе ХУ1, через 721 и примененного к группе Х2У2, через Т22. Плотность вероятности совместного распределения этих статистик при нулевой гипотезе определяется выражением
п т
- \п-1
Р(Т21,Т21\Но) = XI с1пр1 (1 -р)п-/Р(721;к,/Но)
го,
/=0 к=0
^к к /•, лт-к
*сктрк (1 - р)т-кР(Т22;т - к,п -/\Н0 ),
(9)
33
г
эо
где к, / - количество отсчетов из рабочей и опорной выборок, попавших в группы X и 7 соответственно1; Р (Т>ь к, ) - распределение статистики Т21 при числе отсчетов в рабочей и опорной выборках к и / соответственно; Р (Т22;т - к, п - /Н0) - распределение статистики Т22 при числе отсчетов в рабочей и опорной выборках (т - к) и (п - /) соот-
ветственно.
Выражение (9) можно привести к виду
п т
Р (Т21, Тм| Но ) = XI сПсктрк+/ (1 - р )т+п-к-/Р (Т21; к,/Но )Р (Т22; т - к, п -/Но ). (10) / =0 к=0
При вычислении статистики Т2 предполагается, что любая группа содержит по крайней мере два элемента (это необходимо для вычисления максимального и минимального отсчетов выборки). Поскольку в группе может оказаться меньше элементов либо не оказаться элементов вообще, то необходимо доопределить статистику Т2, например следующим образом:
к, (/ = 0) & (к > 0); -/, (к = 0) & (/ > 0); 0, к = / = 0; к, (/ = 1) & (к > 1); -/, (к = 1) & (/ > 1); 0, к = / = 1.
Если результирующей статистикой является сумма Т^ = Т21 + Т22, то ее распределе-
т
ние определяется выражением Р (Т1Н0 ) = I Р (?21, Т^ - Т211Н0 ).
Т21 =-п
Из (10) следует, что вероятность ложной тревоги правила, использующего статистику Ту, является функцией вероятности р (8) и, следовательно, зависит (опосредованно
через р) от вида распределения наблюдений ^0 (х) и порога и . Можно, однако, указать
такое значение р, которое приведет к наи-
Т> =
в 0.8 0.6 0.4
0.2 у
0
большей вероятности ложной тревоги а (т. е. наименее благоприятному распреде-
лению
Ту
при нулевой гипотезе
1.4
2.6
Рис. 3
Р (Те| Н0)). Исследование функции а (р)
*
показывает, что значение а = а , при данном распределении ^0 (х) соответствующее наименее удачному выбору порога
1 Отсюда следует, что т - к, п - / - количество отсчетов в группах Х2 и 72 соответственно. 34
группировки и, имеет место при р = 0.5. Таким образом, наименее благоприятное распределение при нулевой гипотезе определяется выражением
т
Р* (Тх|Н0) = Е Р* (Т21,Т2 -721Н0),
T21 =-n
n m
Z Z CnCm,r(T21,k,l\Hо)P(T22;m-k,n-l|H„)
где P* (T21, T22I Ho) = -—-
Выбирая порог обнаружения Сt по наименее благоприятному распределению при
нулевой гипотезе P* Ho), можно гарантировать, что при любых распределениях наблюдений Fo (х) и любом выборе порога группировки u вероятность ложной тревоги не
превысит а*. Задаваясь конкретным видом распределения наблюдений (например, гаус-совским), можно выбрать порог группировки u таким образом, чтобы мощность правила максимизировалась. В том случае, если вид распределения наблюдений будет отличаться от ожидаемого, возможно уменьшение мощности правила.
Для демонстрации эффективности предлагаемого подхода на рис. 3 приведена зависимость мощности правила, использующего статистику Ts, от величины контраста дисперсий сигнала и помехи в (ц) при гауссовском распределении наблюдений (кривые 1).
Для сравнения на том же графике приведены аналогичные зависимости для критерия, использующего статистику T2 (кривые 2). Из рис. 3 видно, что правило, использующее группировку наблюдений, обеспечивает большую мощность.
Библиографический список
1. Теория обнаружения сигналов / Под ред. П. А. Бакута. М.: Радио и связь, 1984. 440 с.
2. Гаек Я., Шидак З. Теория ранговых критериев М.: Наука, 1971. 375 с.
3. Райфельд М. А. Непараметрический алгоритм различения стохастических сигнала и помехи, отличающихся дисперсиями // Изв. вузов. Радиоэлектроника. 1991. № 1. С. 15-21.
M. A. Rajfeld
Novosibirsk state technical university
Using of grouping for increase strength of non parametrical test based on exceeding samples
Approach used for increase strength of two-sample non parametrical test of scale distinctions is researched. This approach is based on a prior grouping of initial samples by the threshold procedure.
Nonparametric criterion, rank algorithm, statistics, probability of alpha error, power, test of hypothesis, probability density
Статья поступила в редакцию 13 июня 2005 г.