Научная статья на тему 'Обнаружение полыней'

Обнаружение полыней Текст научной статьи по специальности «Математика»

CC BY
106
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
НЕПАРАМЕТРИЧЕСКИЕ СТАТИСТИЧЕСКИЕ КРИТЕРИИ / ОБНАРУЖЕНИЕ ПОЛЫНЕЙ / КОСМИЧЕСКИЙ МОНИТОРИНГ АРКТИКИ / NONPARAMETRIC STATISTICAL TESTS / DETECTION OF POLYNYAS / ARCTIC SPACE MONITORING

Аннотация научной статьи по математике, автор научной работы — Пяткин Валерий Павлович, Салов Геннадий Иосифович

Предлагается новая непараметрическая статистика и тест, основанный на проверке гипотезы об однородности трех выборок. Тест Уитни эквивалентен специальному (линейному) случаю этого теста. Некоторые сравнения сделаны для случая с экспоненциальными выборками. Тест может быть использован при космическом мониторинге Арктики в задаче обнаружения полыней.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Пяткин Валерий Павлович, Салов Геннадий Иосифович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETECTION OF POLYNYAS

New nonparametric statistics and test based on then are proposed to check the hypothesis of homogeneity of three samples. The Whitney test is equivalent to special (linear) case of this test. Some comparisons are made for the case with samples from exponential distribution. The test can be used at space monitoring of the Arctic in a problem of polynyas detection.

Текст научной работы на тему «Обнаружение полыней»

УДК 519.24+621.391

ОБНАРУЖЕНИЕ ПОЛЫНЕЙ

Валерий Павлович Пяткин

Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, заведующий лабораторией обработки изображений, тел. (383)333-73-32, e-mail: pvp@ooi.sscc.ru

Геннадий Иосифович Салов

Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, старший научный сотрудник, тел. (383)333-73-32, e-mail: sgi@ooi.sscc.ru

Предлагается новая непараметрическая статистика и тест, основанный на проверке гипотезы об однородности трех выборок. Тест Уитни эквивалентен специальному (линейному) случаю этого теста. Некоторые сравнения сделаны для случая с экспоненциальными выборками. Тест может быть использован при космическом мониторинге Арктики в задаче обнаружения полыней.

Ключевые слова: непараметрические статистические критерии, обнаружение полыней, космический мониторинг Арктики.

DETECTION OF POLYNYAS

Valeriy P. Pyatkin

Institute of the Computational mathematics and mathematical geophysics SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrent'ev av., lab of the images processing senior researcher, tel. (383)333-73-32, e-mail: pvp@ooi.sscc.ru

Gennadiy I. Salov

Institute of the Computational mathematics and mathematical geophysics SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrent'ev av., lab of the images processing head, tel. (383)333-73-32, e-mail: sgi@ooi.sscc.ru

New nonparametric statistics and test based on then are proposed to check the hypothesis of homogeneity of three samples. The Whitney test is equivalent to special (linear) case of this test. Some comparisons are made for the case with samples from exponential distribution. The test can be used at space monitoring of the Arctic in a problem of polynyas detection.

Key words: nonparametric statistical tests, detection of polynyas, Arctic space monitoring.

Одной из актуальных задач анализа изображений районов Арктического бассейна является задача обнаружения плохо видимых (скрытых) свободных от льда узких областей поверхности ледяного покрова - полыней. Для обнаружения упомянутых объектов предлагается с помощью последовательного (или параллельного) сканирования изображения подходящим окном просматривать (анализировать) один за другим все (или почти все) фрагменты изображения с возможным или ожидаемым местоположением полыньи. Для понимания предлагаемого подхода достаточно рассмотреть анализ одного из таких фраг-

ментов изображения. Пусть X1Xm - совокупность результатов независимых измерений «яркости», полученных в m точках области проверяемого (возможного) положения полыньи на фрагменте, и пусть с целью обнаружения полыньи в случае ее присутствия по обе стороны от этой области (симметрично относительно наибольшей средней линии ее) берутся еще две совокупности измерений Y,...,Y и Z. Будем считать, что если в течение наблюдений ни полыньи, ни другого («мешающего») объекта в поле зрения не было, то (при достаточно больших расстояниях между точками измерений) X1,...,Xm, Y,..., Y и Z,...Z„ можно рассматривать как стохастически независимые случайные величины с одним и тем же непрерывным вероятностным законом распределения возможных значений яркости, скажем F(x), неизвестным наблюдателю. При наличии же полыньи на проверяемой области величины X1,..., Xm будут стохастически больше или меньше как величин Y,...,Y , так и Z,... Z . Без потери общности для определенности будем считать, что именно больше. По этим трем независимым совокупностям (на языке математической статистике - трем выборкам) X,. .,Xm, Y,..., Y, Z,. .Z нужно принимать решение: либо объявить, что обнаружена полынья, либо перейти к другому возможному положению или фрагменту изображения. Чтобы свести к минимуму риск принять ошибочное решение, необходимо проверить статистическую гипотезу H0: величины X1,..., Xm, Y,. ., Y, Z, .Z„ стохастически равны (имеет место локальная однородность, означающая, что на проверяемом положении полынья отсутствует) против альтернативной гипотезы H : величины X1,..., Xm стохастически больше как величин Y,...,Y, так и Z(присутствует полынья). Требуется указать тест (критерий) для проверки этой гипотезы, который приводил бы к правильному решению с максимальной вероятностью. Еще в 1951г. Уитни (Whitney) предложил широко применимый непараметрический статистический критерий для проверки подобной гипотезы однородности. Критерий Уитни (для краткости обозначим его через Wh) основан на статистиках U и U2 двух критериев Ман-на--Уитни. Он отклоняет гипотезу H0 в пользу H, когда одновременно

т п т п

г=1 3=1 '=1 3=1

здесь и далее I {A} обозначает индикаторную функцию события A, равную 1, если событие A произошло, и 0 в противном случае.

Насколько нам известно, возможность получения более подходящего непараметрического критерия, чем критерий Уитни до сих пор не была замечена в литературе. Разработанный в лаборатории новый критерий оказался более эффективным, отклоняющим гипотезу H в пользу H , когда присутствует полынья, с большей вероятностью, чем критерий Уитни [1-2].

Он устроен следующим образом [2]. Возьмем n = 2v четное и введем в рассмотрение следующие события (/' = l,...,m, j = l,..., v):

E-iv={Xi<mSiYJJv+J)}9 Е+1г] = {Хг>гшx(7;,7v+;)}, E°Vj = EVj n , = {X, < mir* Z„ Zv+J)}, E+2l] {Xt > max( Z;, Zv+;)}, E°2ij = E2ij n .: а также считающие их количества статистики

т У т У т v

^ = ^ = s°Eq = ^i{E°qij}, q = 1,2.

/ * / ^^ЧЧ ^ 5 ^ Ец / а / А* ^^ЧЧ ^ 5 Еч ; = 1 ./ = 1 ; = 1 ;=1 ./ = 1

принимающие значения от 0 до ту с суммой Л'", + + В соответствии

с предположениями новый непараметрический статистический критерий отклоняет гипотезу И0 в пользу И, если

Б+В9>КБ°Вя) при д = 1,2. (2)

При необходимости проверки введенной гипотезы однородности И0 против так называемой двусторонней альтернативной гипотезы И, состоящей в том, что величины Х1Хт стохастически меньше или больше как величин Ух,...,7И, так и 2Х,...2п, можно воспользоваться двусторонним вариантом нового критерия, а именно

К^ + ^-ту при 9 = 2. При этом уровень значимости критерия, т. е. вероятность отклонения гипотезы И , когда она на самом деле верна, удваивается.

Критерий Уитни (1) эквивалентен частному случаю критерия (2), когда к(и) - линейная функция вида 2к(и) = с-и, и = \,...,ту, а также критерию, отклоняющему гипотезу Н0 в пользу Я,, когда - С - ту при = 1,2, где С -

число, входящее в определение критерия (1) [2]. Ясно, что при редукции статистик ^ и , = 1,2, к простой разности и критерию

при д=1,2

возможна некоторая потеря информации о выборках и, следовательно, возможны дополнительные ошибочные решения при выполнении обнаружения.

Для простоты изложения далее будем рассматривать новый критерий вида (2). Подсчитать уровень значимости этого критерия

можно с помощью следующего утверждения. Введем сначала необходимые обозначения. Пусть Б обозначает множество тех упорядоченных разбиений ¿1 числа у на (т +1)2 неотрицательных целых слагаемых у ^ > 0 вида

(разбиения различаются либо порядком следования чисел, либо самими числами), для которых выполняется неравенство и > Ыт у -и- г), где

т—\ т-1

к—0 к=0 й=1 к=1 Возьмем два подобных разбиения числа у:

. У 00 ,У 01 ,...,У 0т ,У 10 ,У и У 1т ,...,У т(т-у)

^ - У 00 ^ 01 '•••' От 10 ^ 11 >•••> ^ 1я!'-"',/ т(т-У) ^ тт ■

т т

Тогда уровень значимости нового критерия (2) можно записать в следующем виде:

^ > д = 1,2 | Я0} = Е £(ГЬ! XП ! ! Г >

(аа/ + ¿а/)! а„е0 к=о о

где

й=0

Отсутствие полной априорной информации делает затруднительным отыскание оптимальной функции к критических значений. Вполне подходящей может быть функция к, полученная с помощью известной в математической статистике концепции близких гипотез. К сожалению, точные выражения для мощности (вероятности отклонения гипотезы Н0, когда справедлива альтернативная гипотеза) критериев (1) и (2) установить нелегко. Исключение составляют лишь несколько частных случаев в которых возникающие интегралы удается получить в явном виде. Одним из них является случай, когда в качестве близкого альтернативного распределение для величин X выбирается распределение (гипотеза Н*( а))

в(х) = (}-а)Р(х) + аР2(х), (3)

где 0 < а < 1 (при а = 0 имеет место нулевая гипотеза Я0). Распределение (3)

примечательно еще и тем, что в случае с этим распределением при достаточно малых а > 0 критерий Вилкоксона-Манна-Уитни является наиболее мощным среди всех так называемых ранговых критериев.

При гипотезе Я*(а) вероятность Р{8+Е1=и,8Е1=1\н1(а)} для т, 2у>2 допускает представление

й<ё.В г= 0 й,д=0 г=0 (АА/ "I" А/"I"/)!

здесь

т

к=О

Л»,о = 1, А,.\ = л'п + 1, а остальные числа Ат. могут быть получены с помощью рекуррентных соотношений (у = 2,3,...,т) \

Аг = 4-и + > Аи = А>-ч + Л-1,-1 (^-1 + " !) > * = 2'3'-' 1 ~ 1'

(-V V 1),

где =50 +5 + ... + ^ + ] .

Перейдем к непосредственному отысканию подходящей функции к(z). Обозначим через Н*(а*) альтернативную гипотезу с распределением (3) при фиксированном значении параметра а = а *. Введем в рассмотрение совместное распределение статистик и Л')', при этой «простой» гипотезе

р\ (и, Г) = « = и, ^ = Г I я; (а*)} = Р{ = игБ^= ту-и-2 \ Н*Е1 (а*)}

т

т

и обратимся к единичному критерию Манна-Уитни ^ >к(8°т). Если основная (проверяемая) гипотеза отклоняется, когда пара статистик и Л'", попадает в некоторую область Жх, то в математической статистике такую область принято называть критической (критерием). Оптимальная критическая область (ОКО) Ж* с уровнем значимости, не превышающим заданный уровень значимости ах, совпадающий с уровнем значимости критерия Манна - Уитни, в соответствии с фундаментальной леммой Неймана-Пирсона может быть построена следующим образом. Обозначим через ец событие ¡Л',', = ?/,,Лд1, = Все эти возможные

события удобно пронумеровать (расположить в памяти ЭВМ) в порядке убывания (не возрастания) величин /' (е„) = р*(е„)/р0(е„), т. е. так, чтобы

Г* / \ * у

L\e1)>L\e2)>...>L\ek)>L\ek+1)>...

Именно в этом порядке следует включать события ei в ОКО Wx *. Процедура

включения продолжается до первого нарушения неравенства

к+1

^Р0{ег)>ах. (4)

i=1

Тогда для фиксированного z в качестве h(z) следует взять наименьшее из тех значений u, при которых пара (u, z) содержится в полученном множестве W*. Уровень значимости полного нового критерия (2) с полученными выше критическими значениями будет значительно меньше ах. Если он оказался слишком малым, то следует заменить ах в (4) на большее значение.

В связи с поставленной задачей и с тем, что критерий Уитни и предлагаемый новый критерий наиболее чувствительны к сдвигам распределений, интересно сравнить мощности этих критериев для распределений отличающихся сдвигами. Наиболее просто это сделать для случая с экспоненциальными распределениями:

Н0: F(x) = \-е~х при X > 0, (5)

Нх\ G( х) = \-е

-(х-в)

при X > в, в > О.

(6)

Заметим, что экспоненциальное распределение весьма часто встречается при анализе изображений.

Пример: т = 5, п = 4, С = 15 в (1), ах = 0,095238 в (4). С помощью концепции близких гипотез при а = а* = 0,7 в (3) были получены критические значения, приведенные в табл. 1.

Значения h(z),z = 1,...Д0

Таблица 1

z 0 1 2 3 4 5 6 7 8 9 10

h 8 7 7 6 5 4 4 3 2 1 0

Чтобы уровень значимости нового критерия (2) оказался несколько меньше уровня значимости критерия Уитни (1) , была сделана замена /?(()) = 9. Результаты вычисления мощности критериев (в задаче обнаружения - вероятно-

сти обнаружения) для разных значений в в (5)-(6) даны в табл. 2. Столбец с в = 0.0 содержит уровни значимости критериев.

Мощности критериев Уитни и ^ нового критерия (2)

Таблица 2

в 0.0 0.01 0.1 0.2 0.5 1.0 2.0 2.5 3.0 4.0

Уитни 0.0257 0.0270 0.0404 0.061 0.166 0.41 0.79 0.87 0.92 0.974

новый критерий 0.0250 0.0263 0.0410 0.065 0.199 0.52 0.90 0.96 0.98 0.997

Нижний ряд принадлежит новому критерию (2). Из сравнений в таблице достаточно хорошо видно преимущество нового критерия в мощности (вероятности обнаружения).

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Салов Г.И. О мощности одного нового статистического критерия и двухвыбороч-ного критерия Вилкоксона // Автометрия. - 2014. - Т. 50, № 1. -- С. 44-59.

2. Салов Г.И. Новый непараметрический статистический критерий для задач с тремя выборками, частный случай которого эквивалентен критерию Уитни // Сибирский журнал вычислительной математики. - 2014. - Т. 17, № 4. - С. 389-397.

© В. П. Пяткин, Г. И. Салов, 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.