Научная статья на тему 'Методика проверки гипотез о распределениях многомерных спектральных данных с использованием непараметрического алгоритма распознавания образов'

Методика проверки гипотез о распределениях многомерных спектральных данных с использованием непараметрического алгоритма распознавания образов Текст научной статьи по специальности «Математика»

CC BY
190
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
Ключевые слова
проверка статистических гипотез / многомерные случайные величины / распознавание образов / ядерная оценка плотности вероятности / выбор коэффициента размытости / спектральные данные / дистанционное зондирование / состояния лесных массивов. / testing a statistical hypothesis / multivariate random variables / pattern recognition / kernel density estimation / selecting bandwidth / spectral data / remote sensing / forest conditions.

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

В работе рассматривается новая методика проверки гипотез о распределениях многомерных спектральных данных дистанционного зондирования. Предлагаемая методика основана на использовании непараметрических алгоритмов распознавания образов. Проверка гипотезы о тождественности двух законов распределений многомерных случайных величин заменяется на проверку гипотезы о равенстве ошибки распознавания образов значению 0,5. Применение данной методики позволяет исключить проблему декомпозиции области значений случайных величин на многомерные интервалы, которая свойственна для критерия Пирсона. Её эффективность подтверждается результатами проверки гипотез о распределении спектральных данных дистанционного зондирования лесных массивов. Проводится анализ законов распределения следующих состояний лесных массивов: темнохвойный лес, повреждённые и сухие древостои. Исходная информация получена по данным дистанционного зондирования территории юга Сибири с помощью аппарата Landsat по 6 спектральным каналам. Результаты исследований являются важными для формирования набора значимых спектральных признаков в задаче оценивания состояний лесных массивов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Face DetectNet: face detection via fully-convolutional network

The paper deals with a new method of testing hypotheses for the distribution of multidimensional remote sensing spectral data. The proposed technique is based on the use of nonparametric algorithms for pattern recognition. Testing the hypothesis of the identity of two laws of distributions of multidimensional random variables is replaced by testing a hypothesis stating that the pattern recognition error equals 0.5. The application of this technique allows doing without the decomposition of the random variable domain into multidimensional intervals, which is typical for the Pearson criterion. Its effectiveness is confirmed by the results of testing the hypotheses of the distribution of spectral data of remote sensing in forestry. The analysis of the distribution laws for the following types of forestry is carried out: dark coniferous forest, damaged and dry forest stands. The initial information was obtained from the southern Siberia remote sensing data using six spectral channels of Landsat. The results of the research form a basis for a set of significant spectral features when dealing with forest condition monitoring.

Текст научной работы на тему «Методика проверки гипотез о распределениях многомерных спектральных данных с использованием непараметрического алгоритма распознавания образов»

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Методика проверки гипотез о распределениях многомерных спектральных данных с использованием непараметрического алгоритма распознавания образов

А.В. Лапко12, В.А. Лапко1,2 1 Институт вычислительного моделирования СО РАН, Россия, Красноярск, 2 Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева,

Россия, Красноярск

Аннотация

В работе рассматривается новая методика проверки гипотез о распределениях многомерных спектральных данных дистанционного зондирования. Предлагаемая методика основана на использовании непараметрических алгоритмов распознавания образов. Проверка гипотезы о тождественности двух законов распределений многомерных случайных величин заменяется на проверку гипотезы о равенстве ошибки распознавания образов значению 0,5. Применение данной методики позволяет исключить проблему декомпозиции области значений случайных величин на многомерные интервалы, которая свойственна для критерия Пирсона. Её эффективность подтверждается результатами проверки гипотез о распределении спектральных данных дистанционного зондирования лесных массивов. Проводится анализ законов распределения следующих состояний лесных массивов: темнохвойный лес, повреждённые и сухие древостои. Исходная информация получена по данным дистанционного зондирования территории юга Сибири с помощью аппарата Landsat по 6 спектральным каналам. Результаты исследований являются важными для формирования набора значимых спектральных признаков в задаче оценивания состояний лесных массивов.

Ключевые слова: проверка статистических гипотез, многомерные случайные величины, распознавание образов, ядерная оценка плотности вероятности, выбор коэффициента размытости, спектральные данные, дистанционное зондирование, состояния лесных массивов.

Цитирование: Лапко, А.В. Методика проверки гипотез о распределениях многомерных спектральных данных с использованием непараметрического алгоритма распознавания образов / А.В. Лапко, В.А. Лапко // Компьютерная оптика. - 2019. - Т. 43, № 2. - С. 238-244. -DOI: 10.18287/2412-6179-2019-43-2-238-244.

Введение

Методы комплексного анализа данных дистанционного зондирования являются основой создания информационных систем для поддержки принятия решений в задачах оценивания состояний природных объектов [1, 2].

Для проверки гипотез о распределениях многомерных случайных величин используется критерий согласия Пирсона. Однако методика его формирования содержит трудно формализуемый этап разбиения области значений случайных величин на многомерные интервалы [3].

В статьях [4, 5] обосновывается возможность использования непараметрических алгоритмов распознавания образов, соответствующих критерию максимального правдоподобия, в задаче проверки статистических гипотез о распределениях случайных величин. Результаты использования предлагаемой методики сопоставимы с критерием Колмогорова - Смирнова для одномерных задач в условиях, когда количество элементов сравниваемых последовательностей случайных величин отличается незначительно. При различных объёмах случайных последовательностей наблюдается

снижение эффективности предлагаемой методики. Данный факт согласуется с результатами исследований [6], где показано значительное ухудшение аппрок-симационных свойств непараметрической оценки уравнения разделяющей поверхности при увеличении степени неравномерности распределения элементов обучающей выборки между классами.

Цель работы - применение предложенной методики при решении задачи проверки гипотез о распределениях многомерных спектральных данных дистанционного зондирования в задачах исследования состояний лесных массивов.

1. Методика проверки гипотезы о распределениях многомерных спектральных данных дистанционного зондирования

Пусть Х1 и Х2 - две генеральные совокупности с произвольными законами распределения. Необходимо по независимым выборкам У1 = (х', ' = 1, п1) и

V =( х',' = 1, п2) многомерных спектральных данных х = (х„, V = 1, к), извлечённым из данных генеральных совокупностей, проверить гипотезу

5(') = { 1 w | г

Н>: ^ (х) = ^ (х)

о тождественности их функций распределения Р1(х), Ъ(х).

Сформируем на основании У1, У2 обучающую выборку V = (х', 5(), ' = 1, п), где п = п1 + п2, а указания

о принадлежности ситуации х' к У1 либо У2 определяется соотношением

[-1V х' е V IV х' е У2 .

В этом случае элементы множеств У1, У2 характеризуют состояние природных объектов и образуют классы Оь О2. Под классом Оу будем понимать область определения плотности вероятности р,(х) ^ 0,

У = 1, 2.

Будем решать двуальтернативную задачу распознавания образов, используя байесовское решающее правило, соответствующее критерию максимального правдоподобия [7 - 10]

I х е^! , если /12 (х) < 0

m

(x )■,

x efi2 , если f12 (x )> 0 .

где уравнение разделяющей поверхности между классами /12(х) = р2(х) -р1(х); р(х) - условная плотность вероятности распределения х в классах Оу,

У = 1, 2.

Этому решающему правилу соответствует ошибка распознавания образов

р = Рр1 +Р2Р2. Здесь Рь Р2 - априорные вероятности классов О 1, О 2, а р 1, р 2 - ошибки их классификации в пространстве признаков х.

Если О 12 = О 1пО 2 = 0, то вероятность ошибки распознавания образов р = 0 и плотности вероятностей р1(х), р2(х) в соответствии с введенным определением класса отличаются. При сближении параметров плотностей вероятностей ру(х), ] = 1, 2 область пересечения классов увеличивается, что сопровождается ростом вероятности ошибки распознавания образов. Если отмеченная выше тенденция сохраняется, то значения р 1 и р 2 стремятся к значению 0,5. Тогда нетрудно заметить справедливость утверждения р = 0,5, так как Р1 + Р2 = 1.

В этих условиях законы распределения данных в области определения классов, очевидно, совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения многомерных спектральных данных к проверке гипотезы Н0 о равенстве вероятности ошибки оценивания состояний природных объектов значению 0,5.

Предлагаемая методика основывается на выполнении следующих действий.

По выборке У осуществить синтез непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия [7, 8],

m

(x):

I x eQ1 , если f12 (x )< 0

(1)

I x еПг , если f12 (x )> 0.

При формировании оценки уравнения разделяющей поверхности

fi2 (x) = p2 (x)- Pi (x ) (2)

будем использовать непараметрические статистики

Pi (x) =1 Sil"1 ф(^

n1 ieI1 v=1 Cv V Cv

P2 (x )= ± Sil-1 фГ ^

n2 ieh v=1 Cv V Cv

являющиеся оценками плотностей вероятности p1(x), p2(x) многомерной случайной величины x в классах Qb типа Розенблатта - Парзена [11 - 14]. Здесь Ij -множество номеров ситуаций из обучающей выборки, принадлежащих классу Q, j = 1, 2. Ядерные функции Ф(и v) удовлетворяют условиям:

+да

ф(и) = ф(-uv), 0 < ф(uv) <да, J ф(uv)duv = 1,

—да

+да _

J umф(и)duv <да, 0 < m <да , v = 1,к .

—да

Значения их коэффициентов размытости cv ядерных функций убывают с ростом n1, n2.

Тогда статистику (2) можно представить выражением

_ 1 n к 1 1 x —

f12 (x)=1S5(1 )П-Фí xv xv

(3)

где

5(0 =

| — P11, если x' e Q1 I P2 \ если x' e Q2.

Здесь Р1 = п11п , Р2 = п2/п - оценки априорных вероятностей классов О1, О2.

Выбор оптимальных значений с, V = 1, к коэффициентов размытости с = (с„, V = 1, к) ядерных функций непараметрического решающего правила т (х) осуществляется из условия минимума оценки вероятности ошибки распознавания образов

р(с )=n S 1(5(t), 5(t)),

(4)

где индикаторная функция

.(ад^ьН" 8(,)=1(,)

У ' [1, если 5(')*5(').

Здесь 5(') - «решение» алгоритма т (х) (1) о принадлежности значений х' к одному из классов О1, О2.

При вычислении р( с) «решение» 5(') алгоритма (1) определяется в соответствии со знаком статистики

/2 (х' ) = £ 5(' )П~ ф

Ситуация х', которая подаётся на контроль, исключается из процесса обучения алгоритма (1).

Оптимизацию непараметрического решающего правила (1) по коэффициентам размытости ядерных функций с„, V = 1, к , можно упростить, если положить с„ = с ст„ (у), V = 1, к, где ст„ (у) - оценка сред-неквадратического отклонения случайной величины х^, в классе Ц. Данное утверждение является очевидным, так как большей длине интервала значений х^, соответствует больший коэффициент размытости с„ ядерной функции Ф(и„), V = 1, к . Подобный подход использовался при построении «быстрых» процедур оптимизации непараметрических оценок плотности вероятности ядерного типа [15 - 19].

В этом случае непараметрическая оценка уравнения разделяющей поверхности (3) запишется в виде

к 1

fi2 (x) = (nck) £5(i ф

' x - xV X

(5)

где

CTv = -

|ст„ (l), если x' eOj

1ст„ (2), если х' е Ц2 .

Значения оценок среднеквадратических отклонений стv (у) определяются по статистическим данным х[, 'е!у из выборки V

ст„

(j) = [ jT£(xv -

V nj 1

y/2

j = 1,2.

Здесь х„ - среднее значение случайной величины х^, в соответствующем классе.

Поэтому появляется возможность оптимизацию непараметрического алгоритма распознавания образов (1) проводить лишь по одному параметру с коэффициентов размытости ядерных функций из условия минимума оценки вероятности ошибки распознавания образов (4).

Проверить гипотезу Н0: р = 0,5, используя методику доверительного оценивания ошибки распознавания образов р [3] либо критерий Колмогорова [20]. В первом случае гипотеза Н0 выполняется, если значение р = 0,5 попадает в интервал

Pl , Р2 = "

P + f Т J^ f

2 n у n 4 n2

Т2

1

Здесь 'а - значение аргумента функции Лапласа, при котором выполняется условие

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2^('а) = а,

где а - коэффициент доверия принадлежности р интервалу [р1, Р2].

При использовании критерия Колмогорова отклонение Д2 = |0,5 -р( с )| сравнивается с его пороговым значением

°'=1 - Шгп) .

Здесь р - вероятность (риск) отвергнуть правильную гипотезу H 0.

Если выполняется соотношение D12 < Dp, то гипотеза H0 справедлива и риск её отвергнуть равен р.

Анализ результатов вычислительных экспериментов показывает, что при значительном отличии объёмов n1, n2 сравниваемых последовательностей V1, V2 эффективность предлагаемого метода снижается.

Предлагаемая методика реализована в программном комплексе NSARSD v. 1,0 в среде Delphi. Его функциональные возможности позволяют дополнительно решать следующие задачи: оценивание достаточно полного набора количественных показателей законов распределений случайных величин xv, v = 1, k в классах, оценивание принадлежности ситуации x к тому или иному классу и пространственное распределение состояний изучаемых объектов с последующей графической интерпретацией результатов классификации.

2. Проверка гипотез о распределениях многомерных спектральных данных дистанционного зондирования лесных массивов

Рассмотрим задачи проверки гипотезы о тождественности распределений многомерных спектральных данных дистанционного зондирования, соответствующих состояниям древостоев лесных массивов с использованием предложенной методики.

Исходная информация получена по данным дистанционного зондирования территории юга Красноярского края с помощью аппарата Landsat по шести спектральным каналам. Спектральные каналы имеют разрешение (размер одного пикселя) 30 м. Для оценивания состояний древостоев лесных массивов специалистами по дешифрированию космических снимков была сформирована обучающая выборка V = (x', 5 ('), i = 1, n), где 5(i) - указания о принад-

' v = 1,6) к

=(xv, v = 1, б)

лежности спектральных данных х =

одному из состояний древостоев Ц, у = 1,3 (темно-хвойный лес, повреждённые (усыхающие) и сухие древостои) [21]. Количество ситуаций выборки V, принадлежащих состояниям Ц, у = 1,3, определялись значениями: п = 968, п2 = 198, п3 = 570. Каждый элемент земной поверхности характеризовался шестью спектральными признаками х = (хь...,х6), которым свойственны следующие длины волн (наномет-

n

ры): 450 - 515 (хД 525 - 600 (х2), 630 - 680 (х3), 845 -885 (х4), 1560 - 1660 (х5), 2100 - 2300 (х6).

Проверялись гипотезы о тождественности законов

распределения х = (х„, V = 1,6) в состояниях Ц,

у = 1,3. Для каждого состояния Ц соответствующая ему выборка V случайным образом разбивалась на две части У/(1), Уу(2) равных объёмов. Проверялись гипотезы

Н0 (у): Ъу (х) = Ъу (х)

о тождественности функций распределений Ъу(х), Ъ2] (х), представленных статистическими данными

V(1), Уу(2), у = 1,3. При этом значения а = 0,95, а

Р = 0,05. Результаты вычислительных экспериметов представлены в табл. 1.

В таблице приведены средние значения параметров исследуемой методики, которые вычислялись по количеству результатов вычислительных экспериментов т = 50.

Табл. 1. Результаты вычислительных экспериментов

В соответствии с данными табл. 1 законы распределения спектральных признаков в состояниях Цу , у = 1,3 являются тождественными. Результаты проверки гипотез законов распределения Ъ1у (х), Ъ2у (х), у = 1,3 с использованием методики доверительного

оценивания р и критерия Колмогорова сопоставимы. Это утверждение подтверждается справедливостью соотношений Д2< Дз и принадлежностью р(С) доверительному интервалу р! <р(с )<р2 для всех состояний лесных массивов Цу , у = 1,3. При этом оценка вероятности отвергнуть гипотезу Н0(1) для темно-хвойного леса не превышает значения 0,02, а гипотезу Н0(2) для усыхающих древостоев - не более 0,05. Данный факт объясняется неоднородностью состояний древостоев Ць Ц2. Например, темнохвойный лес состоит из различных их типов (сосна, кедр, ель, лиственница, пихта), которые растут на территории с различным рельефом. Эти условия проявляются в значениях спектральных признаков элементов земной поверхности. Понятие усыхающие древостои в своём определении характеризуются их неоднородностью, что влияет на решения специалистов по дешифрированию лесных массивов. Гипотезы о тождественности законов распределения спектральных данных, соответствующих различным состояниям древостоев лесных массивов, не подтверждаются при реализации различных условий вычислительных экспериментов.

Дальнейшее развитие предлагаемой методики состоит в разработке её модификации на условия срав-

ниваемых выборок V1, V2 многомерных случайных величин малого объёма, когда возникает необходимость сокращения затрат на дешифрирование исходной информации дистанционного зондирования. При малых выборках Vi, V2 традиционные непараметрические оценки плотности вероятности типа Розенблат-та - Парзена p1 (x), p2 (x) и построенные на их основе ядерные оценки уравнений разделяющих поверхностей вида (3) характеризуются большой дисперсией, что сказывается на точности оценивания вероятности ошибки распознавания образов (4). Для этих условий целесообразно использовать непараметрические оценки плотностей вероятностей с неявно заданной формой ядерной функции [14]

p, (x) = [„П2ßvC] 1 Шф[^] duv ,

j = 1,2 при оценивании уравнения разделяющей поверхности f12(x) = p2(x) -p1(x) между классами Q1, Q2. Синтез статистик pj (x) основан на сглаживании непараметрических оценок плотностей вероятности pj (x) путём использования оператора интегрирования в интервале [xv ± ßv, v = 1, k].

Заключение

Предложенная методика проверки гипотез о распределениях случайных величин обеспечивает обход проблемы декомпозиции области значений случайных величин на многомерные интервалы, которая свойственна для критерия Пирсона. Проверка гипотезы о тождественности двух законов распределений многомерных случайных величин заменена на проверку гипотезы о равенстве ошибки распознавания образов значению 0,5. Использование метода доверительного оценивания вероятности ошибки распознавания образов и критерия Колмогорова приводит к сопоставимым результатам. Эффективность предложенной методики подтверждается её применением при проверке гипотез о распределении спектральных данных дистанционного зондирования древостоев лесных массивов. Рассматриваемая методика может быть использована при формировании наборов значимых спектральных признаков в задаче оценивания состояний лесных массивов по степени их усыхания, что является важным в задачах принятия решений о пожароопасности лесных массивов.

Литература

1. Афанасьев, А.А. Гибридные методы автоматизированной идентификации изменений ландшафтного покрова по данным дистанционного зондирования Земли в условиях шумов / А.А. Афанасьев, А.В. Замятин // Компьютерная оптика. - 2017. - Т. 41, № 3. - С. 431-440. - DOI: 10.18287/2412-6179-2017-41-3-431-440.

2. Васин, Ю.Г. Распределённая СУБД для интегрированной обработки пространственных данных в ГИС / Ю.Г. Васин, Ю.В. Ясаков // Компьютерная оптика. -

Значения параметров предлагаемой методики

р(с ) c Р1 Р2 D Dß

Q, 0,478 2,44 0,447 0,509 0,022 0,044

Q, 0,444 0,58 0,378 0,513 0,056 0,097

Q3 0,477 0,87 0,437 0,518 0,023 0,057

2016. - Т. 40, № 6. - С. 919-928. - DOI: 10.18287/24126179-2016-40-6-919-928.

3. Пугачёв, В. С. Теория вероятностей и математическая статистика : учебное пособие / В.С. Пугачёв. - М: Физ-матлит, 2002. - 496 с.

4. Лапко, А.В. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных величин / А.В. Лапко, В.А. Лапко // Автометрия. - 2010. - Т. 46, № 6. - С. 47-53.

5. Лапко, А. В. Сравнение эмпирической и теоретической функций распределения случайной величины на основе непараметрического классификатора / А.В. Лапко, В.А. Лапко // Автометрия. - 2012. - Т. 48, № 1. - С. 4549.

6. Лапко, А.В. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов / А.В. Лапко, В.А. Лапко // Автометрия. - 2010. - Т. 46, № 3. - С. 48-53.

7. Непараметрические системы классификации / А.В. Лапко, В.А. Лапко, М.И. Соколов, С.В. Ченцов. -Новосибирск: Наука, 2000. - 240 с.

8. Fukunaga, K. Introduction to statistical pattern recognition / K. Fukunaga. - San Diego: Academic Press, 1990. -614 p.

9. Theodoridis, S. Pattern recognition / S. Theodoridis, K. Koutroumbas. - Burlington, MA: Academic Press, 2009. - 961 p.

10. Webb, A.R. Statistical pattern recognition / A.R. Webb, K.D. Copsey. - Chichester: John Wiley & Sons, 2011. -666 p.

11. Parzen, E. On estimation of a probability density function and mode / E. Parzen // The Annals of Mathematical Statistics. - 1962. - Vol. 33, Issue 3. - P. 1065-1076. - DOI: 10.1214/aoms/1177704472.

12. Епанечников, В.А. Непараметрическая оценка многомерной плотности вероятности / В.А. Епанечников //

Теория вероятности и её применения. - 1969. - Т. 14, № 1. - С. 156-161.

13. Лапко, А. В. Регрессионная оценка многомерной плотности вероятности и её свойства / А.В. Лапко, В.А. Лапко // Автометрия. - 2014. - Т. 50, № 2. - С. 5056.

14. Лапко, А.В. Непараметрическая оценка плотности вероятности парзеновского типа с неявно заданной формой ядерной функции / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2016. - № 6. - С. 14-17.

15. Sheather, S.J. Density estimation / S.J. Sheather // Statistical Science. - 2004. - Vol. 19, Issue 4. - P. 588-597. -DOI: 10.1214/088342304000000297.

16. Scott, D.W. Multivariate density estimation: Theory, practice, and visualization / D.W. Scott. - New Jersey: John Wiley & Sons, 2015. - 384 p.

17. Chen, S. Optimal bandwidth selection for kernel density functionals estimation / S. Chen // Journal of Probability and Statistics. - 2015. - Vol. 2015(1). - P. 1-21. - DOI: 10.1155/2015/242683.

18. Borrajo, M.I. Bandwidth selection for kernel density estimation with length-biased data / M.I. Borrajo, W. González-Manteiga, M.D. Martínez-Miranda // Journal of Nonpara-metric Statistics. - 2017. - Vol. 29, Issue 3. - P. 636-668. -DOI: 10.1080/10485252.2017.1339309.

19. Лапко, А.В. Быстрый алгоритм выбора коэффициентов размытости ядерных функций в непараметрической оценке плотности вероятности / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2018. - № 6. - С. 16-20. -DOI: 10.32446/0368-1025it-2018-6-16-20.

20. Шаракшанэ, А. С. Сложные системы / А.С. Шаракшанэ, И.Г. Железнов, В.А. Ивницкий. - М.: Высшая школа, 1977. - 248 с.

21. Kharuk, V.I. Fir decline and mortality in the southern siberian mountains / V.I. Kharuk, S.T. Im, I.A. Petrov, M.L. Dvinskaya, E.V. Fedotova, K.J. Ranson // Regional Environmental Change. - 2017. - Vol. 17, Issue 3. - P. 803812. - DOI: 10.1007/s10113-016-1073-5.

Сведения об авторах

Лапко Александр Васильевич, 1949 года рождения, в 1971 году окончил Фрунзенский политехнический институт по специальности «Автоматика и телемеханика», доктор технических наук, профессор, заслуженный деятель науки РФ, главный научный сотрудник Института вычислительного моделирования Сибирского отделения Российской академии наук, профессор кафедры космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Область научных интересов: непараметрическая статистика; распознавания образов и анализ изображений; моделирование и оптимизация неопределённых систем, дистанционное зондирование. E-mail: lapko@icm.krasn.ru .

Лапко Василий Александрович, 1974 года рождения, в 1996 году окончил Красноярский госудаственный технический университет по специальности «Управление и информатика в технических системах», доктор технических наук, профессор, ведущий научный сотрудник Института вычислительного моделирования Сибирского отделения Российской академии наук, заведующий кафедрой космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Область научных интересов: непараметрическая статистика; распознавания образов и анализ изображений; моделирование неопределённых систем, дистанционное зондирование. E-mail: valapko@yandex.ru .

ГРНТИ: 28.23.15

Поступила в редакцию 16 октября 2018 г. Окончательный вариант - 30 января 2019 г.

A technique for testing hypotheses for distributions of multidimensional

spectral data using a nonparametric pattern recognition algorithm

A.V. Lapko1'2, V.A. Lapko1,2

1 Institute of Computational Modeling of the Siberian Branch of the Russian Academy of Sciences, Russia, Krasnoyarsk, 2Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk

Abstract

The paper deals with a new method of testing hypotheses for the distribution of multidimensional remote sensing spectral data. The proposed technique is based on the use of nonparametric algorithms for pattern recognition. Testing the hypothesis of the identity of two laws of distributions of multidimensional random variables is replaced by testing a hypothesis stating that the pattern recognition error equals 0.5. The application of this technique allows doing without the decomposition of the random variable domain into multidimensional intervals, which is typical for the Pearson criterion. Its effectiveness is confirmed by the results of testing the hypotheses of the distribution of spectral data of remote sensing in forestry. The analysis of the distribution laws for the following types of forestry is carried out: dark coniferous forest, damaged and dry forest stands. The initial information was obtained from the southern Siberia remote sensing data using six spectral channels of Landsat. The results of the research form a basis for a set of significant spectral features when dealing with forest condition monitoring.

Keywords: testing a statistical hypothesis, multivariate random variables, pattern recognition, kernel density estimation, selecting bandwidth, spectral data, remote sensing, forest conditions.

Citation: Lapko AV, Lapko VA. A technique for testing hypotheses for distributions of multidimensional spectral data using a nonparametric pattern recognition algorithm. Computer Optics 2019; 43(2): 238-244. DOI: 10.18287/2412-6179-2019-43-2-238-244.

References

[1] Afanasyev AA, Zamyatin AV. Hybrid methods for automatic landscape change detection in noisy data environment. Computer Optics 2017; 41(3): 431-440. DOI: 10.18287/2412- 6179-2017-41-3-431-440.

[2] Vasin YuG, Yasakov YuV. Distributed database management system for integrated processing of spatial data in a GIS. Computer Optics 2016; 40(6): 919-928. DOI: 10.18287/2412- 6179-2016-40-6-919-928.

[3] Pugachev VS. Probability theory and mathematical statistics: textbook [In Russian]. Moscow: "Fizmatlit" Publisher; 2002.

[4] Lapko AV, Lapko VA. Nonparametric algorithms of pattern recognition in the problem of testing a statistical hypothesis on identity of two distribution laws of random variables. Optoelectronics, Instrumentation and Data Processing 2010; 46(6): 545-550. DOI: 10.3103/S8756699011060069.

[5] Lapko AV, Lapko VA. Comparison of empirical and theoretical distribution functions of a random variable on the basis of a nonparametric classifier. Optoelectronics, Instrumentation and Data Processing 2012; 48(1): 37-41. DOI: 10.3103/S8756699012010050.

[6] Lapko AV, Lapko VA. Analysis of asymptotic properties of nonparametric estimate of the equation of the separation surface in a two-alternative problem of pattern recognition. Optoelectronics, Instrumentation and Data Processing 2010; 46(3): 243-247. DOI: 10.3103/S8756699010030064.

[7] Lapko AV, Lapko VA, Sokolov MI, Chentsov SV. Nonparametric classification systems [In Russian]. Novosibirsk: "Nauka" Publisher; 2000.

[8] Fukunaga K. Introduction to statistical pattern recognition. San Diego: Academic Press; 1990.

[9] Theodoridis S, Koutroumbas K. Pattern recognition. Burlington, MA: Academic Press; 2009.

[10] Webb AR, Copsey KD. Statistical pattern recognition. Chichester: John Wiley & Sons, 2011.

[11] Parzen E. On estimation of a probability density function and mode. Ann Math Statistic 1962; 33(3): 1065-1076. DOI: 10.1214/aoms/1177704472.

[12] Epanechnikov VA. Nonparametric estimation of multidimensional probability density [In Russian]. Theory of Probability and its Applications 1969; 14(1): 156-161.

[13] Lapko AV, Lapko VA. Regression estimate of the multidimensional probability density and its properties. Optoelectronics, Instrumentation and Data Processing 2014; 50(2): 148-153. DOI: 10.3103/S875669901402006X.

[14] Lapko AV, Lapko VA. Nonparametric estimate of a parzen-type probability density with an implicitly specified form of the kernel. Measurement Techniques 2016; 59(6): 571-576. DOI: 10.1007/s11018-016-1010-5.

[15] Sheather SJ. Density estimation. Statistical Science 2004; 19(4): 588-597. DOI: 10.1214/088342304000000297.

[16] Scott DW. Multivariate density estimation: Theory, practice, and visualization. New Jersey: John Wiley & Sons, Inc; 2015.

[17] Chen S. Optimal bandwidth selection for kernel density functionals estimation. Journal of Probability and Statistics 2015; 2015(1): 1-21. DOI: 10.1155/2015/242683.

[18] Borrajo MI, González--Manteiga W, Martínez-Miranda MD. Bandwidth selection for kernel density estimation with length-biased data. Journal of Nonparametric Statistics 2017; 29(3): 636-668. DOI: 10.1080/10485252.2017.1339309.

[19] Lapko AV, Lapko VA. Fast algorithm for choosing kernel function blur coefficients in a nonparametric probability density estimate. Measurement Techniques 2018; 61(6): 540-545. DOI: 10.1007/s11018-018-1463-9.

[20] Sharakshaneh AS, Zheleznov IG, Ivnitskij VA. Complex system [In Russian]. Moscow: "Vysshaya shkola" Publisher; 1977.

[21] Kharuk VI, Im ST, Petrov IA, Dvinskaya ML, Fedotova EV, Ranson KJ. Fir decline and mortality in the southern siberian mountains. Regional Environmental Change 2017; 17(3): 803-812. DOI 10.1007/s10113-016-1073-5.

Authors' information

Alexander Vasilievich Lapko (1949 b.), graduated from Frunze Polytechnic Institute on speciality "Automation and telemechanics" in 1971. Doctor of Science in technology, professor, honored worker of science of the Russian Federation, chief researcher of the Institute of Computational Modeling of the Siberian branch of the Russian Academy of Sciences; Professor of Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: nonparametric statistics; pattern recognition and image analysis; modeling and optimization of uncertain systems; remote sensing. E-mail: lapko@icm.krasn.ru .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Vasily Aleksandrovich Lapko (1974 b.), graduated from Krasnoyarsk State Technical University on speciality "Management and Informatics in Technical Systems" in 1996. Doctor of Science in Technology, professor, leading researcher at the Institute of Computational Modeling of the Siberian branch of the Russian Academy of Sciences; Head of Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: nonparametric statistics; pattern recognition and image analysis; modeling of uncertain systems; remote sensing. E-mail: valapko@yandex. ru .

Received October 16, 2018. The final version - January 30, 2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.