Научная статья на тему 'Непараметрический алгоритм распознавания образов в задаче проверки гипотезы о независимости случайных величин'

Непараметрический алгоритм распознавания образов в задаче проверки гипотезы о независимости случайных величин Текст научной статьи по специальности «Математика»

CC BY
110
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
Ключевые слова
проверка гипотезы о независимости случайных величин / многомерные случайные величины / распознавание образов / непараметрическая оценка плотности вероятности / коэффициенты размытости ядерных функций / критерий Колмогорова–Смирнова / спектральные данные дистанционного зондирования / testing a hypothesis of the independence of random variables / multidimensional random variables / pattern recognition / nonparametric probability density estimation / bandwidths of kernel functions / Kolmogorov–Smirnov criterion / spectral analysis of remote sensing data

Аннотация научной статьи по математике, автор научной работы — Зеньков Игорь Владимирович, Лапко Александр Васильевич, Лапко Василий Александрович, Кирюшина Елена Васильевна, Вокин Владимир Николаевич

Предлагается новая методика проверки гипотезы о независимости многомерных случайных величин. Рассматриваемая методика основывается на использовании непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия. В отличие от традиционной постановки задачи распознавания образов априори отсутствует обучающая выборка. Исходная информация представляется статистическими данными, которые составляют значения многомерной случайной величины. Законы распределения случайных величин в классах оцениваются по исходным статистическим данным для условий их зависимости и независимости. При выборе оптимальных коэффициентов размытости непараметрических оценок плотностей вероятностей ядерного типа в качестве критерия используется минимум их среднеквадратических отклонений. Вычисляются оценки вероятности ошибки распознавания образов в классах. По минимальному значению оценок вероятностей ошибок распознавания образов принимается решение о независимости либо зависимости случайных величин. Разработанная методика используется при анализе спектральных данных дистанционного зондирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Зеньков Игорь Владимирович, Лапко Александр Васильевич, Лапко Василий Александрович, Кирюшина Елена Васильевна, Вокин Владимир Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonparametric pattern recognition algorithm for testing a hypothesis of the independence of random variables

A new method for testing a hypothesis of the independence of multidimensional random variables is proposed. The technique under consideration is based on the use of a nonparametric pattern recognition algorithm that meets a maximum likelihood criterion. In contrast to the traditional formulation of the pattern recognition problem, there is no a priori training sample. The initial information is represented by statistical data, which are made up of the values of a multivariate random variable. The distribution laws of random variables in the classes are estimated according to the initial statistical data for the conditions of their dependence and independence. When selecting optimal bandwidths for nonparametric kernel-type probability density estimates, the minimum standard deviation is used as a criterion. Estimates of the probability of pattern recognition error in the classes are calculated. Based on the minimum value of the estimates of the probabilities of pattern recognition errors, a decision is made on the independence or dependence of the random variables. The technique developed is used in the spectral analysis of remote sensing data.

Текст научной работы на тему «Непараметрический алгоритм распознавания образов в задаче проверки гипотезы о независимости случайных величин»

Непараметрический алгоритм распознавания образов в задаче проверки гипотезы о независимости случайных величин

И.В. Зеньков1'3, А.В. Лапко 2В.А. Лапко 2'3, Е.В. Кирюшина1, В.Н. Вокин1 1 Сибирский федеральный университет, 660041, г. Красноярск, Россия, пр. Свободный, д. 79, стр. 3;

2 Институт вычислительного моделирования СО РАН, 660036, Россия, г. Красноярск, Академгородок, д. 50, стр. 44; 3 Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева, 660037, г. Красноярск, пр. «Красноярский рабочий», д. 31

Аннотация

Предлагается новая методика проверки гипотезы о независимости многомерных случайных величин. Рассматриваемая методика основывается на использовании непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия. В отличие от традиционной постановки задачи распознавания образов априори отсутствует обучающая выборка. Исходная информация представляется статистическими данными, которые составляют значения многомерной случайной величины. Законы распределения случайных величин в классах оцениваются по исходным статистическим данным для условий их зависимости и независимости. При выборе оптимальных коэффициентов размытости непараметрических оценок плотностей вероятностей ядерного типа в качестве критерия используется минимум их среднеквадратических отклонений. Вычисляются оценки вероятности ошибки распознавания образов в классах. По минимальному значению оценок вероятностей ошибок распознавания образов принимается решение о независимости либо зависимости случайных величин. Разработанная методика используется при анализе спектральных данных дистанционного зондирования.

Ключевые слова: проверка гипотезы о независимости случайных величин, многомерные случайные величины, распознавание образов, непараметрическая оценка плотности вероятности, коэффициенты размытости ядерных функций, критерий Колмогорова-Смирнова, спектральные данные дистанционного зондирования.

Цитирование: Зеньков, И.В. Непараметрический алгоритм распознавания образов в задаче проверки гипотезы о независимости случайных величин / И.В. Зеньков, А.В. Лапко,

B.А. Лапко, Е.В. Кирюшина, В.Н. Вокин // Компьютерная оптика. - 2021. - Т. 45, № 5. -

C. 767-772. - DOI: 10.18287/2412-6179-CO-871.

Citation: Zenkov IV, Lapko AV, Lapko VA, Kiryushina EV, Vokin VN. Nonparametric pattern recognition algorithm for testing a hypothesis of the independence of random variables. Computer Optics 2021; 45(5): 767-772. DOI: 10.18287/2412-6179-CO-871.

Введение

Сведения о зависимости либо независимости случайных величин являются необходимым условием синтеза эффективных алгоритмов обработки информации и принятия решений. В работе [1] исследованы свойства непараметрической оценки плотности вероятности типа Розенблатта-Парзена независимых случайных величин. Установлено, что наличие априорных сведений о независимости случайных величин позволяет повысить аппроксимационные свойства непараметрической оценки их плотности вероятности по сравнению с ядерной статистикой для зависимых случайных величин. Данное преимущество возрастает с увеличением размерности случайных величин. Полученные результаты подтверждаются при исследовании асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двух-альтернативной задаче распознавания образов [2].

Традиционная методика проверки гипотезы о независимости случайных величин основана на использовании универсального % - критерия К. Пирсона. Однако его формирование содержит трудно формали-

зуемый этап разбиения области значений случайных величин на многомерные интервалы [3]. Поэтому возникает задача разработки новой методики проверки рассматриваемой гипотезы, обеспечивающей обход проблемы декомпозиции области значений случайных величин. Подобная задача решается при проверке гипотезы о тождественности законов распределения случайных величин на основе использования непараметрического алгоритма распознавания образов [4]. Показана возможность её замены на задачу проверки гипотезы о равенстве ошибки распознавания образов определённому пороговому значению. Обучающая выборка при синтезе непараметрического алгоритма распознавания образов формируется по статистическим данным, характеризующих законы распределения сравниваемых случайных величин.

Цель рассматриваемого исследования состоит в развитии предложенного подхода на задачу проверки гипотезы о независимости многомерных случайных величин с использованием непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия.

Постановка задачи

Пусть имеется выборка V = (х'„, V = 1, к, / = 1, п) объёма п, сформированная из независимых наблюдений многомерной случайной величины х = (х„, V = 1, к). Наблюдения х извлекаются из генеральных совокупностей, характеризуемых неизвестными плотностями вероятности

Пр(х„) либо р(, V = 1, к ).

Необходимо по статистическим данным V проверить гипотезу

Н: р(XV,V = 1,к)ПР(XV)

(1)

о независимости случайных величин х = (х„, V = 1, к).

Модификация непараметрического алгоритма распознавания образов

Для проверки гипотезы Н0 (1) будем решать двух-альтернативную задачу распознавания образов. Родственность задач распознавания образов и проверки гипотез отмечалась в работах Л.Л. Леймана (1959), В.С. Пугачёва (1979). Под классами Оь О2 понимаются области определения плотностей вероятностей

П Р (х- )' Р (XV ' v = 1' к ) .

В этих условиях байесовское решающее правило, соответствующее критерию максимального правдоподобия, имеет вид

г(х):

хе О1, еслир(х„, V = 1, к) < ПР(xv)

v=1

_ к

хе О2, еслир(xv, V = 1, к) > ПР(х„).

(2)

В отличие от традиционной постановки задачи распознавания образов при синтезе решающего правила (2) в условиях исходной неопределённости отсутствует обучающая выборка. Оценивание плотностей вероятностей

П Р (х„), р (х„, V = 1, к

осуществляется по выборке V. Для этого используются непараметрические статистики типа Розенблатта-Парзена [5, 6]

р (х„, V = 1, к) =

п Р (V ) = -

1

к

п п с

1

к

-iПф

х„ - х[,

п с

пi *

х„ - х„

(3)

(4)

В статистиках (3), (4) ядерные функции Ф(и„) удовлетворяют условиям:

Ф(и„) = Ф(-и„),0 <Ф(и„) | Ф(uv)йиv =1,

| итФ(и„)duv ,0 < т , V = 1, к.

Значения коэффициентов размытости с„ ядерных функций убывают с ростом объёма п выборки статистических данных V. Тогда с учётом выражений (2) - (4) непараметрическое решающее правило классификации случайных величин х = (х„, V = 1, к) запишется как

т

(х):

е О1, если р(х„, V = 1, к) < ПР^)

v=1

_ к

е О 2, если р (, V = 1, к) > П Р (V).

(5)

В приведённой модификации непараметрического алгоритма распознавания образов (5) оптимальные коэффициенты размытости с„, V = 1, к ядерных функций оценок плотностей вероятностей

= I к ) П Р (V )

Р \х„ , V-

будем выбирать на основе анализа их аппроксимаци-онных свойств. Например, для определения оптимального коэффициента размытости с„ ядерных функций непараметрической оценки плотности вероятности р (х„) рассмотрим критерий

W (с„ ) = | (р (х„)- р (xv ))2

(6)

который характеризует меру близости между р ^) и р х).

Преобразуем с учётом непараметрической оценки плотности вероятности р (х„) выражение (6)

w (с ) = -с. !Ц *

п2с2 %

х„ х V I I х„ х„ I 1

ФI —-1 I dxv-

л п

-—iiф

пс, •'

х„ - х„

р(xv) dxv +1р2 (xv) dxv.

Заметим, что третий член последнего выражения не зависит от с„, поэтому его при минимизации критерия W(cv) можно не учитывать. Вид второго слагаемого Ь (cv) допускает оценивание статистикой

2

Ь (с. ) = --£" IIФ

п с„

]=1 1=1 •* ]

(7)

При выполнении условия I Ф] статистика (7) является несмещённой оценкой Ь (с„).

Тогда оптимальные значения с будем находить путём минимизации критерия

х

х

|=1 v=!

1 п п * с )=пЬ ЕЕ! Ф

¡=1 >=1

ф

йх, -

-2- е е ф [х - х

¡=1 >=1

(8)

Возможность использования критерия (8) для выбора оптимальных коэффициентов размытости в р (х,) заключается в том, что статистическая оценка Ь (с,) имеет значительно большую скорость сходимости к Ь (с,) с ростом п, чем р(х,) кр(х,).

По аналогии с выражением (8) нетрудно определить критерий выбора оптимальных коэффициентов размытости статистики р(х,, V = 1, к) (3).

Впервые подход к оптимизации непараметрической оценки плотности вероятности типа Розенблат-та-Парзена по коэффициенту размытости ядерных функций из условия минимума статистической оценки среднеквадратического отклонения р (х„) от р (х,) был предложен в работе [7]. Эта методика позднее была повторена в статьях [8, 9] и является актуальной до настоящего времени [10 - 13]. Исследованы её свойства при использовании ядерных функций, соответствующих нормальному закону [13]. В этих условиях значительно упрощаются вычисления критерия оптимизации р(х„) по значениям с,(п). Выбор оптимальных значений коэффициентов размытости ядерных функций, соответствующих максимуму функции правдоподобия, рассмотрен в работах [14, 15].

В отличие от приведённых выше методов оптимизации непараметрического решающего правила (5) по коэффициентам размытости ядерных функций с,, V = 1, к, будем полагать, что в статистиках (3), (4) значение с, = с О,. Здесь О, - оценка средних квад-ратических отклонений случайной величины х, в выборке V. Данное утверждение является очевидным, так как большей длине интервала значений соответствует больший коэффициент размытости с, ядерных функций Ф(и„), V = 1, к. Предложенная методика выбора коэффициентов размытости ядерных функций использовалась при формировании быстрых процедур оптимизации непараметрических оценок плотности вероятности [16 - 19].

Значения оценок средних квадратических отклонений О, определяются по статистическим данным выборки V

о, =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7 е (-:

11=1

1/2

, = 1, к .

Здесь х, - среднее значение случайной величины х,, которое вычисляется по выборке V.

Поэтому появляется возможность оптимизацию непараметрического алгоритма распознавания образов (5) проводить лишь по одному параметру с коэффициентов размытости ядерных функций.

Методика проверки гипотезы о независимости случайных величин

Предлагаемая методика основана на выполнении следующих действий.

1. На основе решающего правила (5) и ядерных оценок плотностей вероятностей осуществить синтез модификации непараметрического алгоритма распознавания образов. В качестве информации используется выборка V значений многомерной случайной величины х = (х,,, = 1, к) объёма п. Оптимальные коэффициенты размытости ядерных функций непараметрических оценок плотностей вероятностей (3), (4) определяются из условия минимума критерия типа (8).

2. Оценить значения вероятностей ошибок распознавания образов. Определим оценки вероятностей ошибок распознавания образов р, р2 решающим правилом (5) по исходным статистическим данным V при оптимальных коэффициентах размытости ядерных функций статистик

к _

п р (х, ) р (,,=1 к).

,=1

Значения р, вычисляются в режиме «скользящего экзамена» по выборке V в предположении, что её элементы принадлежат из классу О,,

1 п

р, = 1 е1((), 8(])), , = 1,2, п ¡=1

где 8 (] ) = , - указания типа хг е О,;

8( У ) =

г, если х] е О, 0, если х] £ О,

«решение» алгоритма (5) о принадлежности ситуации х] к одному из классов О,, , = 1,2.

При вычислении р, в соответствии с методикой «скользящего экзамена» ситуация х] из выборки V, которая подаётся на контроль в алгоритм (5), исключается из процесса формирования статистик (3), (4).

Индикаторная функция определяется выражением

(),8(У)) = {Г™

11,если 8(])^ 8(]).

Обозначим через р, минимальное значение оценки вероятности ошибки распознавания образов в предположении, что элементы выборки V принадлежат классу О,, , = 1,2.

3. Сравнить значения , р2 в предположении, что элементы выборки V принадлежат классам О1, О2 соответственно.

Тогда гипотеза Но справедлива, если р1 меньше р2. В противном случае при р2 меньше р1 случайные величины х1 и х2 являются зависимыми.

Естественно, что при ограниченных объёмах п выборки V возникает задача доверительного оцени-

вания вероятностей ошибок распознавания образов. Для её решения может использоваться традиционная методика доверительного оценивания вероятностей [3] либо критерий Колмогорова-Смирнова [20].

Например, при использовании критерия Колмогорова-Смирнова отклонение Д2 = |р - Р2 сравнивается с пороговым значением [20]

Д = .1- ый

Здесь Р - вероятность (риск) отвергнуть гипотезу Н0: р1 = р2. Если выполняется соотношение Д2 < Д, то гипотеза Я0 справедлива и риск её отвергнуть не превышает значения р. При Д2 > Д гипотеза Я0 отвергается.

Анализ результатов вычислительных экспериментов

Рассмотрим применение разработанного метода проверки гипотез о независимости случайных величин при анализе данных дистанционного зондирования.

Исследуемая территория соответствует горной лесотундре, расположенной в западной части Алтае-Саянского региона (50°03' северной широты, 85°15' восточной долготы) на высоте 2273 метра над уровнем моря. Исходная информация формировалась по фрагменту спутниковой съемки Wor1dview-2 (https://www.satimagingcorp.com/satenite-sensors/wo-r1dview-2) с пространственным разрешением 0,6 метра. Размер фрагмента составляет 162 х 192 пикселя, а его площадь равна 1,1 га. Каждый пиксель характеризовался четырьмя спектральными каналами: синий (х:), зеленый (х2), красный (хэ), ближний инфракрасный (х4). Объектом исследования являются элементы земной поверхности, включающие кедровый стланик (Ршш sibirica) в виде полос с тенями. Просматриваются участки с травяно-кустарниковым покровом и выходами горных пород. На анализируемом участке ранее проводились исследования пространственно-временной динамики роста кедра и кедрового стланика в изменяющихся климатических условиях [21].

Количественные характеристики законов распределения спектральных признаков х„, V = 1,4 при объёме статистических данных п = 31104 приведены в табл. 1.

Табл. 1. Количественные характеристики законов распределения спектральных признаков, характеризующих элементы территории горной лесотундры западной части Алтае-Саянского региона

Спектральные признаки Yv

х1 187,27 27,396 0,508 - 0,993

х2 240,37 53,178 0,518 - 0,844

х3 140,98 45,363 0,537 - 0,857

х4 412,81 95,992 0,510 - 0,520

Обозначения количественных характеристик законов распределения случайных величин х„, V = 1,4:

xv - среднее значение; о„ - среднее квадратическое отклонение; 8„ - коэффициент контрэксцесса; у„ -коэффициент асимметрии.

Табл. 2. Результаты проверки гипотез о независимости спектральных признаков по предложенной методике

Значения Спектральные признаки

хь х2 х1, х3 хь х4 х2, х3 х2, х4 х3, х4

Р1 0,99 0,959 0,844 0,971 0,856 0,826

Р2 0,01 0,041 0,156 0,029 0,144 0,174

г 0,983 0,964 0,808 0,977 0,877 0,806

Здесь значение р1 определяет оценку вероятности ошибки отнесения ситуаций из исходной выборки V к классу независимых случайных величин в соответствии с алгоритмом (5), а р2 - к классу их зависимых значений. Символом ¥ обозначена оценка коэффициента корреляции между анализируемыми спектральными признаками.

Полученные результаты проверки гипотез о независимости спектральных признаков, представленные в табл. 2, подтверждают эффективность предложенной методики. Установлено, что исследуемые спектральные признаки являются зависимыми, так как для всех их парных сочетаний значения р2 значительно меньше р1. Например, для спектральных признаков х1, х2 значения р1 = 0,99, а р2 = 0,01. В этих условиях соотношение р2 < р1 выполняется для большинства элементов выборки (х(, х2, / = 1, п) и справедливо неравенство р(х1, х2) > р(х1) р(х2). Следовательно, предположение о зависимости спектральных признаков х1, х2 выполняется. Причём обнаруженная зависимость близка к линейной, что подтверждается достаточно большим значением оценки коэффициента корреляции г = 0,983. Полученный вывод свойственен также другим сочетаниям спектральных признаков и особо характерен для пар: (хь х2), (хь х3), (х2, х3) (табл. 2). Можно определить группу спектральных признаков (х1, х2, х3) с высоким уровнем линейных зависимостей, для которых значения р1 е [0,959; 0,99], р2 е [0,01; 0,041], а оценка коэффициента корреляции г е [0,964; 0,977].

При объёме исходных статистических данных п = 31104 и заданном риске Р = 0,05 отвергнуть гипотезу Н0: р1 = р2 значения вероятностей ошибок распознавания образов в предположении зависимости и независимости спектральных признаков отличаются достоверно. В этих условиях при использовании критерия Колмогорова-Смирнова для всех анализируемых ситуаций Д2 =|р1 - р2| значительно больше порогового значения Бр = 0,01. В соответствии с предлагаемой методикой гипотеза о независимости случайных величин Н0 отвергается, а при выполнении соотношений Д2 > Д = 0,01 и р2 <р1 анализируемые спектральные признаки являются зависимыми.

Заключение

Предложенная методика проверки гипотезы о независимости случайных величин обеспечивает обход проблемы декомпозиции области значений случайных величин на многомерные интервалы, которая свойственна критерию Пирсона. Для проверки гипотезы используется непараметрический алгоритм распознавания образов, соответствующий критерию максимального правдоподобия. Каждый класс определяется многомерной плотностью вероятности в предположении независимости либо зависимости случайных величин. Выбор коэффициентов размытости ядерных оценок плотностей вероятностей случайных величин в классах осуществляется из условия минимума их среднеквадратических отклонений. Используя исходные статистические данные, вычисляются оценки вероятностей ошибок распознавания ситуаций, принадлежащих введённым классам. По их минимальному значению принимается решение о независимости либо зависимости случайных величин.

Существует линейная зависимость между парными сочетаниями спектральных признаков х1, х2, х3, х4, что подтверждается большими значениями оценок коэффициентов корреляции и результатами проверки достоверности полученных выводов. Группа признаков (хь х2, х3), формируемая спектральными каналами (синий (х:), зелёный (х2), красный (хэ)), характеризуются наиболее высокими показателями зависимости. Подобные сведения являются необходимыми при выборе признаков в задаче синтеза эффективных алгоритмов принятия решений.

Перспективным исследованием в данном направлении является применение предлагаемой методики при формировании наборов независимых случайных величин, что позволит упростить задачу синтеза эффективных алгоритмов обработки информации.

Благодарности

Исследование выполнено при финансовой поддержке РФФИ, Правительства Красноярского края и Красноярского краевого фонда науки в рамках научного проекта № 20-41-240001.

Литература

1. Лапко, А.В. Свойства непараметрической оценки многомерной плотности вероятности независимых случайных величин / А.В. Лапко, В.А. Лапко // Информатика и системы управления. - 2012. - Т. 31, № 1. - С. 166-174.

2. Лапко, А.В. Свойства непараметрической решающей функции при наличии априорных сведений о независимости признаков классифицируемых объектов / А.В. Лапко, В.А. Лапко // Автометрия. - 2012. - Т. 48, № 4. - С. 112-119.

3. Пугачёв, В. С. Теория вероятностей и математическая статистика: учебное пособие / В.С. Пугачёв. - М: Физ-матлит, 2002. - 496 с.

4. Лапко, А.В. Методика проверки гипотез о распределениях многомерных спектральных данных с использова-

нием непараметрического алгоритма распознавания образов / А.В. Лапко, В.А. Лапко // Компьютерная оптика.

- Т. 2019. - Т. 43, № 2. - С. 238-244. - DOI: 10.18287/2412-6179-2019-43-2-238-244.

5. Parzen, E. On estimation of a probability density function and mode / E. Parzen // Annals of Mathematical Statistics. -1962. - Vol. 33, Issue 3. - P. 1065-1076. - DOI: 10.1214/aoms/1177704472.

6. Епанечников, В.А. Непараметрическая оценка многомерной плотности вероятности / В.А. Епанечников // Теория вероятности и ее применения. - 1969. - Т. 14, № 1. - С. 156-161.

7. Лапко, А.В. К оптимизации непараметрических оценок / А.В. Лапко, А.В. Медведев, Е.А. Тишина // Сборник научных трудов «Алгоритмы и программы для систем автоматизации экспериментальных исследований». -Фрунзе: Илим, 1975. - С. 105-116.

8. Rudemo, M. Empirical choice of histogram and kernel density estimators / M. Rudemo // Scandinavian Journal of Statistics. - 1982. - Vol. 9, No. 2 - P. 65-78.

9. Hall, P. Large sample optimality of least squares cross-validation in density estimation / P. Hall // Annals of Statistics. - 1983. - Vol. 11, No. 4. - P. 1156-1174.

10. Jiang, M. A hybrid bandwidth selection methodology for kernel density estimation / M. Jiang, S.B. Provost // Journal of Statistical Computation and Simulation. - 2014. - Vol. 84, Issue 3. - P. 614-627. - DOI: 10.1080/00949655.2012.721366.

11. Dutta, S. Cross-validation revisited / S. Dutta // Communications in Statistics - Simulation and Computation. - 2016. - Vol. 45, Issue 2. - P. 472-490. - DOI: 10.1080/03610918.2013.862275.

12. Heidenreich, N.B. Bandwidth selection for kernel density estimation: a review of fully automatic selectors / N.B. Heidenreich, A. Schindler, S. Sperlich // AStA Advances in Statistical Analysis. - 2013. - Vol. 97. - P. 403433. - DOI: 10.1007/s10182-013-0216-y.

13. Li, Q. Nonparametric econometrics: Theory and practice / Q. Li, J.S. Racine. - Princeton: Princeton University Press, 2007. - 768 p.

14. Duin, R. On the choice of smoothing parameters for parzen estimators of probability density functions / R. Duin // IEEE Transactions on Computers. - 1976. - Vol. C-25, Issue 11.

- P. 1175-1179. - DOI: 10.1109/TC.1976.1674577.

15. Botev, Z.I. Non-asymptotic bandwidth selection for density estimation of discrete data / Z.I. Botev, D.P. Kroese // Methodology and Computing in Applied Probability. - 2008. - Vol. 10, Issue 3. - P. 435-451. - DOI: 10.1007/s11009-007-9057-z.

16. Лапко, А.В. Методика быстрого выбора коэффициентов размытости в непараметрическом классификаторе, соответствующем критерию максимума апостериорной вероятности / А.В. Лапко, В.А. Лапко // Автометрия. - 2019. -Т. 55, № 6. - С. 76-86. - DOI: 10.15372/AUT20190610.

17. Scott, D.W. Multivariate density estimation: Theory, practice, and visualization / D.W. Scott. - New Jersey: John Wiley & Sons, 2015. - 384 p.

18. Sheather, S.J. Density estimation / S.J. Sheather // Statistical Science. - 2004. - Vol. 19, Issue 4. - P. 588-597. -DOI: 10.1214/088342304000000297.

19. Silverman, B.W. Density estimation for statistics and data analysis / B.W. Silverman. - London: Chapman and Hall, 1986. - 175 p.

20. Шаракшанэ, А. С. Сложные системы / А.С. Шаракшанэ, И.Г. Железнов, В.А. Ивницкий. - М.: Высшая школа, 1977. - 248 с.

21. Kharuk, V.I. Tree wave migration across an elevation gradient in the Altai Mountains, Siberia / V.I. Kharuk, S.T. Im, M.L. Dvinskaya, K.J. Ranson, I.A. Petrov // Journal of Mountain Science. - 2017. - Vol. 14, No. 3. - P. 442-452.

- DOI: 10.1007/s11629-016-4286-7.

Сведения об авторах

Зеньков Игорь Владимирович, 1963 года рождения, в 1985 г. окончил Красноярский институт цветных металлов по специальности «Технология и комплексная механизация открытой разработки месторождений полезных ископаемых», доктор технических наук, профессор, профессор кафедры систем автоматики, автоматизированного управления и проектирования Сибирского федерального университета, ведущий научный сотрудник Красноярского филиала Федерального исследовательского центра информационных и вычислительных технологий. Область научных интересов: решение задач горнодобывающей промышленности с использованием ресурсов дистанционного зондирования; информационное обеспечение мониторинга технологических, логистических параметров предприятий горной промышленности; дистанционное зондирование. E-mail: zenkoviv@mail.ru .

Лапко Александр Васильевич, 1949 года рождения, в 1971 году окончил Фрунзенский политехнический институт по специальности «Автоматика и телемеханика», доктор технических наук, профессор, заслуженный деятель науки РФ, главный научный сотрудник Института вычислительного моделирования Сибирского отделения Российской академии наук, профессор кафедры космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Область научных интересов: непараметрическая статистика; распознавание образов и анализ изображений; моделирование и оптимизация неопределённых систем, дистанционное зондирование. E-mail: lapko@icm.krasn.ru .

Лапко Василий Александрович, 1974 года рождения, в 1996 году окончил Красноярский государственный технический университет по специальности «Управление и информатика в технических системах», доктор технических наук, профессор, ведущий научный сотрудник Института вычислительного моделирования Сибирского отделения Российской академии наук, заведующий кафедрой космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Область научных интересов: непараметрическая статистика; распознавание образов и анализ изображений; моделирование неопределённых систем, дистанционное зондирование. E-mail: valapko@yandex.ru .

Кирюшина Елена Васильевна, 1963 года рождения, в 1985 г. окончила Красноярский институт цветных металлов по специальности «Технология и комплексная механизация открытой разработки месторождений полезных ископаемых», кандидат технических наук, доцент, доцент кафедры открытых горных работ Сибирского федерального университета. Область научных интересов: решение задач горнодобывающей промышленности с использованием ресурсов дистанционного зондирования; информационное обеспечение мониторинга технологических, логистических параметров предприятий горной промышленности; дистанционное зондирование. Email: kiryushinaev@mail.ru .

Вокин Владимир Николаевич, 1954 года рождения, в 1976 г. окончил Красноярский институт цветных металлов по специальности «Технология и комплексная механизация открытой разработки месторождений полезных ископаемых», кандидат технических наук, доцент, профессор кафедры открытых горных работ Сибирского федерального университета. Область научных интересов: решение задач горнодобывающей промышленности с использованием ресурсов дистанционного зондирования; информационное обеспечение мониторинга технологических, логистических параметров предприятий горной промышленности; дистанционное зондирование. Email: vokin@krasmail.ru .

ГРНТИ: 28.23.15

Поступила в редакцию 29 января 2021 г. Окончательный вариант - 26 мая 2021 г.

Nonparametric pattern recognition algorithm for testing a hypothesis of the independence of random variables

I.V. Zenkov13, A.V. Lapko2-3, V.A. Lapko2-3, E.V. Kiryushina1, V.N. Vokin1 1 Siberian Federal University, 660041, Krasnoyarsk, Russia, Svobodny Av. 79, 2 Institute of Computational Modelling SB RAS, 660036, Krasnoyarsk, Russia, Akademgorodok 50, 3 Reshetnev Siberian State University of Science and Technology, 660037, Krasnoyarsk, Russia, Krasnoyarsky RabochyAv. 31

Abstract

A new method for testing a hypothesis of the independence of multidimensional random variables is proposed. The technique under consideration is based on the use of a nonparametric pattern recognition algorithm that meets a maximum likelihood criterion. In contrast to the traditional formulation of the pattern recognition problem, there is no a priori training sample. The initial information is represented by statistical data, which are made up of the values of a multivariate random variable. The distribution laws of random variables in the classes are estimated according to the initial statistical data for the conditions of their dependence and independence. When selecting optimal bandwidths for nonparametric kernel-type probability density estimates, the minimum standard deviation is used as a criterion. Estimates of the probability of pattern recognition error in the classes are calculated. Based on the minimum value of the estimates of the probabilities of pattern recognition errors, a decision is made on the independence or dependence of the random variables. The technique developed is used in the spectral analysis of remote sensing data.

Keywords: testing a hypothesis of the independence of random variables, multidimensional random variables, pattern recognition, nonparametric probability density estimation, bandwidths of kernel functions, Kolmogorov-Smirnov criterion, spectral analysis of remote sensing data.

Citation: Zenkov IV, Lapko AV, Lapko VA, Kiryushina EV, Vokin VN. Nonparametric pattern recognition algorithm for testing a hypothesis of the independence of random variables. Computer Optics 2021; 45(5): 767-772. DOI: 10.18287/2412-6179-CO-871.

Acknowledgements: The research was funded by the Russian Foundation for Basic Research, government of Krasnoyarsk Territory, and Krasnoyarsk Regional Science Foundation under project No. 20-41-240001.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

References

[1] Lapko AV, Lapko VA. Properties of nonparametric estimates of multidimensional probability density of independent random variables [In Russian]. Informatika i Sistemy Upravleniya 2012; 31(1): 166-174.

[2] Lapko AV, Lapko VA. Properties of the nonparametric decision function with a priori information on independence of attributes of classified objects. Optoelectronics, Instrumentation and Data Processing 2012; 48(4): 416-422. DOI: 10.3103/S8756699012040139.

[3] Pugachev VS. Probability theory and mathematical statistics: textbook [In Russian]. Moscow: "Fizmatlit" Publisher; 2002.

[4] Lapko AV, Lapko VA. A technique for testing hypotheses for distributions of multidimensional spectral data using a nonparametric pattern recognition algorithm. Computer Optics 2019; 43(2): 238-244. DOI: 10.18287/2412-61792019-43-2-238-244

[5] Parzen E. On estimation of a probability density function and mode. Ann Math Statistic 1962; 33(3): 1065-1076. DOI: 10.1214/aoms/1177704472.

[6] Epanechnikov VA. Non-parametric estimation of a multivariate probability density. Theory Probab its Appl 1969; 14(1): 153-158. DOI: 10.1137/1114019.

[7] Lapko AV, Medvedev AV, Tishina EA. To the optimization of nonparametric estimates [In Russian]. Collection of scientific papers "Algorithms and programs for

automation systems of experimental research" (Frunze: Ilim) 1975: 105-116.

[8] Rudemo M. Empirical choice of histogram and kernel density estimators. Scand Stat Theory Appl 1982; 9(2): 65-78.

[9] Hall P. Large sample optimality of least squares cross-validation in density estimation. Ann Stat 1983; 11(4): 1156-1174.

[10] Jiang M, Provost SB. A hybrid bandwidth selection methodology for kernel density estimation. J Stat Comput Simul 2014; 84(3): 614-627. DOI: 10.1080/00949655.2012.721366.

[11] Dutta S. Cross-validation revisited. Commun Stat Simul Comput 2016; 45(2): 472-490. DOI: 10.1080/03610918.2013.862275.

[12] Heidenreich NB, Schindler A, Sperlich S. Bandwidth selection for kernel density estimation: a review of fully automatic selectors. Adv Stat Anal 2013; 97: 403-433. DOI: 10.1007/s10182-013-0216-y.

[13] Li Q, Racine JS. Nonparametric econometrics: Theory and practice. Princeton: Princeton University Press; 2007.

[14] Duin R. On the choice of smoothing parameters for Parzen estimators of probability density functions. IEEE Trans Comput 1976; C-25(11): 1175-1179. DOI: 10.1109/TC.1976.1674577.

[15] Botev ZI, Kroese DP. Non-asymptotic bandwidth selection for density estimation of discrete data. Methodol Comput Appl Probab 2008; 10(3): 435-451. DOI: 10.1007/s11009-007-9057-z.

[16] Lapko AV, Lapko VA. Method of fast bandwidth selection in a nonparametric classifier corresponding to the a posteriori probability maximum criterion. Optoelectronics, Instrumentation and Data Processing 2019; 55(6): 597-605. DOI: 10.3103/S8756699019060104.

[17] Scott DW. Multivariate density estimation: Theory, practice, and visualization. New Jersey: John Wiley and Sons; 2015.

[18] Sheather SJ. Density estimation. Stat Sci 2004; 19(4): 588597. DOI: 10.1214/088342304000000297.

[19] Silverman BW. Density estimation for statistics and data analysis. London: Chapman and Hall; 1986.

[20] Sharakshaneh AS, Zheleznov IG, Ivnitskij VA. Complex system [In Russian]. Moscow: "Vysshaya shkola" Publisher; 1977.

[21] Kharuk VI, Im ST, Dvinskaya ML, Ranson KJ, Petrov IA. Tree wave migration across an elevation gradient in the Altai Mountains, Siberia. J Mt Sci 2017; 14(3): 442-452. DOI: 10.1007/s11629-016-4286-7.

Authors' information

Igor Vladimirovich Zenkov (b. 1963), graduated from Krasnoyarsk Institute of Non-ferrous Metals on speciality "Technology and Complex Mechanization of Opencast Mining of Mineral Deposits" in 1985. Doctor of Science in Technology, professor, professor of Automation Systems, Automated Control and Design department at the Siberian Federal University; leading researcher at the Krasnoyarsk branch of the Federal Research Center for Information and Computational Technologies. Research interests: solving problems in the mining industry using remote sensing resources; information support for monitoring technological, logistic parameters of mining enterprises; remote sensing. E-mail: zenkoviv@mail.ru.

Alexander Vasilievich Lapko (b. 1949), graduated from Frunze Polytechnic Institute on speciality "Automation and Telemechanics" in 1971. Doctor of Science in Technology, professor, honored worker of science of the Russian Federation, chief researcher of the Institute of Computational Modeling of the Siberian Branch of the Russian Academy of Sciences; Professor of Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: nonparametric statistics; pattern recognition and image analysis; modeling and optimization of uncertain systems; remote sensing. E-mail: lapko@icm.krasn.ru .

Vasiliy Аleksandrovich Lapko (b. 1974), graduated from Krasnoyarsk State Technical University on speciality "Management and Informatics in Technical Systems" in 1996. Doctor of Science in Technology, professor, leading researcher at the Institute of Computational Modeling of the Siberian Branch of the Russian Academy of Sciences; Head of Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: nonparametric statistics; pattern recognition and image analysis; modeling of uncertain systems; remote sensing. E-mail: valapko@yandex. ru .

Elena Vasilievna Kiryushina (b. 1963), graduated from Krasnoyarsk Institute of Non-ferrous Metals on speciality "Technology and Complex Mechanization of Opencast Mining of Mineral Deposits" in 1985. Candidate of Science in Technology, associate professor, associate professor of the Open Mining department at the Siberian Federal University. Research interests: solving problems in the mining industry using remote sensing resources; information support for monitoring technological, logistic parameters of mining enterprises; remote sensing. E-mail: kiryushinaev@mail.ru .

Vladimir Nikolaevich Vokin (b. 1954), graduated from Krasnoyarsk Institute of Non-ferrous Metals on speciality "Technology and Complex Mechanization of Opencast Mining of Mineral Deposits" in 1976. Candidate of Science in Technology, associate professor, associate professor of Open Mining department at the Siberian Federal University. Research interests: solving problems in the mining industry using remote sensing resources; information support for monitoring technological, logistic parameters of mining enterprises; remote sensing. E-mail: vokin@krasmail.ru .

Received January 29, 2021. The final version - May 26, 2021.

i Надоели баннеры? Вы всегда можете отключить рекламу.