УДК 519.7
АНАЛИЗ НЕПАРАМЕТРИЧЕСКОЙ РЕГРЕССИИ В УСЛОВИЯХ ЧАСТИЧНЫХ СВЕДЕНИЙ О ВИДЕ ВОССТАНАВЛИВАЕМОЙ ЗАВИСИМОСТИ
А. В. Лапко1, 2, В. А. Лапко1, 2, Е. А. Юронен1, 3
1Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 2Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок 50/44
3Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 E-mail: [email protected]
Исследуется модифицированная непараметрическая регрессия, которая обеспечивает учёт априорных сведений о виде восстанавливаемых зависимостей. Устанавливаются свойства её асимптотической несмещённости и осуществляется анализ результатов вычислительных экспериментов.
Ключевые слова: непараметрическая регрессия, стохастические зависимости, априорные сведения, асимптотические свойства.
THE ANALYSIS OF NONPARAMETRIC REGRESSION IN THE CONDITIONS OF PARTIAL DATA ABOUT TYPE OF RESTORED DEPENDENCE
A. V. Lapko1, 2, V. A. Lapko1, 2, E. A. Yuronen1, 3
1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation 2Institute of Computer Modeling Siberian Branch of the Russian Academy of Sciences 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation 3Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation E-mail: [email protected]
The modified nonparametric regression which provides the accounting of the prior data about a type of the restored dependences is investigated. Properties of its asymptotic unbiasedness are established and the analysis of results of computing experiments is carried out.
Keywords: nonparametric regression, stochastic dependencies, a priori information, asymptotic properties.
Для наиболее полного учёта априорной информации о виде восстанавливаемых зависимостей и экспериментальных данных о её локальном поведении широко используются гибридные модели [1-4]. Традиционные гибридные модели сочетают в одном решающем правиле преимущество параметрических и непараметрических аппроксимаций. При этом единое решающее правило образуют параметрическая модель восстанавливаемой зависимости и корректирующая её функция непараметрического типа, которая строится в одном и том же пространстве переменных. Полученные результаты были развиты на условия наличия частичных априорных сведений о виде восстанавливаемых зависимостей в ограниченном пространстве признаков [5; 6]. Основная проблема применения гибридных моделей состоит в выборе вида корректирующей функции, которая является трудно формализуемой. Для её обхода предлагается использовать непараметрическую регрессию [5; 7].
Секция «Математические методы моделирования, управления и анализа данных»
В работе обосновывается возможности учёта априорных сведений о виде восстанавливаемых закономерностей в форме статистических данных. Последующее оценивание искомых зависимостей осуществляется с использованием непараметрической регрессии. Пусть об однозначной зависимости
у = у( х) V х е Як (1)
известно её частичное описание
у = Е(х1,а) V х1 е Я*2, к2 < к из класса линейных полиномов относительно некоторого ограниченного набора признаков х1 из
X =
(х1, х1). Здесь х1 =(х1у, V = 1, к1) при к = к1 + к2. Имеется выборка V = (х1, х/ , у1, 1 = 1,п)
экспериментальных данных, составленная из статистически независимых значений переменных х, у исследуемой зависимости (1). Параметры а полинома Е(х1,а) будем считать заданными.
Необходимо осуществить синтез модифицированной непараметрической модели у (х) зависимости (1), совмещающей в одном решающем правиле имеющуюся априорную информацию. На основании априорных сведений сформируем промежуточную обучающую выборку
V1 =(х,у/ = Е(х(,а), у1, 1 = 1,п).
В качестве приближения по эмпирическим данным у = ф1 (х1, у1 ) = ф(х) примем статистику
у(х) = ХУРг (х),
V1
кривой регрессии
(2)
где
к1
Рг (х) = •
ПФ
У=1
1=1
X1v %
^ ттЛ
Ф
у1 - у1
к1
ЕПф
1=1 У=1
X1v х
Ф
у - у;л
Здесь ядерные функции Ф(и) удовлетворяют условиям Н (положительности, симметричности, нормированности), с = с (п), су = су (п), V = 1, к1 - коэффициенты размытости ядерных функций [8].
Оптимизация модифицированной непараметрической регрессии (2) по коэффициентам размытости ядерных функций с, су, V = 1, к1 осуществляется в режиме «скользящего экзамена»
из условия минимума статистической оценки среднеквадратической ошибки аппроксимации искомой зависимости.
При оценивании зависимости в ситуации х = (х1, х1) сначала вычисляется у1 = Е(х1,а), а затем по данным (х1, у1) в соответствии со статистикой (2) определяется значение у (х). Асимптотические свойства статистики (2) определяются утверждением. Теорема. Пусть 1) частичные сведения у1 = Е(х1,а) о виде восстанавливаемой зависимости (1) принадлежат к классу линейных полиномов; 2) функция ф(х) и плотность вероятности р (х) ограничены вместе со своими производными до второго порядка включительно; 3) ступенчатые ядерные функции Ф( и) являются положительными, симметричными и нормированными; 4) последовательности коэффициентов размытости с1 (п), с (п) ядерных функций таковы, что при п ^го их значения стремятся к нулю. Тогда непараметрическая регрессия (2) обладает
свойством асимптотической несмещённости относительно оптимального решающего правила ф(х).
Утверждения аналитических исследований подтверждаются результатами вычислительных экспериментов. На всём диапазоне изменения n модифицированная непараметрическая регрессия (2) имеет более высокие аппроксимационные свойства по сравнению с традиционной непараметрической регрессией. Данная закономерность сохраняется с ростом уровня помех. Дисперсия среднеквадратического отклонения традиционной непараметрической регрессии имеет большее значение, чем для модифицированной регрессии (2).
Эффективность модифицированной непараметрической модели (2) объясняется возможностью снижения её размерности за счёт использования априорных сведений о наличии линейной взаимосвязи между переменными исследуемой зависимости. Данное заключение согласуется с результатами исследования гибридных моделей стохастических зависимостей [1].
Перспективное направление дальнейших исследований состоит в развитии предлагаемого подхода на анализ свойств статистических моделей, основанных на методе группового учёта аргументов.
Библиографические ссылки
1. Лапко А. В., Лапко В. А. Гибридные модели стохастических зависимостей // Автометрия. 2002. № 5. С. 38-48.
2. Lapko A. V., Lapko V. A. Hybrid Systems of Райегп Recognition // Райегп recognition and image analysis. 2008. Vol. 18, № 1. P. 7-13.
3. Лапко А. В., Ченцов С. В. Непараметрические системы обработки информации. М. : Наука, 2000.
4. Лапко А. В., Лапко В. А., Ярославцев С. Г. Разработка и исследование гибридных алгоритмов в задачах распознавания образов // Автометрия. 2006. Т. 42, № 1. С. 32-39.
5. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993.
6. Лапко В. А. Синтез и анализ гибридных моделей стохастических зависимостей в условиях наличия их частного описания // Автометрия. 2004. № 1. С. 51-59.
7. Надарая Э. А. Непараметрические оценки кривой регрессии // Тр. ВЦ АН ГССР. 1965. Вып. 5. С. 56-68.
8. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.
© Лапко А. В., Лапко В. А., Юронен Е. А., 2017