Научная статья на тему 'Непараметрические коллективы моделей стохастической зависимости'

Непараметрические коллективы моделей стохастической зависимости Текст научной статьи по специальности «Математика»

CC BY
155
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ / ДЕКОМПОЗИЦИЯ СИСТЕМ / МЕТОДЫ КОЛЛЕКТИВНОГО ОЦЕНИВАНИЯ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / МАЛЫЕ ВЫБОРКИ / NONPARAMETRIC MODELS / DECOMPOSITION OF SYSTEMS / METHODS COLLECTIVE ESTIMATION / ASYMPTOTIC PROPERTIES / SMALL SAMPLES

Аннотация научной статьи по математике, автор научной работы — Лапко А. В., Лапко В. А.

Статья посвящена синтезу и анализу непараметрических моделей стохастических зависимостей, обеспечивающих эффективную обработку информации в условиях малых выборок. Методическую основу построения моделей составляют принципы декомпозиции систем и коллективного оценивания. Исследуются асимптотические свойства предлагаемых моделей и анализируются результаты вычислительных экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко А. В., Лапко В. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonparametric collectives of models stochastic dependence

The article is devoted to synthesis and the analysis of nonparametric models of the stochastic dependences providing effective processing of the information in conditions small samples. The methodical basis of construction of models is made with principles of decomposition of systems and collective estimation. Are investigated asymptotic properties of offered models and results of computing experiments are analyzed.

Текст научной работы на тему «Непараметрические коллективы моделей стохастической зависимости»

УДК 519.7 ББК 22.18

© А. В. Лапко, В.А. Лапко

Россия, Красноярск, Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнёва Институт вычислительного моделирования Сибирского отделения РАН E-mail: [email protected]

НЕПАРАМЕТРИЧЕСКИЕ КОЛЛЕКТИВЫ МОДЕЛЕЙ СТОХАСТИЧЕСКОЙ ЗАВИСИМОСТИ

Статья посвящена синтезу и анализу непараметрических моделей стохастических зависимостей, обеспечивающих эффективную обработку информации в условиях малых выборок. Методическую основу построения моделей составляют принципы декомпозиции систем и коллективного оценивания. Исследуются асимптотические свойства предлагаемых моделей и анализируются результаты вычислительных экспериментов.

Ключевые слова: непараметрические модели, декомпозиция систем, методы коллективного оценивания, асимптотические свойства, малые выборки.

© A. V. Lapko, V.A. Lapko

Russia, Krasnoyarsk, Siberian State Space Universit named by academician M.F. Reshetnev Institute of Computational Modeling, Siberian Branch of RAS E-mail: [email protected]

NONPARAMETRIC COLLECTIVES OF MODELS STOCHASTIC DEPENDENCE

The article is devoted to synthesis and the analysis of nonparametric models of the stochastic dependences providing effective processing of the information in conditions small samples. The methodical basis of construction of models is made with principles of decomposition of systems and collective estimation.

Are investigated asymptotic properties of offered models and results of computing experiments are analyzed.

Key words: nonparametric models, decomposition of systems, methods collective estimation, asymptotic properties, small samples.

Введение

Непараметрические методы обработки информации, основанные на оценках плотности вероятности типа Розенблатта-Парзена [1], широко используются в задачах исследования систем при априорной неопределённости. Их практическая значимость состоит в возможности создания информационных средств, адаптируемых к условиям функционирования систем различной природы [2, 3]. Однако при решении прикладных задач часто располагают ограниченным объемом наблюдений - короткой либо малой выборкой, что обусловливается нестационарностью объекта исследования, высокой стоимостью и сложностью получения дополнительной информации. Получаемые на их основе модели стохастических зависимостей не всегда являются эффективными, так как информация малых обучающих выборок недостаточна для оценивания вероятностных характеристик изучаемых закономерностей.

Для «обхода» проблем малых выборок широкое распространение получили последовательные процедуры синтеза моделей. Ярким представителем этого подхода является метод группового учета аргументов (МГУА) [4]. Данный алгоритм реализует последовательную процедуру усложнения модели путем целенаправленного отбора (селекции) пар, состоящих из первичных и промежуточных признаков.

В данной работе с позиций принципов декомпозиции систем и коллективного оценивания предлагается методика синтеза и анализа непараметрических коллективов моделей стохастических зависимостей. Идея предлагаемого подхода состоит в декомпозиции исходной статистической выборки по её размерности, построении на этой основе семейства

131

частных решающих функций и последующей их организации в обобщённой модели с помощью методов непараметрической статистики.

1. Синтез непараметрического коллектива моделей стохастической зависимости

Рассмотрим задачу восстановления однозначной стохастической зависимости

у = ф(х, V = 1, к) , (1)

в к -мерном пространстве признаков х = (xv, V = 1, к). Вид зависимости (1) неизвестен.

Основной исходной информацией является обучающая выборка V = (х1, у1, 1 = 1, п), составленной из статистически не зависимых наблюдений значений функции у1 и её аргументов X. Причём объём п выборки V недостаточен для обоснованного оценивания зависимости (1) с помощью традиционной непараметрической регрессии [5]. В данных условиях идея предлагаемого подхода синтеза непараметрического коллектива моделей стохастической зависимости состоит в выполнении следующих действий:

1. В соответствии со спецификой решаемой задачи сформировать наборы признаков

(х (г), г = 1, Т) и на этой основе осуществить декомпозицию исходной выборки V на части V (г) = (хг (г), у1 ,1 = 1, п), г = 1, Т.

2. По полученным данным построить частные модели уг = $ (х(г)), г = 1, Т зависимости

(1). При построении частных моделей могут быть использованы известные методы аппроксимации, включая непараметрическую регрессию [5]

_ £уг Пф [ ^' _

у( =Ф* (х (г )) = —уе1‘ , г =1, Т, (2)

2 Пф

1=1 VE.lt V У

где ф(и)> 0 - ядерные функции, удовлетворяющие свойствам ф(и) = ф(-и),

I ф

(и ) ёи = 1, |ит ф (и ) ёи < ¥ ; пу = еу (п), V е 1г - коэффициенты размытости ядерных функций, значения которых зависят от объёма выборки п; 1{ - номера признаков, составляющих их набор х(*).

Оптимизация частных моделей (2) по коэффициентам размытости ядерных функций еу, V е 1{ осуществляется в режиме «скользящего экзамена» из условия минимума статистической оценки среднеквадратической ошибки аппроксимации искомой зависимости.

3. Используя частные модели типа (2), сформировать обучающую выборку:

($ (х1 (г)), г = 1, Т, у, г = 1, п)

и построить обобщённую модель в пространстве значений $ (х(г)), г = 1, Т в виде непараметрической статистики

Гф{( х ( * ))-Ф ( х' ( * )) ^

2 у1 Пф

сг

у =^(х) = ---------\ • (3)

" Ь ( х (1 ))-Фt ( х( * ))

2 Пф

1=1 г=1

Предлагаемая модель обеспечивает не только обход проблемы малых выборок за счёт за счет снижения размерности решаемой задачи, но и позволяет учитывать частичные апри-

орные сведения о виде взаимосвязи между переменными исследуемой зависимости.

2. Модификации непараметрического коллектива моделей

Для повышения аппроксимационных свойств непараметрического коллектива (3) предлагается дополнительно учитывать показатели эффективности Щ , г = 1, Т, частных моделей (2).

Сформируем на основе исходной V следующие обучающие выборки

V (г) = (хг (г), Щ, у , г = 17Й), г = 1Т, в которых значения Щ определяются в соответствии с выражением

ж; =

У - фг (* (г), с* )

где ф( (•) - частные модели (2) при оптимальных коэффициентах размытости с*.

Тогда непараметрический коллектив частных моделей фг (х(г)), г = 1, Т (2) представляется в виде

у = ф (х)

п Т 2УП і=1 ,=1 ф ф (х(,))-ф, (Х і)) 1 С \ ф у {0 - щ ^ V с0 у

п Т 2 П і=1 ,=1 ф V ф (х(і))-ф (Х (і))^ с у ф '0 - щ ^ с0 у

Второй подход при восстановлении многомерных стохастических зависимостей (1) в условиях малых выборок основывается на модификации метода группового учёта аргументов [3] в соответствии с последовательной процедурой формирования решений:

Уt =ф (х (г), Уг-1 ) , г = 1 Т . (4)

Каждый г -й этап формирования решений реализуется с помощью непараметрической оценки условного математического ожидания:

У, = ф, (х (і), Уі-і) =-

УЄІ,

ф

( У,-1- УІ-1л

ф

( У,-1 - У,-1 ^

(5)

,-1

1=1 VG^г \ L'v У

где =ф-1 (х (г -1), уг-2).

Построение последовательной процедуры (4) восстановления зависимости предполагает выполнение следующих действий:

1. Определить набор признаков, например х (1), из исходных (х (г), г = 1, Т), который

обеспечивает минимальную оценку ошибки восстановления зависимости (1). Модель у =ф (х(1)) соответствует первому этапу обработки информации.

2. Для конкретного набора х (г), г ф 1 сформировать обучающую выборку V (2) = (х (г), у = ф (х (1)), У, г = 1, п) и на этой основе построить модель типа (5)

У2 =ф2 (х (г) , У1 )

и оценить её эффективность.

3. Повторить этап 2 для различных наборов признаков х(г), г = 2, Т и определить набор, например х (2), который в паре с у позволяет получить минимальную оценку ошибки аппроксимации искомой зависимости.

По аналогии формируются последующие этапы синтеза непараметрического коллектива

133

с

г=1

,-1

моделей (4) при восстановлении стохастической зависимости.

3. Асимптотические свойства непараметрического коллектива моделей

Непараметрические коллективы моделей стохастических зависимостей представляют собой сложную статистику типа «оценка в оценке». При исследовании их свойств без потери общности положим у2 = ф.2 (ф (х)). Будем считать, что при построении непараметрических моделей у1 = ф (х) и ф2 (у) используются обучающие выборки объёма п1 и п2 соответственно.

Тогда асимптотические свойства подобного непараметрического коллектива моделей Ф2 (ф (х)) " хе Я1 определяет следующая теорема.

Теорема. Пусть функции ф( х), ф2 (у1) и плотности вероятности Р1 (х), р2 (х, у1) ограничены и непрерывны со всеми своими производными до второго порядка включительно; ядерные функции Ф( и) удовлетворяют свойствам положительности, симметричности, нормированности и имеют ограниченные центральные моменты; последовательности с1 = с1 (п) ® 0 , с = с (п2) ® 0 при п1 ® ¥, п2 ® ¥, а п1 с1 ® ¥, п2 с ® ¥.

Тогда смещение

М (ф2 (ф1 (х))-ф2 (ф (х))) ~ с'Л (хУ1) + с12А1 (х У1)+ с' с12 Аз (x,У1) + О (с4), среднеквадратическое отклонение:

V,

М (ф2 (ф1 (х))-ф2 (ф (х)))2 <

2| |Ф(и 12 ф2 (У1 )

л У2.

п2сР2 (У1 )

+

+

4 Р 2 2 ( У1 )^3 Ь4 I 1 + 2

ф12 ( х)||Ф(и )|| 1Р1 ( х )

(ф ( х ) Р1 ( х ))

(2)'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п1с

4Р12 (х)

л У2

Здесь М - знак математического ожидания.

В представленных результатах Aj (х, у) , ] = 1,3, - нелинейные функционалы от

ф (х) ,ф2 (у1), Р2 (х, у1), Р1 (х) и их первых двух производных;

Д = шах (ф2 (У1),ф2(1) (У1),ф2(2) (У1),Р2 (у1),р21) (у1),р22) (у1));

Ь4 - константа Липшица в ограничениях на отклонения (Р2 (у1), Р2 (у1)), (ф2 (у1), ф2 (у1)) и их первых двух производных.

Нетрудно заметить, что при п1с1 ® ¥, п2с ®¥ , с1 ® 0, с ® 0 в условиях п1 ® ¥ ,

п2 ® ¥ непараметрический коллектив ф2 (ф1 (х)) обладает свойствами сходимости в среднеквадратическом, а с учётом её асимптотической несмещенности является состоятельной оценкой. Причём порядок его сходимости сопоставим с традиционной непараметрической регрессией [5].

Замечание. Доказательство теоремы осуществлялось в соответствии с методикой исследования асимптотических свойств непараметрических статистик, предложенной В. А. Епа-нечниковым [6] и развитой в работах [2, 3].

5. Анализ результатов вычислительных экспериментов

Методом статистического моделирования исследовались свойства непараметрических

2

2

4

2

4

с

коллективов типа (3), (4) в зависимости от размерности к признаков х, объёма обучающей выборки п и уровня помех г, накладываемых на значения восстанавливаемой зависимости. Полученные результаты сравнивались со свойствами традиционной непараметрической регрессии [5].

В качестве искомой зависимости ф( х) использовались полиномы третьей степени при к е[3;12]. При формировании исходной выборки V = ( х1, у1, 1 = 1, п) на значения функции накладывалась аддитивная помеха

у1 = Ф(х )(1+2г (Х - °.5)),

где X - случайная величина с равномерным законом распределения на интервале [0,1].

Эффективность исследуемых непараметрических моделей оценивалась среднеквадратической ошибкой аппроксимации на основе контрольной выборки объёма пк = 1000. При

конкретных условиях исследования вычислительный эксперимент осуществлялся 10 раз и полученные оценки ошибки аппроксимации усреднялись.

Рис. 1. Зависимости оценок среднеквадратических ошибок аппроксимации исследуемых непараметрических моделей от объёма п обучающей выборки при к = 7 и г = 0,2.

Кривая 1 соответствует традиционной непараметрической регрессии, а 2 и 3 -непараметрическим коллективам (3), (4) при Т = 3

Анализ результатов вычислительных экспериментов показывает, что предлагаемые непараметрические коллективы моделей (3), (4) обладают более высокими аппроксимацион-ными свойствами в условиях малых выборок по сравнению с традиционной непараметрической регрессией, когда отношение «объём / размерность» обучающей выборки меньше 10 (рис. 1). При уменьшении данного отношения наблюдается преимущество непараметрического коллектива (3) над (4). С ростом объёма обучающих выборок показатели эффективности исследуемых моделей (3), (4) и непараметрической регрессии сопоставимы, что согласуется с результатами аналитических исследований. Установлена большая устойчивость непараметрических коллективов (3), (4) при уровне помех г > 0,3 .

Заключение

Предлагаемые непараметрические модели, основанные на представлении сложной стохастической зависимости в виде коллектива более простых аппроксимаций, что имеет особо важное значение в задачах обработки информации значительной размерности. Подобные коллективы моделей имеют самостоятельное значение при исследовании статических систем с линейной и многоуровневой структурой. Непараметрические коллективы моделей

стохастических зависимостей обладают свойствами асимптотической несмещённости и состоятельности. Их применение обеспечивает значительное снижение ошибки аппроксимации по сравнению с традиционной непараметрической регрессией при отношении «объём / размерность» обучающей выборки меньше 10.

Литература

1. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. - 1962. - Vol. 33. - P. 1065-1076.

2. Лапко А.В., Ченцов С.В. Непараметрические системы обработки информации. - М: Наука, 2000. -350 с.

3. Лапко А.В., Лапко В.А. Непараметрические системы обработки неоднородной информации. - Новосибирск: Наука, 2007. - 174 с.

4. Ивахненко А.Г., Чаинская В.А., Ивахненко Н.А. Непараметрический комбинаторный алгоритм МГУА на операторах поиска аналогов // Автоматика. - 1990. - № 5. - С. 14-27.

5. Хардле В. Прикладная непараметрическая регрессия. - М.: Мир, 1993. - 349 с.

6. Епанечников В.А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. - 1969. - Т.14. - Вып. 1. - С. 156-161.

References

1. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. - 1962. - Vol. 33. - P. 1065-1076.

2. Lapko A.V., Chentsov S.V. Nonparametric systems of data processing. - Moscow: Nauka, 2000. - 350

p.

3. Lapko A.V., Lapko V.A. Nonparametric system of non-uniform data processing. - Novosibirsk: Nauka, 2007. - 174 p.

4. Ivahnenko A.G., Chainskaja V.A., Ivahnenko N.A. Nonparametric combinatory algorithm MGUA on operators of analogues search // Avtomatika. - 1990. - № 5. - P. 14 - 27.

5. Hardle V. Application of nonparametric regress. - Moscow: Mir, 1993. - 349 p.

6. Epanechnikov V.A. Nonparametric an estimation of multivariate probability density // Teoriya veroyat-nosti i eye primeneniya. - 1969. - Vol. 14. - No. 1. - P. 156-161.

i Надоели баннеры? Вы всегда можете отключить рекламу.