Непараметрические методы обнаружения закономерностей в условиях малых выборок

Лапко А.В.; Шарков М.А.; Лапко В.А.

СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ

УДК 681.513

А. В. Лапко, М. А. Шарков

Сибирский федеральный университет Красноярск

В. А. Лапко

Институт вычислительного моделирования СО РАН Красноярск

НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОБНАРУЖЕНИЯ ЗАКОНОМЕРНОСТЕЙ

В УСЛОВИЯХ МАЛЫХ ВЫБОРОК

Рассматриваются непараметрические оценки плотности вероятности и алгоритмы распознавания образов в условиях малых выборок, основанные на искусственной генерации дополнительных статистических данных. Исследования их свойств выполнены аналитически и методом вычислительного эксперимента.

Большинство статистических методов распознавания образов ориентировано на представительные обучающие выборки. Однако при решении прикладных задач исследователи часто располагают ограниченным объемом наблюдений — короткой либо малой выборкой, что обусловливается нестационарностью объекта исследования, высокой сложностью и стоимостью получения дополнительной информации. Получаемые решающие правила не всегда обеспечивают приемлемых результатов классификации, так как информации малых обучающих выборок недостаточно для оценивания вероятностных характеристик изучаемых закономерностей.

В условиях малых выборок широкое распространение получили принципы декомпозиции систем и последовательные процедуры формирования решений. Так, для увеличения отношения „объем/размерность" (п / к ) обучающей выборки формируются наборы признаков классифицируемых объектов, в пространстве которых формулируются частные решающие правила. Для получения обобщенного решения используются методы коллективного оценивания на основе вторичных факторов, определяемых количеством наборов исходных признаков [1, 2].

Метод группового учета аргументов (МГУА) реализует последовательную процедуру усложнения решающего правила путем целенаправленного отбора (селекции) пар, состоящих из первичных и промежуточных признаков [3]. Каждый этап синтеза алгоритма характеризуется отношением п / к = п /2. Алгоритмы МГУА отличаются друг от друга критерием селекции, количеством промежуточных моделей и их сложностью.

В работе [4] приведены результаты исследований по генерации случайных величин с плотностью вероятности, представляющей собой ядерную оценку Розенблатта—Парзена. Предложенные процедуры продолжения случайных последовательностей обосновывают возможность искусственного увеличения объема п обучающей выборки, а следовательно и отношения п / к. Асимптотические свойства получаемой при этом ядерной оценки плотности вероятности исследованы в работе [5], результаты которой являются основой для синтеза непараметрических алгоритмов распознавания образов в условиях малых выборок.

Оценивание плотности вероятности в условиях малых выборок. Будем считать, что восстанавливаемая плотность вероятности р (х) и первые две ее производные ограничены и непрерывны.

При оценивании плотности вероятности р(х)Ух е Е1 в условиях малых выборок увеличим

объем исходных данных V = (х1, г = 1, п) за счет результатов статистического моделирования. С этой целью в Р-окрестности каждой г-й ситуации выборки проведем т имитаций случайной величины х с законом распределения р1 (х) и нулевым математическим ожиданием.

Нетрудно заметить, что полученная статистическая выборка V2 = (X + х , у = 1, т, г = 1, п) соответствует смеси плотностей вероятности

1 п _

р (х) = -Е Рг (х К

п г=1

п т ( х - хг - х ^

ее непараметрическая оценка запишется в виде

Р( х) = (птс)-1 ЕЕФ

г=1 у=1 ^ ^ >

где Ф(и) — ядерная функция, удовлетворяющая условиям

Ф(и)>0, |ф(м)ёи = 1, Ф(и) = Ф(-и), |иуФ(и)ёи, V>2,

Ф(и2)>Ф(и1), V |и2|<\щ\, с = с(п) — параметр размытости ядерной функции.

В многомерном случае х е Як оценка плотности вероятности имеет вид

(1)

__п т к 1

р( х) = (пт)-1 ЕЕП -Ф

( г - У ^

ху ху

г=1 у =1 у=1 СУ

СУ

(2)

В работе [5] определены асимптотические выражения для смещения

М (р (х)-р (х))~ р(22(х) (С2 +Ц2) (3)

и среднего квадратического отклонения

V(х, х) = М(((х)-р(х))2~ р(х)11Ф(и)11 ц2 +1Гр2(~х)-2р(х)р(1)(х)^1 +

' 2птс п

+((р(1) (х))2 + рСх)р(2) (^))Ц2 -р(1) 00р(2) (хЦ+(р(2)4(х))2 Ц4 ]+ (4)

р 2( х) - (/)(х))2 Ц2 + Ц4 + р( х)р<2>( х)Ц2

(р(2)(х))2 (С2 +Ц2)2.

Здесь М — знак математического ожидания; р(у)( х), р(у)( х), у = 1,2 — первые и вторые производные плотностей вероятности случайных величин х и х;

_ _у Р_у _ _

хур(х)ёх, V = 1,4, |/ = | Хр(х)йх,у = 1,2, ||Ф(и)|| = |ф2(и) ёи .

-Р

Доказательство асимптотической сходимости непараметрических оценок, предназначенных для обнаружения закономерностей в условиях малых выборок, позволяет аналитически обосновать методику их синтеза. На этой основе появляется возможность определить количественную взаимосвязь между характеристиками обучающей выборки, параметрами имитационной процедуры формирования дополнительной статистической информации и исследуемых алгоритмов их обработки, что необходимо для объяснения результатов вычислительных экспериментов.

Проведем анализ асимптотического выражения среднего квадратического отклонения Ж (X, х) на всем диапазоне изменения х и х. При этом будем полагать

р( X) = (2р)-1Ухе[-р; в]

3 2 2 4 3

и пренебрегать вследствие малости в , в с , с , в /(птс) в процессе преобразований. Тогда, проинтегрировав выражения Ж(х, х) по переменным х, х, получим

_ А Р(х)||2 в

ж+ ^ 711 н, (5)

2пв т

где А — длина интервала изменения х.

Отметим зависимость асимптотических свойств оценки плотности р(х) от объема исходной информации и результатов статистического моделирования.

Как и следовало ожидать, с ростом т оценка среднего квадратического отклонения (5)

стремится к пределу ——. Полученные выводы подтверждают принципиальную возможность

2пв

использования оценок типа (1) при обработке малых выборок. Вместе с тем условия конечных п и т ^ да не обеспечивают сходимость р(х) к р(х).

Причем зависимость Ж от в при определенных значениях т и п имеет экстремальный характер и при оптимальном

( V/2

тА

в =

4п||р( х)||

2

J

(6)

достигает своего минимума.

Из анализа выражения (6) следуют вполне очевидные соотношения между параметрами

* ^

в , т и А. Интервал 2в генерирования искусственной обучающей последовательности увеличивается с ростом области определения р(х) и количества имитаций т и снижается по мере увеличения объема п исходной выборки.

Определим условия, при которых предлагаемая методика увеличения объема выборки обеспечивает повышение эффективности оценивания плотности вероятности. Известно, что традиционной непараметрической оценке ядерного типа [6]

Л. .а Л

^ х - х

р (х) = (пс)-1

г=1

(7)

V J

соответствует минимальное значение асимптотического выражения среднего квадратическо-го отклонения

V р ( х) - р( х)||2~4

2 Л4

Ф

л1/5

п

(2) рх

Для определения эффективности оценки (1) используем выражение (5) для ее среднего

*

квадратического отклонения при оптимальном значении в (6):

V ~2

р (х)||2 у/2

пт

Тогда из условия V / V >1 можно определить требование на количество имитаций т процедуры генерирования искусственной обучающей выборки

т > 2,56Д|| р (х)||2

п3/

МП р (2)( х)

ЛЛ15

(8)

уУ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

при котором оценка (1) будет обладать более высокими аппроксимационными свойствами по сравнению с традиционной непараметрической оценкой плотности вероятности ядерного типа (7).

Синтез уравнения разделяющей поверхности в условиях малых выборок. Для упрощения выкладок, без существенной потери в получаемых результатах, рассмотрим методику построения уравнения разделяющей поверхности в условиях малых выборок на примере двухвариантной задачи распознавания образов в пространстве непрерывных признаков. В этом случае решающее правило имеет вид

Г хе°ь если /12(х) > а

Г(х):^ (9)

[хе02, если /12(х)<0,

где /12 (х) = р1( х) - р2 (х) — байесовское уравнение разделяющей поверхности между классами 01 и 02, соответствующее критерию максимального правдоподобия.

Для построения решающего правила воспользуемся оценкой плотности вероятности, предложенной в выражении (2). Пусть п1 и п2 — количество ситуаций обучающей выборки (хг, о(г), г = 1, п), принадлежащих первому и второму классу. Тогда непараметрическая оценка

уравнения разделяющей поверхности может быть представлена следующим образом:

( г - 1Л к ( г - Л

^ л т к л _ .. г

______1 т к 1

/12 (х)=рх (х)- р2 (х)=—ЕЕП—ф

п1тге11 у=1 у=1 С

1 т к л

—ЕЕП

п2 тге12 у=1 у=1 Сг

( к Л1 п т к ^

пт П Ео(г )ЕПФ

- ' л

Л^ Лу хУ

л

V

где

V у=1 у г=1 У=1 у=1

(«1 / п), если х е0ь

(10)

о(1) =

[-(и2 / п), если х е02,

1]_, 12 — множество номеров ситуаций из обучающей выборки, принадлежащих первому и второму классу соответственно.

При оптимизации решающей функции (10) сначала определяются параметры в проце-

дуры генерирования обучающей выборки V = (х1 + х , о(г), у = 1, т, г = 1, п), где параметр о(1)

указывает на принадлежность ситуации х1 + х к одному из классов. Выбор значения в осуществляется для каждого класса из условия полного покрытия Р-окрестностями области определения соответствующей части обучающей выборки. При этом количество пересечений всех Р-окрестностей должно быть минимальным.

Затем определяются параметры т и ^, V=1, к непараметрической оценки уравнения разделяющей поверхности из условия минимума эмпирической оценки вероятности ошибки распознавания образов в режиме „скользящего экзамена" по выборке V [7].

Для повышения эффективности непараметрических алгоритмов распознавания образов в условиях малых выборок возможно использовать принципы коллективного оценивания.

Пусть ^ (х), у = 1, М — непараметрические решающие правила для двухвариантной задачи

распознавания образов, которые построены по выборкам (х1 + х], ст(1), у = 1, т, 1=1, п), отличающимся случайными последовательностями, „расширяющими" при одних и тех же значениях параметров имитации т и в исходную обучающую выборку.

Воспользуемся одним из известных подходов коллективного оценивания, например, методом „голосования" и построим решающее правило

'12

(х ):

^ Мл М2

хеОь если ->-;

1 ММ

о М1 М2

х££¿2, если —— <-

ММ

где Му, у = 1, 2 — число „решений", которые принимают „члены коллектива" о принадлежности объекта с набором признаков х в пользуу-го класса.

Результаты вычислительного эксперимента. Анализ результатов вычислительного эксперимента подтверждает преимущество в условиях малых выборок исследуемого классификатора по сравнению с традиционным непараметрическим алгоритмом распознавания образов. Достаточно конечного числа имитаций т в Р-окрестности ситуаций исходной обучающей выборки для значительного снижения ошибки классификации. Подтверждено наличие порогового значения т, что согласуется с аналитическим результатом (8).

Обнаруженную закономерность можно объяснить, если учесть, что выражение (1) является непараметрической оценкой смеси плотностей вероятности р1 (х), 1 = 1, п. Каждая

составляющая р1 (х) определена на Р-окрестности исходной ситуации х1 и восстанавливается по данным VI =(х1 + х], у = 1, т). Очевидно, что при малых значениях т информации выборки VI явно недостаточно для оценивания (х), поэтому закон распределения х в классах, представленных исходными данными, искажается. Следовательно, в области малых значений т преимущество предлагаемого непараметрического классификатора не наблюдается.

Установлено наличие минимума зависимости оценки вероятности ошибки распознавания образов от значения Р-окрестности процедуры генерирования искусственной обучающей выборки. Данный факт согласуется с аналитическим выводом (6), полученным при анализе асимптотического выражения среднего квадратического отклонения (5) непараметрической оценки плотности вероятности р (х) от р (х).

Результаты вычислительного эксперимента подтверждают, что значение параметра Р должно обеспечивать полное покрытие Р-окрестностями области определения классов при их минимальном взаимном пересечении.

Непараметрическая регрессия в условиях пропуска данных

67

Увеличение объема исходных данных на основе принципов имитационного моделирования является эффективным средством решения задач классификации в условиях малых обучающих выборок. Получаемые при этом непараметрические алгоритмы распознавания образов обеспечивают существенное снижение ошибки распознавания на контрольных выборках по сравнению с традиционным классификатором ядерного типа.

Работа выполнена в рамках гранта Президента РФ № НШ-3431.2008.9.

СПИСОК ЛИТЕРАТУРЫ

1. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. № 6. С. 26—34.

2. Лапко В. А. Синтез и анализ непараметрических моделей коллективного типа // Автометрия. 2001. № 6. С. 98—106.

3. Ивахненко А. Г., Чаинская В. А., Ивахненко Н. А. Непараметрический комбинаторный алгоритм МГУА на операторах поиска аналогов // Автоматика. 1990. № 5. С. 14—27.

4. Деврой Л., Дъерфи Л. Непараметрическое оценивание плотности (Ьх -подход). М.: Мир, 1988. 407 с.

5. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические системы классификации. Новосибирск: Наука, 2000. 240 с.

6. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, вып. 1. С. 156—161.

7. Лапко А. В., Ченцов С. В., Крохов С. И., Фелъдман Л. А. Обучающиеся системы обработки информации и принятия решений. Новосибирск: Наука, 1996. 296 с.

Рекомендована Поступила в редакцию

НПО ПМ 12.01.08 г.

УДК 519.95

М. И. Соколов

Сибирский федеральный университет Железногорский филиал

НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ В УСЛОВИЯХ ПРОПУСКА ДАННЫХ

С использованием принципов имитации систем и коллективного оценивания разработаны непараметрические модели восстановления стохастических зависимостей в условиях пропуска данных путем „размножения" строк на основе их аналогов из исходной таблицы „объект—признак" с последующим синтезом непараметрической регрессии.

Одной из проблем теории обучающихся систем является обработка массивов данных с пропусками. В этих условиях перед исследователем возникает дилемма — исключение информации с пропусками или их заполнение, решать которую необходимо исходя из имеющихся объективных предпосылок.

В первом случае теряется полезная информация, содержащаяся в остальных позициях строки таблицы „объект—признак", и возрастают материальные затраты на их получение. Основным путем решения проблемы недостающих данных является их восстановление в соответствии с закономерностями, определяющими взаимосвязь между признаками исходной выборки данных. Наиболее известны локальные алгоритмы заполнения пропусков исходной

Непараметрические методы обнаружения закономерностей в условиях малых выборок Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Лапко А. В., Шарков М. А., Лапко В. А.

Похожие темы научных работ по математике , автор научной работы — Лапко А. В., Шарков М. А., Лапко В. А.

Текст научной работы на тему «Непараметрические методы обнаружения закономерностей в условиях малых выборок»