Непараметрический алгоритм автоматической классификации статистических данных 73
УДК 681.513
А. В. Лапко, В. А. Лапко, А. Н. Хлопов
НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ СТАТИСТИЧЕСКИХ ДАННЫХ
Предлагается непараметрический алгоритм автоматической классификации статистических данных, основу которого составляют оценки плотности вероятности парзеновского типа. Применение алгоритма позволяет выделять компактные множества точек, соответствующих одномодальным фрагментам плотности вероятности.
Ключевые слова: непараметрическая статистика, автоматическая классификация, распознавание образов, плотность вероятности.
Методы автоматической классификации статистических данных широко используются при разработке математического обеспечения аппаратно-программных комплексов технического зрения, а также при создании систем обработки данных дистанционного зондирования Земли. Среди алгоритмов автоматической классификации, основанных на явном определении класса, следует отметить те, которые ориентированы на обнаружение множества объектов, соответствующих одномодальным фрагментам совместной плотности вероятности в заданном пространстве признаков [1, 2]. Определение класса связано с понятием закономерности в вероятностном смысле и имеет прикладную направленность в задачах синтеза структуры сложных систем, аппроксимации неоднозначных стохастических зависимостей.
Широкое распространение получили методы, основанные на оценивании смеси плотностей вероятности при неизвестном количестве классов и последующем анализе с помощью оптимизационных алгоритмов [3]. Выделение абстрактных образов рассматривается как поиск локальных экстремумов — максимумов непараметрической оценки плотности вероятности смеси. Однако реализация этого метода требует решения большого количества оптимизационных задач, равного числу классифицируемых объектов.
В настоящей статье задача автоматической классификации статистических данных решается формализованно в рамках задачи распознавания образов с помощью итерационной процедуры последовательного восстановления непараметрической оценки уравнения разделяющей поверхности между классами, соответствующими одномодальным фрагментам совместной плотности вероятности.
Базовый алгоритм классификации. Пусть имеется выборка V = х1, г = 1, п, составленная из значений признаков х = ху, V = 1, к, классифицируемых объектов. Необходимо разбить выборку V на группы компактных точек (классов), соответствующих одномодальным фрагментам совместной плотности вероятности р (х). Априори количество М классов и вид
р (х) неизвестны.
При синтезе данного базового алгоритма полагается, что минимальное расстояние меж-
М
ду элементами класса О у и области Оу = ^ О^ больше порогового значения ё :
Х=1,
Ш1й шах
хг, хг v=1,к
г _ г
> ё, х еОу , хг еОу. (1)
Восстановим непараметрическое уравнение разделяющей поверхности между классом О У и областью Оу , которое представляется следующим образом [4]:
/ц (х )=-гг-£ )П фГ
«=1 v=1
п П ^
Г=1
(2)
где ядерные функции Ф(и) удовлетворяет условиям
0 <Ф(и)<да, | Ф(и) ёи = 1, Ф(и) = Ф(-и), | и2 Ф(и) ёи = 1,
+го
| ит Ф (и) ёи < да V 0 < т < да,
а еу = еу (п) , V = 1, к, — последовательности коэффициентов размытости ядерных функций,
убывающие с увеличением п .
Для восстановления непараметрической оценки уравнения разделяющей поверхности (2) необходимо идентифицировать
'(«) =
1, если X е О у; -1, если X е О~7,
и определить оптимальные значения ¿V = ^ (п) , V = 1, к.
Определим коэффициенты размытости для /-у (х) исходя из условия минимума
критерия
+да 2
ъ (сИ (( (х)- У (х)) *.
(3)
В выражении (3) статистика
/УУ (х) = РР (Х)- Р1Р1 (х)
является оценкой байесовского уравнения разделяющей поверхности [2]
/у1 (х) = РуРу (х)- РуРу (х),
где р, Ру — априорные вероятности принадлежности значения х к у-му классу и области О у, а Ру, Ру — их статистические оценки.
При синтезе /-у (х) используются непараметрические оценки плотности вероятности типа Розенблатта — Парзена [5]: например,
Ру (х)=—!т- £ ПФГ
к
; Пч
v=1
пу II с„«е1] v=1
х - хг Л
где I у — множество элементову-го класса из выборки V, а Пу — их количество.
Непараметрический алгоритм автоматической классификации статистических данных 75 Преобразуем выражение (3):
+ю 2
Ъ (с)= К (х)-Руру (х)-Руру (х) + Рур] (х)) ск =
-ю
+ю 2
I [(( ^^^ (х) - Ру р] (х)) - (Р7 ру (х) - ру ру (х))] ск =
-ю
_2 +ю _ 2
I (Р7 ру (х) - Р7 ру (х)) * + | (Р7 ру (х) - р ру (х)) -
-ю +ю
+ю
-2 I (Р7 р7 (х) - Р7 р] (х)) (( Р7 (х) - Р7 ру (х)) •
-ю
Так как в соответствии с постановкой задачи автоматической классификации классы не пересекаются, то третье слагаемое равно нулю.
Аналогичным образом определим среднеквадратический критерий
+ю
Ж2 (с) = 1(р(х)- р(х)) ёх
расхождения между совместной плотностью вероятности
р (х ) = руру(х) + руру(х)
и ее непараметрической оценкой
р ( х ) = Р7р7 (х) + р7р7(х). Нетрудно показать, что Ъ (с) отличается от Ъ (с) только знаком третьего слагаемого,
которое в соответствии с определением класса равно нулю.
Отсюда следует, что выбор оптимальных коэффициентов размытости ядерных функций в непараметрическом уравнении разделяющей поверхности (2) сводится к их определению согласно условию минимума статистической оценки критерия
Ж2 (с) =
+ю
+ю
+ю
I р2 (х)ёх- 2 I р(х)р(х)ёх + I р2 (х)ёх
Так как третье его слагаемое не зависит от искомого параметра с, то, оценивая второе слагаемое в виде среднего значения р (х), получаем критерий
1 п п +ю
(с )=—г-1
п
П
v=1
„2 г=1 7=1-
" к ( ПФ
v=1
- гЛ ( ^ х-\!
Ф
- ]Л х х-\!
ёх -
п
-2 2
п
г =1
п к (х - х7 Л
к
П
V v=1
1 ПК
Г-2ПФ
п П Cv7=1.V=1
V ^ У
ю
минимизация которого позволяет найти оптимальные параметры статистики (2).
Таким образом, не зная вид /-у (х), можно определить ее параметры сг = cv (п),
v = !7к.
Будем считать, что с < ё, где ё — минимальное расстояние между классами О1 и Оу.
С учетом условия (1) для реализации базового алгоритма классификации необходимо выполнить следующие действия.
1. Выбрать из исходной выборки V = х1,1 = 1, п, точку х1, в которой р (х1) 0, и отнести ее к первому классу, т.е. х1 еО1 и о(/) = 1.
2. Осуществить первый этап классификации точек, принадлежащих классу О1, в соответствии с правилом
к 1 Л Л „г ^
хг е О1 и <(г) = 1, если П—Ф
v=1 С
V
> 0, г е I \ (1), I = 1 = 1,
п.
(4)
у
Справедливость правила (4) следует из условия сг < ё, v = 1, к .
Обозначим множество номеров точек, принадлежащих в соответствии с правилом (4) к первому классу, через , включая номер 1.
3. Провести классификацию точек, принадлежащих классу О1, по следующему правилу:
к („ г
х1 е О1 и <(г) = 1, если -1- £ «(у):1 ^Ф
У611
где
11
^ v=1
> 0, г е I \ 11, I = 1 = 1, п,
— количество элементов множества ^ .
Обозначим через ^ множество номеров точек, принадлежащих на втором и третьем шаге классификации к классу О1.
4. Продолжить классификацию точек, принадлежащих классу О1 , по правилу
х
1 1 еО1 и <(г) = 1, если — £ о(у^ПФ
к ( хг - хУ ^
I12 yеI12 С v=1
> 0, г е I \ I2.
5. Предложенную методику классификации продолжать до тех пор, пока на некотором (С +1) -м этапе в соответствии с правилом
х
1 1 О1 и <(г) = 1, если — £ о(у^ПФ
к ( х' - х
уе^
v=1
> 0
г с
к первому классу не будет отнесена ни одна из точек х , г е I \ ^ .
Таким образом, множество точек х1, 1 е ^, образуют первый класс О1, а х1
1 е I \ Il , — объединение остальных классов О -, у = 2, М .
Непараметрический алгоритм автоматической классификации статистических данных 77 При этом непараметрическое уравнение разделяющей поверхности между классом О! и областью Оу имеет вид
1 п к у (^ „г 1
Лу (х)= У)П1Ф
П г=1 г=1 ^
V ^
где
1, если х1 ёОу;
-(()=
-1, если X е Оу.
Аналогичным образом можно выделить точки, принадлежащие второму классу и всем остальным, если ё < ~еу , V = 1, к .
Ближайшим аналогом базового алгоритма классификации является алгоритм „Форель" [6]. Обобщенный алгоритм классификации. Если расстояние между классами ё = 0, для решения задачи автоматической классификации предлагается выполнить следующие действия.
1. Задать некоторое значение непараметрической оценки ру > 0 совместной плотности
вероятности р(х) и из исходной выборки V = X, 1 = 1, п, выделить множество точек V1 = х1: р(х1) > ру, г = 1, п, со значением р(х) , превышающим ру.
Множество V может содержать точки, принадлежащие центру Оу некоторого класса
м
О у и области Оу = ^ Оу , расстояние между которыми ёу > 0.
г=1 г *у
2. Используя базовый алгоритм автоматической классификации, провести декомпозицию выборки ру. Если ёу больше хотя бы одного из значений коэффициентов с , V = 1, к, непараметрической оценки плотности вероятности р (х), то в соответствии с методикой, принятой для базового алгоритма, будут обнаружены множества V (у), V (у ) точек, определяющих центры
Оу, Оу класса О у и области О у. Для идентификации остальных точек у -го класса перейти к п. 3.
Если центры классов не обнаружены, то необходимо увеличить значение р1 на величину А р и перейти к п. 1. В этом случае расстояние ёу между центрами у -го класса и области
Оу увеличится и вероятность того, что ёу > ^ , V = 1, к, повысится.
3. Сформировать обучающую выборку х1, а(), 1 е /у, здесь 1у — множество номеров точек из ру, а
1, если х1 е V (у), -1, если х1 е V (у ).
4. Построить непараметрическое решающее правило распознавания образов
Гх е О у , если /у у (х) > 0; х еОу, если у (х)< 0,
) =
-1 I \ I у у у
ту-(х):
где
Iх, 7 (х ) = пу 2>(')П 1Ф
Кч 1-е/! у=1 Су
ху хУ
Су
5. В соответствии с правилом т,, (х) осуществить классификацию оставшихся точек X , г е I \ I,, из исходной статистической выборки. Нетрудно заметить, что , -му классу будут принадлежать новые точки X , находящиеся в с -окрестности граничных точек множества V1 (,).
6. По результатам классификации расширить обучающую выборку X, о (г), г е I,, где I, = 11 и Я ; Я = р и Я, — множество номеров точек, принадлежащих на шаге 5 к классу О, и области О,. При этом
V (7) = V (7)ихг, - е Я, ; V (7) = V (7)и хг, г е Я,.
7. Если все точки исходной выборки V распределены между классом О, и областью О7, т.е. I, = I, перейти к п. 8, иначе — вернуться к выполнению п. 4.
8. Провести повторную классификацию точек исходной выборки V = X, ' = 1, и, с помощью решающего правила
т7
7 ( ):
х' е О7 , если f■7 (х') > 0; х' е От , если ЛТ (х') < 0,
где
f77 (х') 7 (х') = !Iо((ф
х' - х' ^
и г=1 у=1 су V " /
Ш
На данном шаге уточняется граница между классом О7 и областью О7, если им соответствуют несимметричные фрагменты оценки плотности вероятности р (х). Действия на
шаге 8 повторяются до тех пор, пока не будет завершено перераспределение точек между классом О7 и областью О7.
9. Осуществить проверку на однородность класса О7 . Для этого в соответствии с пп. 1, 2 проверить возможность разбиения выборки V (7) на группы точек, соответствующих од-номодальным фрагментам оценки плотности вероятности в области О7 . Исследование начинается с уровня р1 оценки плотности вероятности, при котором ранее были выделены центры класса О7 и области О7. При обнаружении неоднородности выборки V (7) осуществляется
ее декомпозиция согласно пп. 1—8.
Если в области О7 дополнительно классы не выделены, то перейти к обнаружению нового класса в соответствии с приведенной выше методикой, анализируя выборку V (7) в области О7.
Непараметрический алгоритм автоматической классификации статистических данных 79
Исследования, результаты которых представлены в настоящей статье, выполнены в рамках Федеральной целевой программы „Научные и научно-педагогические кадры инновационной России" на 2009—2013 гг., гос. контракт № 02.740.11.0621.
список литературы
1. Дорофеюк А. А. Алгоритмы автоматической классификации // Автоматика и телемеханика. 1971. № 12. С. 78—113.
2. ЦыпкинЯ. 3. Основы теории обучающихся систем. М.: Наука, 1970.
3. Самообучение распознаванию образов по методу смешанных распределений / В. И. Васильев, В. В. Коно-валенко, Ф. П. Овсянникова. Киев, 1974. (Препринт / АН УСССР. Ин-т кибернетики; № 74—30).
4. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические системы классификации. Новосибирск: Наука, 2000.
5. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33, N 3. P. 1065—1076.
6. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999.
Сведения об авторах
Александр Васильевич Лапко — д-р техн. наук, профессор; Институт вычислительного моделирования
СО РАН, Красноярск; E-mail: [email protected] Василий Александрович Лапко — д-р техн. наук, профессор; Сибирский государственный аэрокосмический университет им. акад. М. Ф. Решетнёва, кафедра космических средств и технологий, Красноярск; E-mail: [email protected] Алексей Николаевич Хлопов — аспирант; Сибирский государственный аэрокосмический университет
им. акад. М. Ф. Решетнёва, кафедра космических средств и технологий, Красноярск; E-mail: [email protected]
Рекомендована СибГАУ Поступила в редакцию
19.11.10 г.