Научная статья на тему 'Автоматизированный метод отбора информативных признаков для непараметрической классификации'

Автоматизированный метод отбора информативных признаков для непараметрической классификации Текст научной статьи по специальности «Математика»

CC BY
116
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Попов Б. В., Цымбал В. Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматизированный метод отбора информативных признаков для непараметрической классификации»

Секция радиоприемных устройств и телевидения

УДК 615.84: 621.38.038

Б.В. Попов, В.Г. Цымбал

АВТОМАТИЗИРОВАННЫЙ МЕТОД ОТБОРА ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ НЕПАРАМЕТРИЧЕСКОЙ КЛАССИФИКАЦИИ

В основе действия большинства экспертных систем заложены методы теории распознавания образов. Распознавание производится путем анализа некоторого набора признаков, описывающих множества распознаваемых объектов, и построения правил классификации в пространстве этих признаков. Качество работы и быстродействие таких автоматизированных систем распознавания и классификации во многом определяется выбором эффективной системы признаков.

На практике обычно оказывается достаточно затруднительно формализовано описать характерные особенности объектов различных классов с помощью ограниченного набора параметров. Для обеспечения требуемого качества распознавания используют многомерные признаки

X = {х,,...,х }. Однако вследствие этого существенно усложняются вычисления, и падает быстродействие системы. Проблема может быть решена путем отбора из исходных р признаков некоторой подсистемы £/ признаков с/ « р , обладающих такой же разделяющей способностью.

Вектор показателей X, Х^ заданной размерности С[ тем более

информативен, чем больше различие в законах его вероятностного распределения, описывающего различные классы (рис. 1,а). Если ввести меру попарного различия б (/?,; р .) законов р,{Х) и р] (X), описываю-

щих распределение вероятности вектора признаков X = |х, ,...,Х;, / в классах с номерами к = 1,2,...Д , то можно формализовать вышеприведенный принцип отбора наиболее информативных показателей Х| ,...,Х?, определяя их из условия максимизации величины

В качестве меры различия между законами распределения вероятностей наиболее часто употребляются расстояния информационного типа (дивергенция Кульбака, расстояние Бхатачария, расстояние Махалано-биса). Наиболее информативными считаются признаки, для которых значение критерия (1) максимально. Если значение этого критерия для системы из ({ признаков близко к значению критерия для системы р исходных признаков, то система из Ц параметров обладает такой же

к

(1)

разделяющей способностью, что и исходная система признаков [1]. Для использования традиционных мер (Кульбака, Бхатачария, Махаланоби-са) информативности необходимо производить интегрирование многомерных плотностей вероятности, что на практике трудно осуществить даже в случае аналитического задания плотности вероятности.

Интересным с точки зрения решаемой задачи является оценка информативности признаков по разности условных по классам плотностей вероятности

Я = 0.5-\\Ъ(Х)\ с1Х = 0.5-\\р(ХIК,)-р(Х 1К2)\ с1Х , (2)

X X

базирующиеся на вариационном расстоянии Колмогорова [1]

2е = 1-\\Р(К2)р(Х1К2)-Р(К1)р(Х/К])\. (3)

Л'

Из рис. 1 видно, что введенный параметр Я тесно связан с вероятностью ошибки классификации

ъ(Х)=[р(Х1К1)+р(Х/К2)]-\Ь(Х)\, (4)

что область значений параметра Я: от 0 при полном совпадении веро-

ятностных характеристик классов до 1 при полном несовпадении этих характеристик. Признакам, в направлении которых распределения объектов имеют наиболее выраженные различия, соответствуют максимальные значения параметра Я.

Рис.1. Графики плотностей вероятности распределений классов (а) и разностной функции Ъ(Х) = р2(Х) — р^Х) (б).

Преимуществом введенной меры информативной значимости признаков перед вышеупомянугыми расстояниями информационного типа является возможность ее использования в условиях выборки малого объема.

В условиях малой выборки величины р{(Х) и р~,(Х) могут быть оценены каким-либо непараметрическим методом (^-ближайших соседей,

Парзеновских окон и др.). В качестве примера рассмотрим использование метода гистограмм (рис.2) как наиболее наглядного и достаточно простого в вычислительном отношении.

Располагая лишь выборочными данными (выборкой)

II — а. * II н •— — — СІ X * V- ■ *! = х; = г*п Х2 • г - Уы - , ... , л р - х\ Х2

Л-' К р) о х~ Vр) N X \ Р /

(5)

мы можем составить по ним приближенное представление о неизвестной теоретической функции плотности вероятности [2]. Если нас интересует малый отрезок [ X; X + А ] и мы подсчитали, что в этот отрезок попало п ■ А (X) = \(X + А) — \>( х) наблюдений нашей выборки, то, очевидно, выборочным аналогом величины

рЛх)

РЛх + А)-РЛх)

(6)

будет величина

у(х + А) ч(х)

ц»(х) = Ик--------------(7)

п п-А

Значение р'”](х) характеризует плотность наблюдений исследуемой случайной величины в окрестности точки X, т.е. относительную частоту этих наблюдений, приходящуюся на единицу длины интервала ее возможных значений. Эти две характеристики неограниченно сближаются в процессе увеличения объема выборки (N —» оо ) и сужении длины интервала А (А —> 0 ). Тем не менее даже при конечных величинах N и А можно считать, что число объектов, попавших в каждую ячейку, приблизительно характеризует плотность вероятности.

Для того, чтобы в последующем можно было оперировать с гистограммой как с оценкой плотности вероятности, необходимо, чтобы она обладала основными свойствами последней. В первую очередь это свойства неотрицательности и нормировки. Поскольку число объектов не может быть отрицательным, то первое требование выполняется.

Для выполнения условия нормировки необходимо, чтобы

2Х=1> (8)

т.е. сумма значений всех ячеек гистограммы равнялась 1. С этой целью подсчитывается общее число объектов выборки N и значение каждой из ячеек делится на это число:

И.

И, = -5.. 9

Л N

Кроме того, необходимо нормировать и область изменения параметра Х1, чтобы границы ячеек гистограмм для разных классов совпадали.

Удобно использовать в качестве области определения гистограмм интервал [0;1].

С помощью найденных по всей выборке значений X, ппп и X, тах

значение / -го признака нормируется (во всей выборке без разделения на классы) относительно величины

Ь(х1) = х,п,ах-х1т1п, (10)

т.е.

В результате этой операции все признаки Х: оказываются распределены в интервале [0;1]. Значения х/ тт и X, тах запоминаются. В результате этого к выборке объектов как бы добавляются два дополнительных объекта с параметрами признаков, граничными сверху и снизу для всей совокупности обучающей выборке. Для / -го признака строятся гистограммы для каждого из имеющихся классов, примерный вид которых показан на рис. 2(а, б)

Дискретным аналогом величины К в (2) является величина

* = 0.5-2>„-Л,| = 0.5.£|б„|, (12)

7=1 у=1

где *5' — число ячеек гистограмм. Весь обследованный диапазон [ X, .; X, тах ] разбивается на определенное число .V равных интервалов

группирования; при этом число интервалов Л' не должно быть меньше 810 и больше 20-25. Выбор количества интервалов существенно зависит от объема выборки N; для примерной ориентации при выборе ,у можно пользоваться приближенной формулой [3]

Л' « /<>£, N + / , (13)

которую следует воспринимать скорее как оценку снизу для 5 (особенно при больших N .

Разностная функция бЛ.; = р7] —Р/} имеет такую же структуру, как и гистограмма (рис. 2,в).

X

Рис.2. Дискретные оценки плотности вероятности (а, б) и разностной функции (в) в виде гистограмм

Так же, как величина Я для заданных аналитически плотностей вероятности, параметр 2( связан с вероятностью ошибки классификации соотношением г = 1 — Б.

Вычисление величины для всех имеющихся в распоряжении

признаков Х1 позволяет произвести их ранжировку по информативной значимости

г„ >г,>...>7а>г„. (14)

Предлагаемый алгоритм может быть использован совместно с любым методом распознавания образов, работающим с вектором признаков, заданных в количественной шкале. Для первоначального описания объектов формируется произвольная система признаков большой размерности, из которых с помощью описанного метода формируется ограниченный набор признаков, обладающих заданной разделяющей способностью. Он играет роль своеобразного "решета", отсеивающего неинформативные признаки.

Использование описанной методики в диагностической системе на кафедре медицинской и биологической физики Ростовского государственного медицинского университета позволило выявить электроэнцефа-лографические показатели, достоверно отличающиеся у больных и здоровых испытуемых — информативные признаки астенодепрессивных расстройств.

ЛИТЕРАТУРА

1. Фуку нага К. Введение в статистическую теорию распознавания образов. /Пер. с англ. М.: Наука, 1979. ЗЙ7 с.

2. Айвазян С.А., Енюков И.С., Мегиалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 471с.

3. Айвазян С.А., Енюков И.С., Меииалкин Л.Д. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985. 488с.

УДК 681.325.36

О.П. Кандаурои, М.В. Михалёв

ГЕНЕРИРОВАНИЕ СЛУЧАЙНЫХ ПРОЦЕССОВ С ЗАДАННЫМИ СТАТИСТИЧЕСКИМИ ХАРАКТЕРИСТИКАМИ

Во многих практических приложениях требуется формирование случайных процессов с наперёд заданными статистическими характеристиками: одномерными и многомерными плотностями вероятностей, мо-ментными функциями и т.д. Примерами могут служить задачи анализа систем автоматического управления, находящихся под воздействием случайных возмущений, задачи стохастического функционального преобразования сигналов, задачи анализа работы радиотехнических систем в условиях помех и многие другие важнейшие практические задачи.

Ввиду высокой практической значимости разработка методов генерации случайных процессов с заданными статистическими характеристиками ведётся уже более 50 лет как в математике, так и в технике. Несмотря на столь продолжительное развитие данной области, полученные в ней результаты ещё далеки от решения насущных практических задач. С целью определения возможностей полученных к настоящему времени практических результатов в области генерирования случайных процессов представляется целесообразным классификация существующих методов получения таких процессов.

В докладе на основе анализа представлена классификация методов генерирования случайных процессов с заданными статистическими характеристиками. Приводятся их сравнительные показатели качества.

На основе предложенной классификации и сравнительных характеристик методов отмечено, что наименее разработанными являются методы генерации многомерных процессов с заданной совместной плотностью вероятности и взаимной корреляционной функцией, т.е. методы генерации случайных полей. Показано, что путь к решению данной задачи лежит в построении эффективных с точки зрения минимума аппаратурных затрат (при сохранении заданной точности) методов формирования случайных процессов с заданными совместной плотностью вероятности и корреляционной функцией. Приводятся результаты численного анализа взаимокорреляционной функции процессов с заданными одномерными плотностями вероятности и корреляционными функциями, сформированными по алгоритму [1].

ЛИТЕРАТУРА

1. Кутиков Л.М., Кутузова О.Р. О некоторых алгоритмах имитации и статистической обработки случайных процессов на ЦВМ //Вопросы радиоэлектроники. Вып.25, 1967.

i Надоели баннеры? Вы всегда можете отключить рекламу.