Алгоритм выбора оптимальных границ интервалов разбиения значений признаков при классификации

Згуральская Екатерина Николаевна

УДК 519.95

АЛГОРИТМ ВЫБОРА ОПТИМАЛЬНЫХ ГРАНИЦ ИНТЕРВАЛОВ РАЗБИЕНИЯ ЗНАЧЕНИЙ ПРИЗНАКОВ ПРИ КЛАССИФИКАЦИИ

Институт авиационных технологий и управления Ульяновского государственного технического университета

Поступила в редакцию 02.11.2012

Предлагается численный алгоритм выбора оптимальных границ интервалов разбиения значений признаков классифицированных объектов. Алгоритм инвариантен к масштабам измерений, может быть использован при поиске латентных (явно не измеримых) признаков в базах данных для моделирования процесса интуитивного принятия решений.

Ключевые слова: разбиение на интервалы, оптимальные значения границ интервалов, оценка сложности алгоритма.

ВВЕДЕНИЕ

Разбиение значений количественных показателей на интервалы широко применяется в различных алгоритмах анализа данных. В прикладной статистике значения количественных признаков, как правило, разбивается на заранее заданное число равных интервалов. Примером тому служит построение гистограмм, децильно-го и процентильного распределений.

Задача разбиения на интервалы рассматривалась и в теории распознавания образов с учителем. В [1] описан метод, реализация которого основывается на предположениях о законе распределения и числе интервалов. Метод является эвристическим, для разбиения на интервалы используется мера неопределённости принадлежности объекта к тому или иному классу энтропии, допускается отсутствие разбиения.

Использование численных методов оптимизации позволяет подбирать параметры модели, при которых алгоритмы распознавания допускают наименьшее число ошибок на заданной обучающей выборке. Метод, осуществляющий подгонку моделей распознавания и прогнозирования под выборку, получил название минимизации риска [2]. Увеличение сложности модели не всегда является благом, так как "оптимальные" алгоритмы начинают хорошо подстраиваться под конкретные данные, в том числе под измерения обучающей выборки и погрешность самой модели.

В теории искусственных нейронных сетей (И НС) сложность модели распознавания выражается через способность к обобщению. Требуется, чтобы алгоритмы ИНС не только хорошо решали задачу на обучении, но и были способ-

Згуральская Екатерина Николаевна, старший преподаватель кафедры «Самолетостроение». E-mail: e_ignateva@rambler.ru

ны также хорошо принимать решение на объектах, которые они не видели в процессе обучения. Этим целям служат разработки новых методов интеллектуального анализа данных, позволяющих получать новые знания о решаемой задаче и использовать их, в том числе, и для повышения точности алгоритмов ИНС [3] для произвольных допустимых объектов.

Задача разбиение на интервалы значений признаков классифицированных объектов в [3] сформулирована как детерминистическая. В основе критерия метода лежит проверка гипотезы "Существует такое разбиение, при котором каждый интервал содержит все значения признака объектов одного класса". Очевидно, что при проверке число интервалов должно быть равно числу классов объектов.

Истинность, указанной выше гипотезы, означает, что между интервалами значений количественных признаков и классами объектов существуют взаимно-однозначное соответствие. На практике интерес представляет ответ на вопрос: Насколько истинны утверждения гипотезы на реальных данных? Универсальной и легко интерпретируемой мерой истинности служат значения в интервале [0,1]. Концы интервала [0,1] определяют оппозицию: значения признака неразличимы - значения признака различимы до уровня взаимно-однозначного соответствия интервалов и классов объектов.

Описываемый в работе алгоритм инвариантен к масштабам измерений, может быть использован при:

- поиске латентных (явно не измеримых) признаков в базах данных для моделирования процесса интуитивного принятия решений;

- преобразовании значений количественных признаков в номинальные с минимальной потерей информации;

- отборе информативных наборов разнотипных признаков.

Для уменьшения объёма вычислений предлагается проводить предобработку данных. Даётся оценка комбинаторной сложности алгоритма без использования предобработки и при её использовании.

1. ПОСТАНОВКА ЗАДАЧИ И МЕТОД РЕШЕНИЯ

Рассматривается задача распознавания в стандартной постановке. Считается, что задано множество объектов Е0 = Бт }, содер-

жащее представителей I непересекающихся классов К^..., К1. Описание объектов производится с помощью набора из п разнотипных признаков Хп = (,..., хп), 5 из которых измеряются в номинальной шкале, п — 5 в интервальной шкале. Считается, что задан критерий Р(*) для разбиения значений количественного признака на непересекающиеся интервалы. Требуется определить значения границ I интервалов при Р(*)^ ех№.

Обозначим через I, J множество номеров соответственно количественных и номинальных признаков в описании допустимых объектов,

+

J

( i i

"-d

p-1 i-1

ii

(m-lKi-£";+up)

aiKKm-lK^ )

^ max „ . „ M> ( 1)

упорядоченной последовательности rji,...,rjm при числе классов l равно

v(, m) =

2(m -1), l — 2,

2((-1)

2^(m-2i + k)) > 2.

k —3

(2)

Количество операций (сложность алгоритма) для подсчёта {и р } определяется по среднему числу проверок условий вхождения значения признака в один из I интервалов (по две в интервале) и операции суммирования с 1

F(l, m) =

f

2m

1+7

+ m I y/(l, m) — m(2+l)f(l, m).

Для уменьшения комбинаторной сложности вычислений предлагается воспользоваться предобработкой данных. Суть предобработки заключается в формированиии по упорядоченной последовательности Г/1,...,Г/т целочисленной матрицы вида

d10dn... dim

D —

Vdl0dli . ' dlm J

(3)

п . Упорядоченное множество значений признака х/, / Е I разобьём на непересекающиеся интервалы (с2к-1, С2к ],С2к—1 < С2к , к = 1,1, каждый из которых считается градацией номинального признака.

Пусть ир - множество значений признака х/, ] Е I класса К4 в интервале С „ —1, С2 „ ], А = (а0,...,а1 ), а0 = 0,а1 = т, ар — порядковый номер элемента упорядоченной по возрастанию последовательности г/1,...,г/т значений Х/ из Ео, определяющий правую границу интервала С2 р = Гар .

Критерий

в которой индекс столбца элемента

dpi, Р = 1, i, i = 1, m соответствует объекту

X 6 E0 со значением признака rji. Элементы матрицы (3) вычисляется как

d- = I"'i = 0' где g(p i) = f * КР'

pi |dp,i-i + g(p,i),i>0,где g(p-'>-fy,xг Kp.

Число представителей up класса

Kp, p — 1, i, t — 1, l в интервале \c1, c2] при

t — 1 и (c2t-1, c2t ] при t > 1, левые и правые границы которых соответствуют индексам

Л — at-1 , V = at , c2t-1 = j , C21 = , определяется как

C2t = j ,

u

p

d„.. - d.

pr

позволяет вычислять оптимальные значения границ интервалов {(С2р—1,С2р ]} и использовать их для определения градаций количественного признака в номинальной шкале измерений. Процесс преобразования при этом оказывается неразрывным от классификации, вводимой на множестве объектов обучения, и может быть реализован с учётом пропусков в данных.

Основные затраты вычислительных ресурсов при нахождении экстремума (1) приходится на вычисление {и/ }. Максимальное число непересекающихся интервалов при разбиении

(4)

Сложность алгоритма вычисления {ир } по

(3),(4) не превышает , т). Эта оценка сложности может быть понижена при наличи пропусков в данных и повторяющихся значений.

Благодаря использованию (4) по матрице (3) стало возможным вычисление (1) для интервалов и весов латентных (явно не измеримых) признаков. Под весом здесь понимается оптимальное значение критерия (1). Примерами латентных признаков может служить хх^, ХХ— —, где х4, х Е X и 4, / Е I. На практике латентные признаки часто используются в форме различных

i-1

п =0 -'о % = = 6 а2 = 12 а3 = 16

!

|

0 1 2 1 3 2 1 i 2 2 2 3 3 1

номер класса

индексов. Например, в медицине это индекс массы тела, индекс Кердо. Высокие значения весов латентных признаков (как правило, ближе или равные 1) служать основанием для построения моделей интуитивного принятия решений.

Вес признака по критерию (1) содержит в себе важную информацию об его информативности. Однако при отборе информативных наборов признаков нельзя полностью полагаться только на их упорядочение по значениям весов, то есть руководствоваться принципом "чем больше вес, тем признак более информативный в наборе". В расчёт идёт и такой фактор как взаимная коррели-рованность признаков. Такая задача рассматривалась в [4], где исследовался вопрос отбора наборов информативных разнотипных признаков и их влияние на эффективность реализации искусственных нейронных сетей.

2. ТЕСТОВЫЙ ПРИМЕР

Визуальная демонстрация алгоритма разбиения на интервалы несовпадающих значений количественного признака по критерию (1) при т = 16, числе классов I =3 и мощности классов К1 = 6, |К2| = 6, |К3| = 4 с использованием результатов предобработки (5) показана на рис. 1.

Рис. 1. Визуальная демонстрация алгоритма

Таблица 1. Варианты разбиения на интервалы

'0 1 12333455555556 6^ D = 001 1 1 122234555666 0 0 0 0 0 1 1 1 1 1 1 1 2 3 3 3 4

(5)

Согласно (2) максимальное число вариантов разбиения значений признака на интервалы ^(3,16) = 2X13X14 = 364 , сложность алгоритма без предобработки ^ (3,16) = 16 х(2 + 3)х 364 = 29520 с предобработкой (учитывая вычисление (3)) 3 X 364 + 3 X16 = 1140. Для варианта разбиения, указанного на рис. 1, получим ц=3, =2, Щ ==, Щ =2, щ =3, Щ=1 щ =1, Щ=1 Щ =2 и значение критерия (1) равное 0,2146.

Другие возможные варианты разбиения на интервалы представлены в табл. 1.

№ п/п a1 a2 Значение критерия (1)

1 1 2 0,1944

2 2 8 0,3452(оптим.)

3 6 12 0,2146

Очевидно, что при оптимальном разбиении ( ах = 2 и a2 = 8 ) нет ни одного интервала, содержащего все значения признака объектов одного класса.

Номера интервалов оптимального разбиения по (1) можно рассматривать как градации при преобразовании значений количественного признака в номинальные. Такое преобразование использовалось для поиска информативных наборов разнотипных признаков с максимально выраженной независимостью в [4].

3. ВЫВОДЫ

Численный алгоритм выбора оптимальных границ интервалов может быть использован при интеллектуальном анализе данных для преобразования количественных признаков в номинальные с минимальной потерей информации, при упорядочении разнотипных признаков по отношению сложности алгоритмов, выражаемой через способность корректно распознавать объекты фиксированной выборки с минимальной затратой вычислительных ресурсов.

СПИСОК ЛИТЕРАТУРЫ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Вапник В.Н. Алгоритмы и программы восстановления зависимостей. М.: Наука, 1984. 816 с.

2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.447с.

3. Игнатьев НА., Мадрахимов Ш. Ф. О некоторых способах повышения прозрачности нейронных сетей // Вычислительные технологии. 2003. Т. 8. № 6. С. 31-37.

4. Згуральская Е.Н. Выбор информативных признаков для решения задач классификации с помощью искусственных нейронных сетей // Нейрокомпьютеры: разработка, применение. 2012. №2. С. 20-26.

THE ALGORITHM OF DETERMINING OF THE OPTIMAL PARTITION BOUNDARIES ATTRIBUTE VALUES INTERVALS FOR THE CLASSIFICATION

Institute of Aviation Technology and Management of Ulyanovsk State Technical University

A numerical algorithm for choosing the optimal boundaries of partition values intervals of the classified objects attributes is represented. The algorithm is invariant to the scale of the measurement and can be used for finding latent (not measurable clearly) criteria in the database for modeling of the intuitive decision-making process. Keywords: partition into intervals, the optimal values of the boundaries of intervals, the evaluation of the algorithm.

Ekaterina Zguralskaya, Senior Lecturer at the Aircraft Structure Department. E-mail: e_ignateva@rambler.ru

Алгоритм выбора оптимальных границ интервалов разбиения значений признаков при классификации Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Згуральская Екатерина Николаевна

Похожие темы научных работ по математике , автор научной работы — Згуральская Екатерина Николаевна

THE ALGORITHM OF DETERMINING OF THE OPTIMAL PARTITION BOUNDARIES ATTRIBUTE VALUES INTERVALS FOR THE CLASSIFICATION

Текст научной работы на тему «Алгоритм выбора оптимальных границ интервалов разбиения значений признаков при классификации»