К вопросу построения эффективных нейронных сетей для данных, описываемых разнотипными признаками

Игнатьев Н.А.

Вычислительные технологии

Том 6, № 5, 2001

К ВОПРОСУ ПОСТРОЕНИЯ ЭФФЕКТИВНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ДАННЫХ, ОПИСЫВАЕМЫХ РАЗНОТИПНЫМИ ПРИЗНАКАМИ

Н.А. Игнатьев Национальный университет Узбекистана, Ташкент e-mail: alimov@patent.uz

Some ways for synthesis of neural networks with the minimum configuration for solving recognition problem on the data with varied attributes are suggested.

Введение

Трудность реализации нейронных сетей (НС) в разнотипном признаковом пространстве в первую очередь связана с выбором весов входных параметров, измеряемых в слабых шкалах. Унификация данных путем перехода из сильных шкал измерения к слабым уменьшает количество используемой информации, делает выборки объектов комбинаторно ограниченными.

Наличие определенной априорной информации и свойств самих обрабатываемых данных дает возможность проводить так называемое "обогащение" слабых шкал, т. е. придавать количественные свойства шкалам порядка и наименования [1].

Процесс обучения НС в большинстве известных случаев проводится для заранее заданного фиксированного числа нейронов путем последовательного уточнения весов взвешенных сумм каждого из них. Процесс синтеза НС с минимальным числом нейронов теоретически плохо обоснован, его описания в литературе весьма поверхностны. Минимально необходимое число нейронов определяется с использованием процедуры контрастирования [2, 3], в основу которой положена оценка значимости весов связей в НС.

В [4] отмечалось, что для каждой прикладной области существует свой набор критериев, которые следует применять при выборе структуры НС. Получены формулы расчета степени обучаемости (пластичности) многослойных сетей прямого распространения, согласно которым обучаемость многослойных сетей не может быть выше, чем обучаемость однослойного персептрона.

Рассматриваемый в данной статье процесс синтеза НС с минимальным числом нейронов напрямую зависит от структуры признакового пространства описаний допустимых объектов. Отбор оптимального количества нейронов сводится к решению задачи минимального покрытия обучающей выборки объектами-эталонами.

1. Постановка задачи и метод решения

Считается, что множество допустимых объектов E0 = (Si, ... , Sm} представляет обучающую выборку, в которой заданы представители l непересекающихся классов K1, ... , Ki. Каждый допустимый объект описывается с помощью n признаков, r из которых количественные (0 < r < n), (n — r) — номинальные.

Математическая интерпретация выбора весов признаков для нейронов сети выражается в построении кусочно-линейных дискриминантных функций, на базе которых принимается решение о принадлежности объектов к классам. Каждая дискриминантная функция отвечает за принятие решения по "своей" части признакового пространства.

Для определения по НС принадлежности произвольного допустимого объекта S к классам K1, ... , Ki необходимо:

а) вычислить множество весов входных параметров нейронов;

б) выделить минимальное покрытие множества E0 объектами-эталонами, с помощью которых следует реализовать алгоритм, корректно распознающий объекты обучения.

Пусть I, J — множества номеров соответственно количественных и номинальных признаков, используемых для описания допустимых объектов, и объект Sj G E0 (Sj = (xji, ... , Xjn)) является эталоном выборки. Значение весов количественных признаков эталона вычислим аналогично [5, с. 92], т. е. Vt G I, Wjt = xjt и wj0 = — ^^ w|t.

tel

Вычисление значений весов номинальных признаков по одному из предлагаемых способов основывается на предположении об одинаковом характере различий между количественными и номинальными признаками, т. е. считается, что максимальное различие объектов по количественным признакам соответствует максимальному возможному различию по каждому номинальному признаку. С помощью значений

Wmax = max( —2wjo/r),

Sj eEo

l

Amax = I Kt | (| Kt | —1)

t=1 l

втах = I Kt | (m— | Kt |) t=1

вес каждого номинального признака c G J определяется как

wjc H AA^ ) ( TT~ ) wmax, (1)

, Amax / \ Pm£

где

l

Ac = E E

j=1 Si,sdeK.

1, xic xdc, 0, xic = xdc;

в ^ л ^ л f 1, xic = xdc,

j=1 Si,SdeEo\Kj { 0,xic = xdc.

Значение взвешенной суммы по объекту-эталону Sj• £ Е0 для произвольного допустимого объекта S = (ах, ... , ап) вычисляется как

Sj) = ^ Wjiai + ^ wji + Wjo. (2)

Согласно решающему правилу, реализующему принцип "победитель забирает все", объект S принадлежит к тому классу, значение взвешенной суммы (2) объекта-эталона которого максимально.

В связи с разномасштабностью измерений количественных признаков в определенных случаях целесообразно проводить их нормирование. Одной из форм нормирования является отображение значений признаков в [0,1] по формуле

г

X* _ Зг тш (3)

ji х) _ х® '

хтах "^тт

где хтах,хт1п — соответственно максимальное и минимальное значения признака г £ I на Е0. Отказ от предположения об одинаковом характере различий количественных и номинальных признаков, а также нормирование по (3) делают ненужным вычисление значения wmax и позволяют взамен (1) использовать формулу

- = (^)(вН (4)

\ Лта^ \ гтах /

Формулой (4) можно пользоваться и в тех случаях, когда описание допустимых объектов определяется только значениями номинальных признаков.

Поиск минимального покрытия ^ обучающей выборки эталонами с целью выбора минимальной конфигурации нейронной сети осуществляется процедурой "последовательное исключение". Изначально все объекты Е0 считаются эталонами покрытия ^, т.е. ^ = Е0. Если при использовании ^в качестве эталонов алгоритм распознавания является корректным (не делающим ошибок) на Е0, то производится удаление объекта Si из ^. Если исключение любого объекта-эталона из ^ и последующее использование ^-алгоритма распознавания приводят к появлению ошибок на Е0, то выполнение процедуры останавливается.

Итогом работы процедуры "последовательное исключение" является множество ^, содержащее минимальное число объектов-эталонов, достаточное для корректного разделения объектов обучения на классы. Очевидно, что состав множества ^ зависит от порядка подачи объектов-кандидатов на удаление из числа эталонов.

Другой формой работы с разнотипными признаками является перевод номинальных признаков к булевым и последующее использование математических методов анализа количественных признаков [6] в объединенном пространстве количественных и булевых признаков. Обозначим через Т множество номеров булевских признаков, мощность которого равна сумме градаций каждого номинального признака. Если признак с £ 3 имеет д возможных значений {б,1, ... , ЬС}, то каждому ЬС сопоставляется булев признак г* с £ £ Т как

1, если хс = ЬС,

г* = {

0, если хс = ЬС.

Далее в объединенном пространстве количественных и булевых признаков для минимального покрытия обучающей выборки эталонами можно использовать конечно-сходящийся алгоритм [7] или процедуру "последовательное исключение".

В целях сравнительного анализа перечислим рассмотренные способы задания структуры данных для выбора на них минимальной конфигурации НС:

1) вычисление весов номинальных признаков по (1) с сохранением исходных значений количественных признаков;

2) преобразование количественных признаков в [0,1], и вычисление весов номинальных признаков по (4);

3) перевод номинальных признаков в булевы и дальнейшее использование их в объединенном пространстве как количественных.

В первом способе уязвимым местом является использование предположения о зависимости весов количественных и номинальных признаков. Второй способ избавлен от предположений о зависимости весов количественных и номинальных признаков, зато требует предварительных вычислений максимальных и минимальных значений по каждому количественному признаку. К числу существенных недостатков третьего способа можно отнести рост размерности признакового пространства описаний допустимых объектов, что может привести к значительному увеличению затрат вычислительных ресурсов при синтезе НС.

Для численной оценки разных способов выбора структуры нейронных сетей, описываемых в данной работе, предлагается использовать меру статистического разнообразия класса кусочно-линейных решающих функций [8]. Предпочтение нужно отдавать той структуре нейронной сети, для которой

k * n = min,

Eo

где k — число нейронов сети; n — размерность признакового пространства.

Построение НС через решение задачи минимального покрытия обучающей выборки объектами-эталонами позволяет НС сохранять свойства "обобщения" и сводить к минимуму количество неверных ответов на примерах, которые она "не видела" в процессе обучения.

2. Вычислительный эксперимент

За основу модельного примера для вычислительного эксперимента взяты данные из [9, с. 307]. В состав данных входят 40 объектов (точек), описываемых двумя количественными признаками. Первые 20 точек определяют первый класс, точки с 21 по 40 — второй. В описание каждого объекта включены два номинальных признака, имеющие по две градации каждый.

Порядок предъявления объектов-кандидатов на удаление из числа эталонов процедурой "последовательное исключение" определялся исходной нумерацией (по возрастанию). Результаты вычислительного эксперимента представлены ниже.

Структура Число Число Оценка выборки нейронов признаков сложности

в

б

г

a

9

10 11

5

4 4 6 2

36 40 66 10

Под литерой "г" приведены результаты, полученные при решении задачи минимального покрытия эталонами исходных данных из [9, с. 307].

Список литературы

[1] НИКИФОРОВ А. М., ФАЗЫЛОВ Ш.Х. Методы и алгоритмы преобразования типов признаков в задачах анализа данных. Ташкент: Фан, 1988.

[2] ГОРБАНЪ А. Н. Обучение нейронных сетей. M.: СССР - США СП "ParaGraph", 1990.

[3] Le Cun Y., DENKER J. S., SOLLA S.A. Optimal Brain Damage // Advances in Neiral Information Proc. Systems. 1990. P. 598-605.

[4] ДОРОГОВ А. Ю., АЛЕКСЕЕВ А. А. Пластичность многослойных нейронных сетей // Изв. вузов. Приборостроение. 1998. Т. 41, №4. C. 36-41.

[5] Ту Дж., ГОНСАЛЕС Р. Принципы распознавания образов. М.: Мир, 1978.

[6] КОТЮКОВ В. И. Многофакторные кусочно-линейные модели. М.: Финансы и статистика, 1984.

[7] ИГНАТЬЕВ Н. А. Распознающие системы на базе метода линейных оболочек // Автоматика и телемеханика. 2000. №3. C. 168-172.

[8] ВАПНИК В. Н. Восстановление зависимостей по эмпирическим данным. М.: Наука.

[9] Айвлзян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика. 1989.

1979.

Поступила в редакцию 12 февраля 2001 г., в переработанном виде —19 июня 2001 г.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Игнатьев Н. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Игнатьев Н. А.

Construction of efficient neuron networks for data with multi-type attributes

Текст научной работы на тему «К вопросу построения эффективных нейронных сетей для данных, описываемых разнотипными признаками»