Научная статья на тему 'Выбор минимальной конфигурации нейронных сетей'

Выбор минимальной конфигурации нейронных сетей Текст научной статьи по специальности «Математика»

CC BY
395
97
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Игнатьев Н. А.

Предложен способ выбора конфигурации нейронных сетей для решения задач распознавания образов, реализуемый через совмещение процессов отбора информативных наборов признаков и поиска минимального покрытия обучающей выборки эталонами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Selection of the minimum configuration of neuron networks

A method for the selection of the neuron networks configuration is suggested for solving the problems of pattern recognition implemented through the combination of the selection processes of the set of informative signs kits and the selection of the minimum coverage of the training set by standards.

Текст научной работы на тему «Выбор минимальной конфигурации нейронных сетей»

Вычислительные технологии

Том 6, № 1, 2001

ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ

Н.А. Игнатьев Национальный университет Узбекистана, Ташкент e-mail: tin000@tashsu.silk.org

A method for the selection of the neuron networks configuration is suggested for solving the problems of pattern recognition implemented through the combination of the selection processes of the set of informative signs kits and the selection of the minimum coverage of the training set by standards.

Введение

Одним из общих свойств всех нейронных сетей (НС) является параллельная обработка сигналов, для реализации которой необходимо разбиение множества нейронов на слои и соединение определенным образом нейронов различных слоев, а в ряде случаев и нейронов одного слоя между собой. Обоснование необходимых и достаточных свойств сети для решения того или иного рода задач — важнейший этап разработки нейрокомпьютерной техники.

Отсутствие фундаментальных теоретических разработок не позволяет производить синтез НС в строгой зависимости от решаемой задачи. В большинстве случаев параметры нейронных сетей с фиксированной структурой (конфигурацией) настраиваются для решения конкретной задачи и оптимальный вариант получается на основе интуитивного подбора [1]. Поиск минимального числа нейронов и связей между ними, достаточных для решения задачи, определяет процесс выбора минимальной конфигурации НС. Этот процесс не противоречит идее бритвы Оккама, смысл которой заключается в том, что при отсутствии каких-либо специальных указаний из множества возможных решений предпочтение отдается простейшему из них.

В настоящей статье поиск минимальной конфигурации НС для решения задач распознавания образов предлагается проводить посредством отбора информативных наборов признаков и соответствующего ему минимального покрытия эталонами объектов обучающей выборки. Для направленного отбора информативных признаков вычисляются их веса с заданными ограничениями [2]. Эти веса в дальнейшем используются для определения величин синаптических связей нейронов. Решение задачи минимального покрытия объектов обучающей выборки эталонами базируется на идее метода линейных оболочек [3].

Под линейной оболочкой понимается множество граничных по заданной мере близости (метрике) объектов классифицированных выборок. Линейные оболочки получили свое название по аналогии с кусочно-линейным решающим правилом, которое геометрически

© Н.А. Игнатьев, 2001.

интерпретирует использование евклидовой метрики для классификации по минимуму расстояния. В [3] показано, что с помощью линейных оболочек можно получить локально-оптимальное покрытие обучающей выборки эталонами. Распознавание по этим эталонам с помощью правила "ближайший сосед" является корректным на объектах обучения. Естественный компромисс между числом эталонов (кусков гиперплоскостей) и размерностью признакового пространства может быть разрешен через вычисление меры статистического разнообразия распознающих алгоритмов [4].

1. Компактизация классифицированных выборок объектов

Различные методы и алгоритмы теории распознавания образов базируются на гипотезе о компактности. К их числу относится метод вычисления весов признаков, детально изложенный в [2]. Согласно этому методу, на множестве объектов обучения Е0 = {$1, ..., $т} с описаниями в Кп, разделенном на I непересекающихся классов К1, ..., К\, вводится функционал

п

Е Швг

г=1 п

Е ^гЪ

3(ш) = %—---> ш1п, (1)

г=1

в котором вг, 7г есть меры соответственно внутриклассового сходства и межклассового различия по г-му признаку. Значения весов признаков шг, г = 1, п интерпретируются как коэффициенты сжатия (растяжения) координатных осей признакового пространства и вычисляются построением функции Лагранжа

п

Еш^г / п

^(ш,А) = г=1- + А 5>г - 1

ЕШ7г \г=1

г=1

п

на функционале (1) при заданных ограничениях Е Ш =1, шг > 0:

=1

Ъ - в а ^ п

7г - вг > 0,

Е 1з - в

Ч-<>з >0} 0, 7г - вг < 0

Ш■ = I ^ ^ - в3 (2)

Шг ^ Ш-Ч >0} (2)

Выделение множества объектов линейных оболочек (граничных объектов) классов проводится с целью вычисления весов и отбора информативных наборов признаков, а также построения минимального покрытия обучающей выборки эталонами.

Пусть в качестве меры близости между объектами выбрана взвешенная евклидова метрика

Р(х,У)

ш2(хг - Уг)2, (3)

п

в которой значения весов вычислены по формуле (2). Для каждого объекта Бг £ Kj пЕ0 построим последовательность объектов Е0, упорядоченных, согласно метрике (3), по возрастанию расстояния от объекта Бг:

Бго , , •••, 5гт-1,

где Бг0 = Бг.

Пусть Бгс £ Ки, и = ], с £ {1, •••, т — 1} — ближайщий к Бг объект, не входящий в класс Kj • Обозначим через О (Бг) окрестность радиуса р(Бг, Бгс) с центром в Бг, включающую все объекты, для которых р(Бг, Бг() < р(Бг, Бгс), £ = 1, с — 1 Из О(Бг) найдем такой объект Бгг, г £ {0, •••, с — 1}, что

Р(Бгс ,Бгг )= тдп р(^, ^ ^ (4)

Sit ео(5г)

Множество объектов ¿(Е0,/) = {Бгг}, определяемых на Е0 по (4), назовем линейной оболочкой классов К1, •••, К. Из различных способов вычисления значений 0г, 7г выберем два: а)

в = Y1 1 aij - aUi i'

1 1 ,

Yi = —1 X X] 1 aij - aUi |'

u=1 Sj еК

где = j ...' ajra), aUi = E ati/ 1 Ku 1 ;

3

StеК

X X 1 a3i - b3i |'

Yi ^ ^ 1 a3i — cji |'

u=1 Sj £Ku

где (b3

и (Cji' •••' Cjn) значения признаков ближайших к S3 £ Kq, q = 1, / объектов соответственно множеств L(E0, /) п Kq и E0/Kq.

Обозначим через H(r) = (x1, •.., xr), 2 < r < n набор из r признаков и примем, что wi есть значение веса признака хг £ H(r). Процесс определения значений {wi} по (2) на различных наборах H(r) существенно сокращается при выборе способа а), так как значения {вг}, {Yi} нужно вычислять только один раз. Естественное условие эффективности этого процесса — несовпадение математических ожиданий признаков классов. Количество вычислений {вг}, {Yi} значительно возрастает при способе б), поскольку для каждого набора признаков H(r) их нужно выполнять заново. Значение разности Yi — в = const, так как число и состав объектов линейных оболочек на различных наборах признаков не являются фиксированными.

В [2] показано, что процесс вычисления значений весов {wi}, i = 1, r можно совмещать с направленным отбором информативных наборов признаков. При определенных ограничениях на веса признаков из набора H(r) всегда можно удалить такой признак, что значение функционала (1)на H(r — 1) будет меньше, чем на H(r). Положим, что значения

u=1 Sj ек

в

u=1 Sj ек

u

{вг}, (7г| вычислены по способу а), веса признаков {шг}, определенных на наборе Н(г), 2 < г < п, — по формуле (2) и и>г > 0, Е -тг = 1 для всех хг Е Н(г). Тогда имеет место

ХЧ&И(т)

Теорема. Необходимым и достаточным условием выбора признака ху Е Н(г) в качестве кандидата на удаление из набора Н(г) является

Е ™гвг

в] Х^И(т)

тах.

1] Е Н(г)

Х1&И(т)

Доказательство. Обозначим

Е ™гвг

С1 Х1^И (т)

С2 Е ^г7г'

Х1&И(т)

С учетом (2) это отношение запишем

Е вг(Тг - вг)

С1 Х1^И (т)

С2 Е 7г(7г - вг)

Х1€И(т)

Поскольку признак ху Е Н(г) — кандидат на удаление, то

> 0.

С1 С1 - ву (1з - ву)

С2 С2 - 1] (Ъ - в] )

В силу заданных на {/шг} ограничений Ухг Е Н(г)шг > 0, Е шг = 1 получим

Хн&П(т)

] > С1

1з С2 '

а с учетом (1)

Е ™гвг

в] Х^п(т)

---—-= тах.

1] Е ™г1г Н(т)

Х1&И(т)

Теорема доказана.

2. О минимальном покрытии обучающей выборки эталонами

Формально классификация объектов с помощью нейронных сетей происходит путем разбиения гиперпространства, определяемого информативным набором признаков Н(г), рядом гиперплоскостей, число которых зависит от решения задачи минимального покрытия эталонами обучающей выборки. Поиск этого числа параллельно с вычислением весов и

отбором информативных наборов признаков может проводиться в форме решения задачи минимального покрытия обучающей выборки эталонами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Весовой вектор линейного дискриминанта может быть вычислен с помощью взвешенного евклидова расстояния (3) между объектом Б = (о^, ..., ап) и эталоном Б = ..., Ьп) [5]:

П 1 п

<£(£, Б) = ^ ад + V = Ьг, = - - ^

г=1 г=1

Рассмотрим конечно-сходящийся алгоритм [3] для локально-оптимального покрытия эталонами обучающей выборки. Определение множества объектов линейной оболочки ¿(и>, /, г) = (У/, ..., У^1}, ^ < т с помощью весов (2) на наборе признаков Н(г), 2 < г < п считаем первым шагом этого алгоритма. Для каждого Уг1 £ / , г) п К), = 1, / упорядочим объекты класса К^ по возрастанию расстояния (3) от Уг1:

, •••, , (5)

где Бг1 = У1, т^- =| К |. На ¿-м шаге (£ = 2,3,...) для очередного последовательно предъявляемого эталона Уг вычислим

У* =(г?-1У?-1 + )/(г*-1 + 1), (6)

г

где г]-1 — число объектов из упорядоченного набора (5), используемых для вычисления

У/-1, г1 = 1.

Если построенный по эталонам У^ \ ..., ..., У^ 1 распознающий алгоритм остается корректным (не делающим ошибок) на Е0, то новое значение ¿-го эталона находим по формуле (6), г] = г*-1 + 1, У* = У4-1, г* = г*-1, = ¿.

Проверка условия о том, что на очередном t-м шаге ни для одного из эталонов У"/-1, ..., Y^-1 применение (6) не дает корректного алгоритма на E0, служит критерием останова вычислительного процесса. Сходимость алгоритма к локально-оптимальному покрытию обучающей выборки эталонами за конечное число шагов доказана в [3].

Пусть {У", ..., Yu},u < d — минимальное покрытие эталонами выборки E0 по H(r), и = (ui, ..., un) — информационный вектор, задаваемый на наборе признаков {xi, ..., xn}, при этом Uj = 1, если i-й признак входит в набор H(r), и и = 0, если не входит в него, uS, uYj представляют и — части объекта S и эталона Yj. Максимальное значение линейного дискриминанта <^(u£,uYj), вычисляемое по {У", ..., Уи}, определяет номер эталона j, к классу которого относят объект S.

Очевидно, что количество эталонов, получаемое с помощью различных способов вычисления значений {$»}, {y»} на различных информативных наборах признаков, не фиксировано. Выбор оптимального (допустимого) решения основывается на вычислении емкости кусочно-линейных решающих функций [4] и определяется из условия

kr ^ min,

Eo

где k — число эталонов (кусков гиперплоскостей) на обучающей выборке; r — размерность пространства информативного набора признаков.

При использовании метода линейных оболочек традиционный подсчет количества ошибок на обучающей и контрольной (тестовой) выборках для проверки качества итоговой модели алгоритмов распознавания приобретает новый смысл. Поскольку распознающий

алгоритм, определяемый на эталонах {Yi, ..., Yu}, корректен на обучающей выборке по построению, то большое количество ошибок на контрольной выборке указывает на то, что объекты обучения плохо представляют (через линейную оболочку) конфигурацию классов. Так как процесс формирования выборок объектов имеет случайный характер, то необходима проверка гипотезы о том, что при росте объема E0 межклассовое расстояние удовлетворяет соотношению

1 1

> > min p(Si,S0) ^ const.

-J ' S.. cE„\K 4

\L(u,l,r)\ ¿—f ' Sq cEo\Kj

1 ^ ' ' л .7=1 sieb(^.i.r)nKj q j

Если объекты классов линейно не разделимы в исходном признаковом пространстве, то существует возможность их разделения путем перехода в обобщенное пространство. На практике для таких целей чаще всего используются квадратичные решающие правила, задаваемые поверхностями второго порядка. Переход с линейной решающей функции на квадратичную связан с большими затратами вычислительных ресурсов. Объем вычислений можно значительно сократить, если использовать такую эвристическую процедуру.

Пусть V — максимальное число обобщенных признаков, с которого начинается поиск оптимальной конфигурации нейронной сети. Определим максимальное число г (г < п), удовлетворяющее неравенству

г (г + 3) ^

< ^

с помощью которого найдем информативный набор признаков Н(г) = (х\, ..., хг). Используя различные комбинации признаков из Н(г) в степени не выше 2 по описанной выше схеме, можно получить оптимальную конфигурацию нейронной сети.

Список литературы

[1] ГОРБАНЪ А. Н., РОССИЕВ Д. А. Нейронные сети на персональном компьютере. Новосибирск: Наука, 1996.

[2] Игнатьев Н. А. Компактизация классифицированных выборок объектов // Методы и вычислительные средства обработки видеоинформации, данных и анализа. Ташкент, 1993. С. 75-82.

[3] Игнатьев Н. А. Некоторые вопросы реализации комбинированных систем распознавания в классе линейных решающих функций // Вопр. вычисл. и прикл. математики. Ташкент, 1995. Т. 100. С. 88-94.

[4] ВАпник В. Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.

[5] Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978.

Поступила в редакцию 12 апреля 2000 г. в переработанном виде — 31 июля 2000 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.