образов. Полученные в результате оптимизации Парето-оптимальные алгоритмы распозна-вания сигналов могут быть использованы в рабочем режиме при распознавании образов, в частности, для принятия коллективных решений либо для структурной адаптации.
Анализ практических особенностей устройств распознавания случайных сигналов показывает, что они могут быть реализованы с использованием перспективных средств вычислительной техники, в частности, транспьютерных и нейронных технологий.
ПЕРЕЧЕНЬ ССЫЛОК
1. Васильев В. И. Распознавание системы. Справочник. - К.: Наукова думка, 1983. - 424 с.
2. Фукунага К. Введение в статистическую теорию распознавания. - М.: Наука, 1979. - 368 с.
3. Омельченко А. А. Основы спектральной теории распознавания сигналов. - Харьков: Вища школа, 1983. - 156с.
4. Прикладная теория случайных процессов и полей / Коллективная монография под ред. К. К. Васильева, В. А. Омельченко. - Ульяновск: УлГТУ, 1995. - 256 с.
5. Подиновский В. Д., Ногин В. Д. Парето-оптимальные решения многокритериальных задач. - М.: Наука, 1982. - 256 с.
6. Березовский Б. А., Барышников Ю. М., Борзенко В. И., КепнерЛ.М. Многокритериальная оптимизация: Математические аспекты. - М.: Наука, 1986. - 186 с.
7. Безрук В. М. Векторна оптим1зац1я та статистичне моделювання в автоматизованому проектуванш систем зв'язку. - Харюв: ХНУРЕ, 2002. - 164 с.
8. Омельченко В. А. Многокритериальные задачи распознавания сигналов. Ч. 2. Распознавание сигналов в условиях повышенной априорной неопределенности // Отбор и передача информации. - 1989. - Вып. 4(80). - С. 84-85.
9. Омельченко В. А, Балабанов В. В., Безрук В. М., Омельченко А. В., Фефелов Н. А. Распознавание неполностью описанных случайных сигналов при наличии
класса неизвестных сигналов //Отбор и обработка информации. - 1992. - Вып. 8. - С. 71-80.
10. Омельченко В. О., Безрук В. М., Колесников О. О. Ор-тогональш розклад1 випадкових процеав та |'х застосу-вання при розтзнаваны сигнал1в // Зб. наук. пр. «¡мо-в1ршсш модел1 та обробка випадкових сигнал1в i полш». - 4.1. - Харюв: ХРЕ, 1992. - С. 73-82.
11. Безрук В. М. Методы многокритериальной оптимизации информационных систем //Радиоэлектроника и информатика. - 1999. - Вып. 2(07). - С. 63-68.
12. Безрук В. М. Синтез и анализ Парето-оптимальных систем распознавания случайных сигналов методом рабочих характеристик // АСУ и приборы автоматики. -1999. - Вып. 109. - С. 25-29.
13. Безрук В. М. Оптимизация авторегрессионных алгоритмов распознавания сигналов по совокупности показателей качества // ¡нформацiйно-керуючi системi на залiзничному транспорт. - 2001. - № 2. - С. 10-13.
14. Омельченко В. À, Безрук В. М, Коваленко Н. П. Рас-поз-навание заданных радиосигналов при наличии неизвестных сигналов на основе авторегрессионной модели // Радиотехника. - 2001. - Вып. 123. - С. 195-199.
15. Безрук В. М., Евсеев К. К., Чеботов À. В. Метод распознавания видов модуляции радиосигналов, описываемых вероятностной моделью в виде смеси распределений. // Прикладная радиоэлектроника. - 2003. -№ 1. - С. 26-31.
Надшшла 12.10.04 Шсля доробки 13.05.05
Розглядаютъся ocoôëueocmi отримання рШенъ бага-токритер1альних задач розтзнавання випадкових crnHaëie при нaявнocmi класу нeвiдoмих cигнaлiв, з урахуванням опису cигнaлiв рiзними ймoвiрнocними моделями та при oпmимiзaцiï рШенъ за coкупнocmi показни^в якocmi розтзнавання cигнaлiв i реaлiзaцiйних витрат.
Features of receipt of decisions of muchcriterion tasks of recognition of accidental signals at presence of class of unknown signals are considered, taking into account description of signals by the different probabilistic models and during optimization of decision on aggregate of indexes of quality of recognition of signals and realization expenditures.
УДК 004.93
Е. В. Бодянский, Е. В. Горшков, В. В. Колодяжный, И. П. Плисс
РЕКУРРЕНТНЫЙ АЛГОРИТМ ОБУЧЕНИЯ РАДИАЛЬНО-БАЗИСНЫХ НЕЙРОННЫХ СЕТЕЙ, ОСНОВАННЫЙ НА ПРИБЛИЗИТЕЛЬНЫХ
МНОЖЕСТВАХ
В cmambe предложен алгоритм обучения радиалъно-базж-ных нейронных cemeé, ocнoвaнный на приблизительных мно-жеcmвaх. Алгоритм предназначен для решения задач рac-познавания образов и клaccификaции, а также может uc-пoлъзoвamъcя для управления, идентификации и эмуляции при помощи радиалъно-базжных нейронных cеmей.
ВВЕДЕНИЕ
В настоящее время искусственные нейронные сети (ИНС) находят все более широкое применение в раз-
личных задачах обработки информации таких, как идентификация нелинейных систем, прогнозирование, фильтрация, адаптивное управление, распознавание образов, диагностика и т. п.
В качестве основной архитектуры обычно используются многослойные сети с прямой передачей информации, недостатками которых являются громоздкость и низкая скорость обучения, основанного на нелинейных алгоритмах обратного распространения ошибок, что затрудняет их применение в задачах, где
обработку наблюдений необходимо проводить в реальном времени по мере поступления новых данных.
1 ПОСТАНОВКА ЗАДАЧИ
Альтернативу многослойным архитектурам представляют радиально-базисные сети [1-3], обладающие универсальными аппроксимирующими свойствами [4], содержащие два слоя обработки информации и при этом, что наиболее важно, их настраиваемые синап-тические веса, обеспечивающие требуемое качество нелинейного отображения пространства входов в подпространство выходов, в описание сети входят линейно.
В общем случае радиально-базисная сеть с п входами и т выходами осуществляет нелинейное преобразование вида
н т
У{ = р]<х) = ж;0 + X ж;'гФг(х) = ф(х^ ! = 1
где уI - ] -й выходной сигнал сети (/ = 1, 2, т), Fj(x) - нелинейное отображение входного векторного
сигнала х = (Х1, Х2, хп) в / -й выход, т страиваемые синаптические веса, ф^ (х) - радиально-
базисные функции, обычно представляющие собой
т
парзеновские ядра [5], т^ = (т;0, т^, ...тун) ,
Ф(х) = (1,(1(х),(2(хX .,Фн(х))Т.
Входной слой такой сети - это сенсоры, связывающие ИНС с окружающей средой. Единственный
скрытый слой осуществляет нелинейное преобразова-
п
ние входного пространства К в скрытое пространство К , как правило, высокой размерности (Н » п). И, наконец, выходной слой, образованный адаптивными линейными ассоциаторами, формирует реакцию сети У = (У1, У2■■■Ут) на входной сигнал
т( к) = т( к - 1) +
Р (,к - 1)к) - тТ (к - 1 )Ф(х(к)))
+ -Ф-^-1-Ф(х (к)),
а + ф Т (х(к))Рф(к - 1 )ф(х(к))
рф(к) = ах
(1)
(к ^ рф ( к - 1 ) Ф (х ( к ) )рф( к - 1 ) ( (к
х I Рф(к - 1)--^-т-Ф(х(к)) I,
а + ф Т (х(к))Рф(к - 1)ф(х(к)) ^
где к = 1, 2, . - текущее дискретное время, 0 < п < 2 -скалярный параметр, определяющий характер сходимости процесса обучения, й(к) - внешний обучающий сигнал, 0 < а < 1 - параметр забывания устаревшей информации.
Оценки синаптических весов, получаемых с помощью этих алгоритмов, имеют ясный статистический смысл и являются оптимальными в ситуации, когда и полезная информация, и действующие возмущения являются, по сути, стохастическими сигналами, порождаемыми нормальными распределениями. Алгоритмы обучения, имеющие в своей основе критерии отличные от квадратичного [13], в конечном итоге все равно «привязаны» к тому или иному закону распределения и дают точечную оценку, имеющую смысл математического ожидания.
Естественно, что при обработке информации, не имеющей случайного характера, например, в задачах динамической реконструкции хаотических сигналов [14-16], применение статистических критериев явно не имее смысла. В этом случае можно предположить, что и полезные сигналы х(к), й(к) (здесь dj(к) - обучающий сигнал) и действующие ненаблюдаемые возмущения к) принадлежат к некоторому ограниченному интервалу и, более того, могут иметь регулярный или хаотический характер или искусственную природу типа преднамеренных помех. Ясно, что даже оптималь-
*
ные значения синаптических весов т^ в этом случае не
позволяют в режиме обучения получить на выходе нейросети точное равенство у;( к) = dj( к), а могут лишь задать некоторый интервал [17, 18]
х (х 1, х2, ■ • хп) .
Для настройки радиально-базисных ИНС наиболее широкое распространение получили алгоритмы, основанные на критериях, использующих те или иные функции квадратов ошибок обучения [6-12], от простейшего одношагового алгоритма Уидроу-Хоффа
,, ^ dЛ к) - тТ (к - 1 )ф( х (к))
т; (к) = т/к -1) + Ц-¡¡фхЩ)!-ф(х(к))
до метода наименьших квадратов в самых различных вариантах, среди которых наиболее популярной является его экспоненциально взвешенная модификация
dj(к) - г(к) < т/ ф(х(к)) < dj(к) + г(к),
(2)
где параметр г (к) определяет границы изменения возмущающих сигналов к) < г(к).
Можно заметить, что неравенство (2) определяет в пространстве синаптических весов пару гиперповерхностей, между которыми и лежат настраиваемые параметры тj( к). Последовательность обучающих dj( 1) ,dj( 2),..., dj(Ы) сигналов порождает N пар гиперплоскостей, которые высекают в этом пространстве некоторую область (политоп) Dj(N). Это и есть область уточняемых параметров, при этом все точки, принадлежащие этой области, равноправны в том смысле, что среди них невозможно выделить наилуч-ший вектор весов, хотя для
удобства можно использовать некоторый центр области или для некоторого неотрицательного pj( к) : (N) так, как это делается в процедурах дефаззифика-
ции, используемых в системах нечеткого вывода [14-16]. Результатом обучения ИНС при этом будет не традиционная точечная оценка, а интервальная, что с вычислительной точки зрения весьма удобно.
Данный подход получил определенное распространение в задачах идентификации объектов управления и систем и известен под названием «множественного подхода к оцениванию параметров» (set-membership approach to parameter estimation) [18].
Первый очевидный путь определения множества си-наптических весов состоит в нахождении решения системы N линейных неравенств (2), однако, поскольку количество вершин политопа Dy(N) растет значительно быстрее чем k = 1,2,..., N,... с вычислительной точки зрения этот подход представляется малоэффективным.
Альтернативный подход состоит в аппроксимации политопа Dj( k), получаемого в k-й момент времени, эллипсоидом
Ь^к):(т* - ту(к))Тр/(к)(т* - т;-(к)) < 1, (3)
чей центр тj(к) и симметрическая положительно определенная матрица Pj(к) настраиваются так, чтобы Lj(к) был как можно «ближе» к Dj(к). Поскольку тj(к) и Pj(к) содержат (Н + 1) + (Н + 2)(Н + 1)/2 настраиваемых параметров, идея использования эллипсоидов по сравнению с политопами представляется более предпочтительной.
Можно видеть, что политоп Dj(к) является, по сути, приблизительным множеством [19], а эллипсоид Ь}-( к), содержащий все элементы, принадлежащие Dj( к), его верхней аппроксимацией. Заметим также, что аппарат приблизительных множеств использовался для обучения многослойных искусственных нейронных сетей в работе [20].
Развиваемый нами подход к обучению радиально-базисных сетей основывается на идеях Ф. Швеппе [17] и состоит в том, что эллипсоид Ь}-( к) должен содержать все возможные значения синаптических весов, принадлежащих пересечению Ь}-(к - 1) (эллипсоид, построенный в момент времени к - 1) с областью Gj( к), лежащей между двумя гиперплоскостями текущего к-го наблюдения (2).
Поскольку пересечение Ь}-(к - 1) и Gj(к) не является эллипсоидом, необходимо так определить тj (к) и Pj( к), чтобы Ь}-( к) максимально точно его аппроксимировал. Объединяя (2) и (3), можно видеть, что искомые параметры описываются системой неравенств
f * t *
'(w* - wy(k - 1)) P-1(k - 1)(w* - wy(k - 1))< 1,
] j
-2
(4)
{r (k)(dj(k) - Wj ф(x(k))) < 1,
(wj* - wy(k - 1 ))TP- 1(k - 1)(W* - Wj(k - 1)) +
-2 * T
+ p.(k)r (dj(k) - w* ф(x(k))) < 1 + p.(k) .
(5)
Вводя в рассмотрение вектор ошибок определения ~ *
синаптических весов тj(к) = т}- - тj(к), после несложных, но громоздких преобразований квадратичной формы в левой части (5), можно получить наиболее популярный в эл-липсоидальном оценивании алгоритм Фогеля-Хуанга [21].
2
т(к) = т;(к - 1) + р;(к)г (к)Р^к)dj(к) --тТ (к - 1 )ф(х(к))(ф(х(к))), Рj(к - 1)=Р;(к - 1) -р 1 ( к) г-2 ( к) Р1 ( к - 1 ) ф (х ( к ) ) фТ (х ( к ) ) Р1 ( к - 1 )
1 + р1 (к)г-2(к)фТ(х(к))Р,(к - 1 )ф(х(к)) ,
Pj( k)=Pj( k - 1 )x
1+Pj( k)-
Pj(k)(dj(k) - wT(k - 1 )ф(x(k)))2 ^
r2(k) + P(k)фТ(x(k))Pj(k - 1 )ф(x(k))
(6)
Процедура (6) содержит неопределенный параметр Pj( к), который выбирается так, чтобы объем эллипсоида Ь}-(к) на пересечении Lj(к - 1) и Gj(к) был минимальным. Данная задача связана с поиском в каждый момент к минимума функции
=11 + p,( k) -
detPy (k) = p.(k)ej(k)
r2(k) + pj(k)фТ(x(k))Pj(k - 1)ф(x(k)
h + 1
x|1
p j ( k ) ф J ( x ( k ) )Pj ( k - 1) ф (x ( k ) ) r2(k) + pj(k)фТ(x(k))Pj(k - 1)ф(x(k) X detPy(k - 1)
(7)
тт
(здесь в]-(к) = dj(к) - т;- - т;- (к - 1 )ф(х(к)) - ошибка обучения ИНС по / -му выходу) или, что то же самое, с решением дифференциального уравнения
A detPy( k) = 0. dp: j
(8)
Поскольку (8) явно не имеет аналитического решения, необходимо воспользоваться или процедурой одномерного поиска глобального минимума (7), или каким-либо численным алгоритмом нахождения действительных неотрицательных корней уравнения (8).
X
Т
Введением переменных
_1 2 а (и) = рД к) т\ к),
У(к)__
е2 (к)
Ру(к) = 1 + ■ Ь) т
ау(к) ау(к) + фТ(х(к))РДк _ 1)ф(х(к))
у
Проводя далее без дополнительных комментариев цепочку преобразований вида
(ж/* _ жу(к _ 1))Г0;-1(к _ 1)(ж) _ жу(к _ 1)) + *т 2 2
+ 8у(к)(ук) _ ф(х(к))) < уу(к _ 1) + 8у(к)г2(к).
алгоритм (6) может быть преобразован к форме [22]
жу( к) = жу( к _ 1) +
у к _ 1)( у к) _ (у к _ 1 )ф( х( к))))
+-Т-у-ф( х (к)),
ау(к) + фТ (х(к))Ру(к _ 1 )ф(х(к))
структурно близкой к экспоненциально взвешенному методу наименьших квадратов (1), но существенно отличающейся от последнего своими свойствами, а кроме того, требующей в каждый момент обучения к решения задачи минимизации по параметру а: (к) функции
= 11 +
¿вЬРу( к) =
е ( к )
г2(к) __
ау(к) а(к) + фТ(х(к))Ру(к _ 1 )ф(х(к)
к + 1
Г1 _ ф т (х ( к) ) Ру( к _ 1 ) ф (х ( к) ) V ау(к) + фТ(х(к))Ру(к _ 1)ф(х(к)
Необходимость минимизации этой функции существенно усложняет процесс обучения, особенно при работе в реальном времени.
(здесь 8 у (к) = рА к) г 2( к) = а_1( к)),
~ т _1
ж' (к _ 1 1(к _ 1)жу(к _ 1) + 8у(к)еу(к) _
т 2 2
_жу (к _ 1 )ф(х(к))2 <уу(к _ 1) + 8у(к)г2(к),
т _1 2
ж у (к _ 1) В_1 (к _ 1) жу( к _ 1) + 8у (к )е^2( к) _
_28у( к) еу( к) Жк _ 1)ф( х( к)) +
уу
+ 8у(к)жТ (к _ 1)ф(х(к))фт (х(к))жу(к _ 1) <
2
<Уу(к _ 1) + 8у(к)г2(к),
у _1
Т (к _ 1)((к _ 1) + 8у(к)ф(х(к)))(к _ 1) +
2у + 8у(к)е2(к) _ 28у(к)еу(к)г^Т (к _ 1 )ф(х(к)) <
<Уу(к _ 1) + 8у(к)г2(к),
Оу_1(к) = Оу_1(к _ 1) + 8у(к)ф(х(к))фТ(х(к)),
(жу(к _ 1) _ 8(к)еу(к)Оу(к)ф(х(к)))ТОу_1(к)^у(к _ 1) _
2
_ 8у( к) еу( к) Яу( к)ф( х (к))) + 8у( к) е2( к) _
2 2 2 _8;(к)еу2(к)Оу(к)ф(х(к)) < уу(к _ 1) + 8у(к)г (к),
2 СИНТЕЗ АЛГОРИТМА ОБУЧЕНИЯ
Для преодоления отмеченных затруднений введем рассмо что [23]
в рассмотрение скалярную переменную уу( к) такую,
_1
Яу( к) = уу_1( к) Ру( к),
_1 _1 Оу 1( к) = Уу( к) Ру 1( к) ,
Уу( к)> 0,
получаем
ж(к) = жу(к _ 1) _ 8у(к)еу(к)Оу(к)ф(х(к)),
_1 _1 у Оу_1( к) = ОТ1 (к _ 1) + 8у( к)ф( х (к ))фт(х( к)),
или, переходя от ошибок к собственно настраиваемым весам,
после чего перепишем (4) в форме
(ж) _ жу(к _ 1 ))ТОу_1 (к _ 1)(ж) _ жу(к _ 1)) < Уу (к _ 1),
_2 *т 2
г (кк) _ жуТф(х(к))) < 1,
жу(к) = жу(к _ 1) _ 8у(к)еу(к)Оу(к)ф(х(к)),
Ву(к) = Оу(к _ 1) _
0 у ( к _ 1 ) ф (х ( к) ) ф Т ( х ( к ) ) Бу ( к _ 1)
_8у( к) —у-т-*-,
1 + 8у(к)ф' (х(к))Оу(к _ 1 )ф(х(к))
а (5) - в форме
(ж) _ жу(к _ 1 ))Т П_1(к _ 1)(ж) _ жу(к _ 1)) +
_2 *т 2
+ Ру (к)г 2(к)(¿,(к) _ ж,1 ф(х(к))) < у,(к _ 1) + Ру (к).
что структурно совпадает с алгоритмом Хэгглунда [24], минимизирующим целевую функцию
Еу(к) = £ 8у(р)еу2(р), р = 0
но имеющим в отличие от последнего два свободных параметра у*( к) и 8*-( к), которые полностью определяют характер процесса обучения.
Для нахождения у*(к) запишем очевидное неравенство (см. формулу (9) в конце страницы).
Откуда
~ Т -1 2
тТ (к)О-1 (к)т*(к) < у*(к - 1) + 8*(к)г2(к) -
__8,- (к )е2(к)_
1 + 8j(к)фТ(х(к))Dj(к - 1 )ф(х(к))Dj(к - 1 )ф(х(к)) = У* (к),
после чего алгоритм обучения может быть записан с помощью системы рекуррентных соотношений
т*( к) = wj (к - 1) + 8( к) е*( к) Dj( к)ф( х (к)), Dj(к) = Dj(к - 1) -
р*(к - 1 )ф(х(к))фТ(х(к)).*(к - 1)
-8/ (к) —1-т--,
* 1 + 8*(к)фТ(х(к))Dj(к - 1)ф(х(к)) (10) 2
У/( к) = У*( к - 1) + 8*( к) г (к) -_8,-(к)е2(к)_
1 + 8j(к)фт (х(к))Dj(к - 1 )ф(х(к))
а эволюция эллипсоидов задается неравенством
Г * Т.-1( к) *
Ь*(к) = |mj:(т** - т*(к)) (т** - т*(к)) < 1 ¡>. (11)
проведем очевидные преобразования
т*к)ЦЬ-1(к) = (т(к - 1) - 8;(к)*к).*(к)ф(х(к))) х -1
х Dj 1 (к)(т*(к - 1) - 8*(к)е*(к).*(к)ф(х(к))) =
= т](к - 1Щ1 (к)Ю*(к - 1) - 28*(к)(к)т[(к - 1) х
х ф(х(к)) + 82(к)е2(к)фТ(х(к)).*(к)ф(х(к)) =
Чк - 1 )||
Одк-1) + 8;(к)(тТ(к - 1 )ф(х(к)))-
-28*(к)е*(к)т[(к - 1)ф(х(к)) + 82(к)е;к(к) х
ф1 ( х ( к ) ) О* ( к - 1 ) ф ( х ( к ) )
х-т-- =
1 + 8*(к)фт (х(к)).*(к - 1)ф(х(к))
Чк - 1 )||
(к - 1) 1 *-
81( к)( е,- (к) - С( к))2
-28*(к)е*(к)(е*(к) - С(к)) + 82(к)е2(к) х
фТ(х(к)).*(к - 1)ф(х(к)) х -Т-^- =
1 + 8j(к)фт (х(к))о*(к - 1 )ф(х(к))
тТ(к -1 )||.(к -1)+8*(к)с2(к) - 8*(к) х
_е-к_<
х-Т--<
1 + 8*(к)фТ(х(к)).*(к - 1 )ф(х(к))
< ||тТ(к - 1 )||к -1) + 8*(к)г2(к) - 8*(к) х
х--.
1 + 8*(к)фТ (х(к)).*(к - 1 )ф(х(к))
Таким образом,
С тем, чтобы найти значение параметра 8* (к), обеспечивающее сходимость алгоритма (10), введем в рассмотрение функцию, характеризующую процесс убывания ошибок оценивания в виде ||т,(к)||2 _1 , и с уче-
II * Ш* (к)
том того, что
т](к - 1 )ф(х(к)) = е*(к) - С(к),
'(к)
< цт1(к -1)
(к - 1)
8*(к)г2(к) - 8*(к)
е2 (к)
1 + 8*(к)фТ (х(к)).*(к - 1)ф(х(к))
< 0, (12)
2
если
~ Т 222 Т ~ Т 2
хю. (к)'(к)т*(к) + 8*(к)е2(к)-82(к)е2(к)фТ (х(к)).*(к)ф(х(к)) = т] (к)О- '(к)т*(к) + 8*(к)е2(к) х х (1 - 8*(к)фТх(к))О*(к)ф(х(к)) = т;Г(к)О*-1 (к)т*(к) + 8*(к)(е2(к)) х
х
' ч к - 1 ) + 8*(к ).*(к - 1) ф г( х (к)).*(к -1)ф(х(к)) -8*-( к).*-(к - 1) ф (х ( к ) )фГ(х (к )) (к - 1-
1- 8,(к)ф (х(к)) —'------'-ф(х(к))
V * 1 + 8*(к)фТ (х(к)).*(к - 1)ф(х(к))
~Т -1 ~ 8,( к) е2( к) 2
= тТ(к)О-1(к)т7(к) +---1-1-<у,(к - 1) + 8,(к)г2(к) (9)
1 + 8*(к)фТ (х(к))О*(к - 1 )ф(х(к))
но, поскольку,
Уу( к) = Уу( к _ 1) + 8; (к) г2( к)-
_8у(к)
е 2 ( к )
1 + 8у(к)фт (х(к))Оу(к _ 1 )ф(х(к))
выполнение условия
е2( к)
■> г (к).
1 + фт (х(к))Бу(к _ 1 )ф(х(к))
Выполнение условия (12) обеспечивает сходимость центров эллипсоидов Ьу(к) к жу, однако из него явно следует, что в процессе обучения уменьшаются объемы этих эллипсоидов.
Преобразовав (10), (11), можно записать
Уу(к) < Уу(к _ 1)
(13)
обеспечивает убывание расстояния между центрами
*
эллипсоидов жу (к) и оптимальными значениями жу.
Из (12) несложно получить оценку параметра 8у (к) в виде
еу(к)г (к)_ 1 0 < 8у(к) <-у -
у фТ( х (к)) Бу( к _ 1)ф( х( к))
(14)
откуда следует, что алгоритм (а эволюция эллипсоидов задается неравенством (10) уточняет веса жу( к) до тех пор, пока выполняется неравенство
еу (к) > г2(к),
(15)
т. е. обеспечивается сходимость в область, определяемую ограничениями г(к). При нарушении условия алгоритм обучения игнорирует поступающие наблюдения, что аналогично введению в него зоны нечувствительности.
Заметим, что при 8у( к) = 1, автоматически получаем стандартный алгоритм рекуррентного метода наименьших квадратов
,, п Оу(к _ 1 )еу(к)ф(х(к)) жу(к) = жу(к _ 1) +-у-у-
1 + фТ (х(к))Бу(к _ 1)ф(х(к))
Б:( к _ 1 )ф( х ( к ))фТ ( х ( к )) Б:( к _ 1)
Б.(к) = Б.-(к _ 1)--^-Т ;--,
у у 1 + фТ (х(к))(к _ 1 )ф(х(к))
дополненный процедурой настройки
Уу(к) = Уу(к _ 1) + г2(к) _ Т
е2( к)
1 + фТ (х(к))Бу(к _ 1 )ф(х(к))
Уу(к)О;(к) = у;(к)(Б;(к _ 1) _ 8;(к)х х О , ( к _ 1 ) ф(х( к) ) ф Т(х( к ) ) Ву(к _ 1)^ 1 + 8у( к)фТ( х (к)) Оу( к _ 1 )ф( х( к)) ,
ае1(у,( к)Оук) =
а е 1( у у ( к ) О у ( к _ 1 ) )
&еЬРу (к) =
1 + 8у(к)фТ (х(к))Оу(к _ 1 )ф(х(к))
1 + 8у(к)фТ (х(к))Оу(к _ 1 )ф(х(к))
х ае1(у-укТ) Ру( к _1)) =
1
У,(к) ^к +1
1 + 8у(к)фТ(х(к))Оу(к _ 1 )ф(х(к))Ч(к _ 1 х аеЬРу(к _ 1).
Поскольку из (13) следует
и обеспечивающий сходимость в область
1к+1 < 1 Уу( к _ 1У " ,
то условием уменьшения объемов последовательности эллипсоидов является
8у(к)фТ (х(к))Оу(к _ 1)ф(х(к)) > 0,
что с учетом (14) выполняется автоматически.
В ряде случаев более удобным может оказаться в алгоритме (10) вместо матрицы Ву{к) использовать Ру( к), имеющую достаточно ясный геометрический смысл. Тогда, объединяя (10) и (11), и, выражая жу(к) через Ру(к _ 1), можно записать окончательную форму рекуррентного алгоритма обучения радиально-базисных ИНС, основанного на приблизительных множествах, в виде
х
Wj(k) = Wj(k - 1) +
+ 5 j ( k ) e j ( k ) P j ( k - 1 ) Ф (x ( k ) )
T '
Yj (k - 1) + 5j( k)фT (x (k ))P; (k - 1 )ф( x( k))
pj(k) = jT) (P (k -1) -¥ k)x
Pj (k -1 )ф( x (k ))фт( x( k ))Pj( k -1) x---
Yj(k - 1) + 5j(k)фТ(x(k))Pj(k - 1 )ф(x(k)) Yj(k) = Yj(k - 1) + 5j(k)/(k) -
__Y j ( k - 1 ) 5 ( k ) ek ( k )_
Yj(k - 1) + 5j(k)фТ(x(k))Pj(k - 1 )ф(x(k))'
0 < 5j (k) < Yj (k - 1) T
2 -2 e2(k)Г2(k) - 1
ф (x(k))Pj(k - 1 )ф(x(k))
В качестве одного из возможных способов выбора текущего значения параметра 5j( k) можно предложить рекуррентную процедуру экспоненциального затухания с учетом ограничений (14), которая определяется выражением
5j(k) = min j 5(k), Yj(k - 1) T
ej ( k ) r-2( k ) - 1
1
фт (x(k))Pj(k - 1 )ф(x(k))
8у(к) = V1 _ ту (8у(к _ 1) _ 81п!) + 8шь
где 8iпf > 0 - нижняя граница значений параметра , а т > 1- параметр, определяющий скорость затухания 8у(к).
ЗАКЛЮЧЕНИЕ
Предложенный алгоритм достаточно прост в вычислительном отношении, обеспечивает сходимость настраиваемых весов к эллипсоидам минимального объема, содержащим оптимальные параметры, не требуя при этом решения вспомогательных задач оптимизации или поиска корней, и по мере накопления информации в процессе настройки постепенно принимает форму взвешенного рекуррентного метода наименьших квадратов столь популярного в задачах обучения искусственных нейронных сетей.
ПЕРЕЧЕНЬ ССЫЛОК
3. HowlettR.J, Jain L. C. (eds.) Radial Basis FunctioNet-works. New Advances in Design. - Berlin: Springer, 2001. - 360 p.
4. Park J., Sandberg I. W. Universal approximation usinra-dial-basis-function networks // Neural Computation. -1991. - 3. - P. 246-257.
5. Parzen E. On the estimation of a probability density function and the mode // Ann. Math. Statist. - 1962. -38. - P. 1065-1076.
6. Chen S, Billings S. A, Cowan C. F. N, Grant P. M. Nonlinear system identification using radial basis functions // Int. J. Syst. Sci. - 1990. - 21. - № 12. - P. 2513-2539.
7. Chen S, Cowan C. F. N, Grant P. M. Orthogonal least squares learning algorithm for radial basis function networks // IEEE Trans. on Neural Networks. - 1991. - 2. -№ 2- P. 302-308.
8. Chen S, Billings S. A, Grant P. M. Recursive hybrid algorithm for nonlinear system identification using radial basis functions networks // Int. J. Control. - 1992. - 55.
- № 5. - P. 1051-1070.
9. Shah S., Palmieri F., Datum M. Optimal filtering algorithm for fast learning in feedforward neural networks // Neural Networks. - 1992. - 55. - P. 779-787.
10. Kasparian V., BaturC., Zhang H., Padovan J. Davidson least squares-based learning algorithm for feedforward neural networks // Neural Networks. - 1994. - 7. -№ 12. - P. 661-670.
11. Sherstinsky A., Picard R. W. On the efficiency of the orthogonal least squares training method for radial basis function networks // IEEE Trans. on Neural Networks. -1996. - 7. - № 11. - P. 195-200.
12. FungC.F., Billings S. A., Luo W. On-line supervised adaptive training using radial basis function networks // Neural Networks. - 1996. - 9. - № 12. - P. 1597-1617.
13. Nelles O. Nonlinear System Identification. - Berlin: Springer, 2001. - 785 p.
14. Abe S. Neural Networks and Fuzzy Systems. - Boston: Kluwer Academic Publishers, 1997. - 258 p.
15. Haykin S. Neural Networks. A Comprehensive Foundation. -Upper Saddle River, N. Y.: Prentice Hall, Inc., 1999. - 842 p.
16. Da Ruan (ed.) Intelligent Hybrid Systems: Fuzzy Logic, Neural Networks, and Genetic Algorithms. - Boston: Klu-wer Academic Publishers, 1997. - 354 p.
17. Schweppe F. C. Uncertain Dynamic Systems. - Engle-wood Cliffs, N. Y.: Prentice Hall, 1973. - 563 p.
18. Norton J. P. An Introduction to Identification. - London: Academic Press Inc., 1986. - 310 p.
19. Pawlak Z. Rough sets present state and further prospects // Proc. Int. Workshop on Rough Sets and Soft Computing. - San Jose, California, 1994. - P. 72-76.
20. Yasdi R. Combining rough sets learning and neural learning method to deal with uncertain and imprecise information // Neurocomputing. - 1995. - 7. - P. 61-84.
21. Fogel E., Huang Y. F. On the value of information in system identification - bounded noise case // Automatics.
- 1982. - 18. - № 12. - P. 229-238.
22. Арчакова А. В., Бодянский E. В., Сухарев С. А. Об одном алгоритме рекуррентного оценивания с использованием метода эллипсоидов // Радиоэлектроника и информатика. - 1997. - № 12. - P. 77-79.
23. Halwass M. «Least-Squares»-Modificationen in Gegenwart begrenzter Stoerungen // MSR. - 1990. - 33. -№ 8. - P. 351-355.
24. Hagglund J. Recursive identification of slowly time-varying parameters // Proc. IFAC/IFORS Symp. on Identification and System Parameters Estimation. - York, UK, 1985. - P. 1137-1142.
Надшшла 24.03.05
У cmammi запропоновано алгоритм навчання рад1аль-но-базисних нейронних мереж, заснований на приблизних мно-жинах. Алгоритм призначений для вирШення задач роз-тзнавання обрaзiв та класифтацп за допомогою рaдiaльно-базисних нейронних мереж.
1.
2.
Moody J., Darken C.J. Fast learning in networks of locally-tuned processing units // Neural Computing. -1989. - 1. - P. 281-299.
Howlett R. J., Jain L. C. (eds.) Radial Basis Functions Networks. Recent Developments in Theory and Applications. - Berlin: Springer, 2001. - 318 p.
A recursive learning algorithm based on the rough sets approach to parameter estimation for radial basis function neural networks is proposed. The algorithm is intended for the pattern recognition and classification problems. It can also be applied to control, identification, and emulation.