Восстановление линейно смешанных сигналов на основе адаптивного алгоритма рекуррентной сети

Меркушева А. В.; Малыхина Г. Ф.

ISSN 0868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2005, том 15, № 3, c. 94-107

ОРИГИНАЛЬНЫЕ СТАТЬИ

УДК 681.51; 621.391; 519.21 © А. В. Меркушева, Г. Ф. Малыхина

ВОССТАНОВЛЕНИЕ ЛИНЕЙНО СМЕШАННЫХ СИГНАЛОВ НА ОСНОВЕ АДАПТИВНОГО АЛГОРИТМА РЕКУРРЕНТНОЙ СЕТИ

Применительно к обработке сигналов в информационно-измерительных системах анализируется случай, когда регистрируемые сигналы являются линейной комбинацией первичных сигналов, действующих (с различной степенью эффективности) на каждый из датчиков измерительной системы. Для отдельных задач (обработки данных радарного зондирования и информации медико-биологических комплексов, уравнивания усиления и адаптивного снижения шума в каналах связи) бывают неизвестными как форма первичных сигналов, так и пропорции их смешивания на выходе датчиков регистрирующей системы. Возникающая при этом задача восстановления вида первичных сигналов (источника) усложняется необходимостью определения структуры смешивания. При стационарности и независимости первичных сигналов задача их восстановления решается на основе использования нейросетевых алгоритмов. Проанализированы две структуры нейронной сети, модели для их построения и алгоритмы обучения. Отсутствие априорной информации о виде сигналов и структуре смешивания позволяет выполнить реконструкцию только с точностью до обобщенной перестановки сигналов.

ВВЕДЕНИЕ

В ряде специализированных информационно-измерительных систем (ИИС) (например, радарного зондирования и мониторинга, медико-биологических комплексах), при адаптивном выравнивании усиления и адаптивном снижении шумов в каналах связи, для усиления сигналов многоканальных датчиков, при анализе негауссовых массивов данных, обработке цветных изображений, в отдельных задачах радиационного контроля требуются элементы идентификации первичной совокупности сигналов, регистрируемых только в линейно смешанном виде [1-5]. Как правило, в этих приложениях бывают неизвестными и вид сигналов источника, и количественные пропорции их смеси в регистрируемых сигналах. При квазистационарности и независимости первичных сигналов возможно их восстановление. Ввиду отсутствия информации о составе исходных сигналов и структуре их смешанного воздействия на датчики ИИС реконструкция принципиально не может быть полной. Она восстанавливает форму действующих сигналов, оставляя в качестве неопределенности порядок компонент входного вектор-сигнала (совокупности первичных сигналов) и их масштаб, т. е. сигналы восстанавливаются с точностью до обобщенной перестановки [6, 7].

Восстановление формы сигналов может осуществляться на основе нейросетевого (НС) алгоритма, начальное формирование которого выполнено Комоном, Джутен и Херолдом [8, 9]. Ими намечен общий подход к решению задачи восстановления

и построен алгоритм для НС простой структуры. Однако работа этого алгоритма не обладает устойчивостью, сопровождается нарушением при значительной неравномерности масштаба отдельных сигналов и/или при плохой обусловленности матрицы смешивания, а также имеет временные срывы даже в благоприятных ситуациях относительно объективных характеристик, которые могут осложнять решение задачи.

Ниже представлен детальный анализ методической схемы из [8, 9] и даны две модификации алгоритма, одна из которых ориентирована на НС с прямым распространением сигнала, а другая — на рекуррентную НС (с обратными связями). Первый вариант алгоритма (частично) и второй (полностью) лишены упомянутых недостатков: они практически независимы от большой неравномерности масштабов восстанавливаемых сигналов и от степени сингулярности матрицы смешивания.

ЗАДАЧА ВОССТАНОВЛЕНИЯ СМЕШАННЫХ СИГНАЛОВ И ОСНОВЫ МЕТОДА РЕШЕНИЯ

Считается, что неизвестные сигналы Я](?), ] = 1,..., п, имеющие различные математические и физические модели, совместно воздействуя на датчики ИИС, порождают на их выходах измеряемые (системой) сигналы х1, .., хп, которые представляют некоторую линейную комбинацию (для каждого датчика свою) первичных сигналов

х (<)=ЕП= ау (*)^

94

или

х(0 = А • )

(1)

у(0 = Б • Р • 8(0 = Р • 8(0

пхп пхп

уг (Г) = Х/ (Г) ч>1} (Г)У; (О, } Ф/;

1=1

y(í) = х^) - W(t)у^),

где второе выражение является матрично-векторной формой первого соотношения, отра-

жающего скалярное представление сигналов

2).

где а; (/,} = 1,...,«) — коэффициенты линейных комбинаций; второе соотношение является век-торно-матричной формой первого; А — фиксированная или медленно меняющаяся матрица с определителем сЛ А Ф 0; ъ(0 = [51(0,...,5п^)]т; х(0 = [х1(0,...,хп^)]т; размерности переменных указаны под формулой, и для простоты приняты одинаковые размерности сигналов ъ и х; А называется матрицей смешивания, и она неизвестна.

Восстановление состоит в получении сигналов у1(0,...,уи(0, или вектора у(0 = [у1(0,...,у„(0]т, который в определенном смысле аппроксимирует сигнал ъ(0. Остаточная неполнота в решении задачи состоит в неопределенности масштабирования у(1) и порядка его компонент {у/(0}, в котором система оценивает {¿"¿(0}. Эта неопределенность может быть выражена соотношением [10]:

wi

— синаптические веса (СВ) нейронной сети;

W — матрица синаптических весов НС:

W (Г) = (г)},}.=1,.

= 0, V/ ).

С помощью (3) вектор-сигнал у(0, предназначенный для аппроксимации первичных сигналов ъ(0 = [^(0, ... ,5п(0]т , определяется в виде

у^) = [I + W(t)]-1 х^),

(4)

(2)

где I — единичная (п х п)-матрица.

Функциональная схема, отражающая структуру задачи восстановления сигналов, которая использована в модели ХД и в разработанных более эффективных реализациях нейросетевых алгоритмов, показана на рис. 1, а структура выполняемого сетью алгоритма по модели ХД — на рис. 2, 3. Алгоритм обучения НС в модели ХД построен на наборе дифференциальных уравнений (5):

где Б — диагональная масштабирующая матрица;

Р — матрица перестановок1"1; Р — обобщенная матрица перестановок, объединяющая перестановку и масштабирование.

Хотя неопределенность является довольно значительным ограничением, в практических приложениях она часто несущественна, т. к. большая часть информации заключается в форме сигналов (как например, в биомедицинских системах), а не в величине и порядке компонент.

Рассмотрение метода восстановления линейно смешанных сигналов, формирования структуры НС и алгоритма ее обучения удобно начать с анализа первоначального подхода к решению этой задачи и некоторых результатов, содержащихся в работах [8, 9].

Оригинальная модель для оценки смешивающей матрицы А и вектор-сигнала ъ — модель Хе-ролда—Джутен (называемая далее моделью ХД) основана на соотношениях (3), которые соответствуют рекурсивной структуре простейшей однослойной НС:

dw.it)

= П) Л У/^)] ^[у, (0] для / Ф }, (5)

(3)

в которых п(0>0 — параметр скорости обучения; Лу) и g(y) — нелинейные нечетные функции, в качестве которых использованы Лу) = у3 (или Лу) = у^8п(у)) и g(y) = 81ви(у) (или g(y) = а Х%(ву) при а>0 и в>0).

Для стабильной работы алгоритма (4) требуется, чтобы собственные числа матрицы W(t) находились (при любом 0 в единичном круге. Требование может быть выполнено, если сумма абсолютных величин каждой строки W(t) меньше единицы [12, 13]. Это условие в практических приложениях трудно выполнимо, что приводит к неустойчивости алгоритма. Некоторое ослабление такого недостатка происходит за счет того, что алгоритм действует в направлении минимизации выходной мощности НС, которая соответствует

"подтягиванию" полюсов у [I + W(k)]-1 внутрь единичного круга [8].

Получение алгоритма по модели ХД основано на минимизации функции стоимости (ФС), определенной как математическое ожидание своеобразной "мощности" сигнала у(0 на выходе НС:

1) Матрицей перестановок называют матрицу, содержащую в каждой строке и каждом столбце только одну единицу (остальные ее элементы равны нулю). Действие такой матрицы на вектор дает перестановку его компонент без изменения их значений.

2) Далее будет без комментариев использоваться в ос-

новном представление сигналов в виде векторов («(/), х(0, у(^ или просто ъ, х, у) и матричная форма представления коэффициентов линейного смешивания сигналов (А) и набора синаптических весов нейронной сети

п

Неизвестно

ЫО

^п(^)

А -матрица смешивания

Х1(0

Хп(Г)

Нейронная сеть (система воспроизведения сигналов источника)

Адаптивный обучающий алгоритм

> У1® Уп(0

Рис. 1. Функциональная схема, отражающая структуру задачи восстановления сигналов

Наблюдаемые

Рис. 2. Структура операций, выполняемых НС для восстановления сигналов по модели ХД при п = 2 [8]. Левая часть отражает схему формирования линейно смешанных сигналов х1(/), х2(0

Г п 1 но определяют мощность сигнала у(0 =

ФС^) = [уг (Г)Н , (6) = [У1(0,---,Уп(0]Т', — выражение в фигурных скоб-

[ г=1ках соотношения (6):

где Е — символ математического ожидания; рг — 1 р

компоненты вектор-функции р, которые аддитив- Рг (Уг ) = — I Уг I " .

Неизвестное смешивание сигналов источника

Рис. 3. Общая функциональная схема алгоритма для НС по модели ХД [11]

Для параметра р принимается значение 3, а выходной сигнал у описывается выражениями (3),

(4).

Минимизация ФС осуществляется по правилу спуска вдоль антиградиента, и подстройка совокупности весов НС определяется соотношениями

[14]

dwy. (О ДФС^) —г— = -П) —-=

dt дwj:

= П) ЭФС(^ = Ф) Е{/[у, ^)]у. (t)}. (7)

Эуг дч>г]

Равенство первой и последней частей этих соотношений компактно представляется в векторно-матричной форме (8):

dW т

— = П« )Е{Г [у (t )]у T(t)}, (8)

dt

где = означает эквивалентность только недиаго-

нальных элементов в равенстве (8); Г (у) =

= [(0] Л2 [у2 ()] .../ [уп ^)]] т ; / [у. (0] -

= -Р- (= — равно по определению).

С учетом выражения для рг (уг) выражение для

/ [у, (0] имеет вид: /[у,(0] = | у, |р-1.

Поскольку математическое ожидание ЕГ[y(t)]уT(t)} неизвестно, то использована его аппроксимация ([3], [9]) в виде среднего:

ЕГ [у^ )]у T(t)} = 1 т

= т £Г[у(0]уТ(0 при (9)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

т t =1

у^) = [I + W(t)]-1 x(t), t = 1,2...

Соотношение (9) не рассчитано на непосредственное использование его в реальном масштабе

времени, поэтому для оптимизации в режиме online и получения решения применен метод стохастического градиентного спуска, в котором использована замена истинного градиента на его достаточно неточную "мгновенную" оценку:

E{f [y (t )]y T(t)} = f [y(t )]y T(t).

(10)

Для изменения матрицы W(í) (подстройки синап-тических весов в процессе обучения НС) с учетом (8) это приводит к выражению (11):

dW

dt

= n(t )f [y(t )]y T(t).

(11)

Обучающий алгоритм (10), (11) может интерпретироваться как обобщенное анти-Хеббановское правило [15-17].

Хотя алгоритм по модели ХД (до известной степени) не требует единственно возможного определения формы активационных функций 1", g и полезен в отдельных приложениях, он имеет ряд существенных недостатков. Работа алгоритма нарушается, если приходится разделять сигналы значительно различающегося масштаба ("плохо масштабированные") или если матрица А является плохо обусловленной3). Кроме того, алгоритм имеет недостаточную устойчивость, которая проявляется или непосредственно, или через некоторое время после устойчивой работы. При этом устойчивость зависит от нескольких факторов: от начальных условий, коэффициентов смешивания А и типа активационных функций. К тому же часто встречает трудности обращение матрицы для получения оценки W(k) = [I + W(k)]-1 на каждом шаге к итерации.

Анализ подхода, связанного с получением алгоритма модели ХД, служит основой для построения более совершенного метода решения задачи восстановления смешанных сигналов с использованием нейронной сети. Этот метод изложен в следующем разделе и Приложении. Он использует две модификации НС и расширение алгоритма модели ХД, которое резко улучшает качество и надежность функционирования. Предложены две структуры НС (НС прямого распространения и динамическая НС с рекуррентной структурой) и алгоритмы адаптивного обучения в несуперви-зорном (без учителя) режиме, которые практически свободны от недостатков алгоритма модели ХД.

РОБАСТНЫИ САМОНОРМАЛИЗУЮЩИИСЯ АДАПТИВНЫЙ АЛГОРИТМ ОБУЧЕНИЯ

НС прямого распространения

Однослойная НС простой структуры с распространением (сигнала) вперед и с линейными нейронами описывается соотношениями (12), второе из которых дано в векторно-матричной форме:

У (t) = Ё (t)Xj (t),

j=1

y (t) = WW x(t),

i = 1, 2,

(12)

где W(0 = {у?..(0). ; х(0 = [х^) Х2(0 ....хп(0]т —

пх п

вектор сигналов, регистрируемых датчиками (сенсорами); у(0 = [уДО у2(0 ....Уп (0]Т — вектор выходных сигналов.

После стадии обучения НС (когда синаптиче-ские веса (СВ) достигают желаемой точки равновесия) набор выходных сигналов у() (г = 1,2,...,«) должен быть пропорционален первичным сигналам источника Sj(t) (. = 1,2,.,п). При этом возможно несовпадение последовательности индексов сопоставляемых сигналов.

Для получения такого соответствия вектор-сигнала 8(0 источника и выходного вектор-сигнала у^) = [ух(?) у2(() ....уп(^)]т (после возможной перестановки порядка его компонент) необходимо, чтобы в точке равновесия синаптических весов \¥ обученной сети выполнялось соотношение

у(0 = W(t )х^) = W(t) А 8(0 = БР ), (13)

т. е. чтобы полученные сигналы отличались от исходных не более чем на матрицу перестановок Р и изменение масштаба, осуществляемого некоторой диагональной матрицей Б.

Это означает, что условием успешного решения задачи разделения сигналов (любого вида я(0) является выполнение соотношения (14), которое определяется последним равенством из (13):

W = DP A

-1

(14)

Для описанной модели оказывается возможным применение адаптивного алгоритма обучения НС, который выражается соотношением (15) и доступен к реализации в режиме реального времени4)

-4).-

3) Матрица считается плохо обусловленной, если отношение ее максимального собственного значения к минимальному собственному значению очень велико. Тогда решение задачи, связанное с обращением такой матрицы, неустойчиво, т.е. величина решения может сильно изменяться при малом изменении данных.

= n(t ){л - f [y(t)] g T [y(t )]}W(t), (15)

dt

4) В американских публикациях наряду с общепринятым термином on-line применительно к обучению НС встречается выражение learning-on-fly (обучение налету).

n

где п(0 > 0 — параметр скорости обучения; Л — диагональная матрица со значениями элементов: Аь Я2, ..., Я„ (Х] > 0 У/).

При этом для инициализации приведенного алгоритма следует использовать начальные значения синаптических весов НС с естественным условием ёе \\(0) ^ 0 ; \\(0) ^ 0 . Достаточно взять, например,

\(0) = I и такое же значение для Л (Л = I). Полная логика построения алгоритма дана в Приложении.

Функциональная схема алгоритма обучения при реализации его на основе использования микросхем аналоговых цепей показана на рис. 4. Алгоритм в скалярной форме представляется соотношением

Рис. 4. Смешивание и разделение сигналов источника с использованием НС прямого распространения (сигналов).

а — подробная модель для случая двух сигналов (п = 2).

б — функциональная блок-схема выполнения адаптивного алгоритма обучения (алгоритм определяется соотношениями (15), (16))

=П)

- / [угС)]£ $. (!)gp [ур (!)]

р=1

(16)

(г,. = 1,2,..., п).

На первой фазе обучения (при поиске) п может быть фиксированным, а затем на второй фазе (сходимость) эту величину целесообразно постепенно уменьшать по экспоненциальному закону.

Предложенный алгоритм обучения (15) и (16) несколько сложнее, чем алгоритм ХД, но он значительно мощнее и функционирует эффективнее.

Адаптация алгоритма к компьютерной реализации осуществляется с помощью его представления в дискретной форме5):

W(k +1) =

= W(k) + п(к){ - Г[у(к)] gт[у(к)]}^Ск); (17)

к = 0,1,2...,

где ^^(0) Ф 0 и подразумевается выбор некоторой малой величины Т шага дискретизации времени. Для устойчивой работы алгоритма следует брать очень малое значение параметра п [16], [17].

Усовершенствованный алгоритм, который отражается соотношениями (15) и (17), достигает точки равновесия, когда выполняются два условия (18а, 18б):

1) Е{/ [уг (!)] gj [у. (0]} = 0 при г Ф . (18а)

2) X = Е{/ [уг (0]gi[уг (!)]} = 0 при г = . (18б)

Метод, использованный при получении алгоритма (15) и (17), (при некотором сходстве с формированием алгоритма по модели ХД, например по функциям активации Г(у) и §(у)) отличается по структуре НС и правилу обучения, обладает высокой устойчивостью и независимостью от выбора начальных условий. Кроме того, усовершенствованный подход к решению задачи восстановления сигналов имеет ряд положительных свойств:

• Рассматриваемая схема алгоритма построена на сети с прямым распространением сигнала

5) При переходе к дискретной форме вводится шаг времени Т (малое значение Т способствует повышению точности аппроксимации), и значения переменных рассматриваются только в точках !=кТ (для V целочисленных к). При этом используется обозначение типа /(О^и^/(к). Тогда 4/7<1ф=кТ аппроксимируется в виде

/ (к+1)-/(к)

(к+1)-к

= / (к + 1) - / (к).

(у = Wx); она не требует обращения матрицы на каждом временном шаге (как это необходимо в соотношении (4) для выполнения алгоритма по модели ХД).

• Процедура выполнения алгоритма обеспечивает самоорганизующуюся нормализацию величины (строго говоря, энергии) выходного сигнала у(!). Иначе говоря, алгоритм обладает свойством адаптивного управления усилением в нейронной сети за счет самостоятельной подстройки синап-тических весов

• С помощью процедур, реализуемых алгоритмом, возможно разделение сигналов источника с очень большим диапазоном величины (их энергии). Плохая обусловленность матрицы смешивания А (которая может быть связана с почти полной идентичностью передаточных функций измерительных датчиков) не затрудняет корректную работу алгоритма.

Отмеченные преимущества метода, положенного в основу анализируемого алгоритма, проявились при его компьютерном моделировании.

Можно обратить внимание на некоторые дополнительные соображения. Строго говоря, общее функционирование алгоритма (15-17) происходит независимо от фактора (взаимного) шкалирования сигналов, компонент вектора и от показателя обусловленности смешивающей матрицы А. Это становится видно, если выполнить правое умножение соотношения (15) на матрицу А, что дает соотношение

^=п {л - Г[Р(08(*)] §т[Р(08(^)]}),

а!

где Р(!) = W(í) А и Р(!) может интерпретироваться как матрица, определяющая выполнение обучающего правила.

Приведенное матричное дифференциальное уравнение описывает динамическое поведение общей системы смешивания и разделения (восстановления с точностью до обобщенной перестановки) сигналов, которое не зависит от параметров смешивания и масштабирования (т.е. от вида матрицы А).

Следует отметить, что полное теоретическое обоснование сходимости матрицы Р(!) к обобщенной матрице перестановок пока отсутствует. Имеется лишь достаточно обширная эмпирическая база, полученная компьютерным моделированием и подтверждающая эту сходимость. Тем не менее остается не вполне решенным вопрос, каким условиям и ограничениям должна удовлетворять матрица С(у) в обобщенном правиле обучения

а\¥

= П(Г) )] \У(*),

для того чтобы быть уверенным в такой сходимости.

Аналогично, нерешенной остается задача формализованного подхода к такому способу выбора активационных функций /¡(у,) и g/(yj) в (15—17), чтобы они обеспечивали наиболее быструю сходимость к решению задачи восстановления сигналов источника. Однако компьютерным моделированием удается установить, что из всех видов нечетных активационных функций, которые могут быть выбраны в алгоритме (15-17), наиболее благоприятны для разделения сигналов функции вида

/[у,«)] = у,р 518П(у,);

gj (У/) = 1вЬ(10 У/); У ¡, / = 1,..., п; р = 1,...,5.

Хорошие результаты получаются с этими функциями для сигналов, имеющих уплощенное (относительно гауссова) распределение, т. е распределение с отрицательным эксцессом. Напротив для сигналов с положительным эксцессом распределения лучшие результаты получаются, если функции/и g поменять местами.6)

Следует сказать, что эти выводы имеют скорее эвристическую основу, хотя и подтвержденную моделированием. Поэтому строго говоря, нельзя утверждать, что такой выбор функций возбуждения в НС безусловно оптимален или что он обеспечивает сходимость для любой формы распределения сигналов источника.

Нейронные сети с обратными связями (рекуррентные НС)

НС прямого распространения проста, легко выполнима программно или схемно (на основе интегральной технологии), темпорально устойчива и независима от начальных условий. Но иногда (хотя значительно реже, чем у алгоритма ХД) особенности разделяемых сигналов создают трудности решения задачи восстановления формы сигналов (ВФС), особенно при значительном различии масштабов сигналов или резко выраженной степени сингулярности7-1 смешивающей матрицы А.

6) Распределения с отрицательным эксцессом амплитуд сигнала называют субгауссовыми, тогда как распределения с положительным значением эксцесса называют супергауссовыми. Примером супергауссова распределения является обобщенное экспоненциально-степенное распределение в случае, когда у этого распределения параметр а> 2. Такое распределение встречается при статистическом анализе вейвлет-коэффициентов разложения нестационарного сигнала речи [18].

) Высокой степенью сингулярности матрицы условно называют случаи, когда отношение экстремальных ве-

В приложениях, характеризуемых такими осложняющими элементами, синаптические веса НС могут принимать большие значения, а работа алгоритма — становиться неустойчивой. При аналоговой реализации нейросетевого алгоритма этот недостаток особенно неудобен, т. к. вызывает эффект насыщения в интегральных элементах электроники.

Более совершенная организация алгоритма для решения задач ВФС основана на применении НС, структура которой использует принцип обратной связи. Функционирование такой сети, называемой рекуррентной нейронной сетью (РНС) [17], в терминах вход—выход (х ^ у) описывается в развернутой (покомпонентной) форме соотношением (19а) и в векторно матричной форме — соотношением (19б):

п

Уг (0 = х, (0w,/ (^У/(0; г = 1,2,...,п. (19а)

/=1

у (Г) = х(Г) - ) у (Г).

(19б)

Выход РНС у(0 может быть определен по (19б) в виде

у (Г) = [I + )]-1 х(Г).

(20)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Анализируемая РНС является полностью рекуррентной в том смысле, что, кроме простых (контуров) обратных связей, она за счет wii^0 (г = 1,..., п) содержит обратную связь, обращенную на входы. После обучения РНС удовлетворяет матричному соотношению (21), а преобразование последнего равенства в (21) позволяет получить выражение для матрицы \ весов РНС в форме выражения (22) или (что эквивалентно) в виде (23):

у(Г) = [I + )]-1 х(Г) =

= [I + $$ )]-1 Ав = БР8(^); \ = АР -1Б -1 -1; А = (I + $БР.

(21)

(22) (23)

Построение алгоритма обучения РНС основано на преобразовании соотношений (15-17) (использованных выше для обучения НС прямого распространения) в соответствии со следующей логикой.

• Выражение (15) представляется в форме (24):

личин собственных значений матрицы достигает очень больших значений. Это эквивалентно плохой обусловленности матрицы, например, когда для собственных чисел Л, матрицы А выполняется неравенство

А™ / Лтах « 1 .

- \¥(/)

а\¥(/)

а/

\\-) -

- П )\ -1 (/) {Л - f [ у(/ )]g т [у (Г)]}. (24)

• Вводится обозначение (25) для матриц \¥(/) и \ синаптических весов двух анализируемых типов НС (НС с прямым распространением и РНС соответственно):

\¥ - [I + )]

-1

(25)

• При обычном предположении, что ае1;(\¥) Ф 0 (т. е. матрица \\(/) при любом значении / обратима и существует \-1 (/)), на основании (25) \-1(/) представляется выражением (26):

\¥ -1(/) = I + ).

(26)

• Используется соотношение (27), являющееся следствием правила дифференцирования матричного произведения8):

- \-)— \ -1(/) = а/

а\у -1(/) а\(/)

а/

(27)

• Путем подстановки (27) в левую часть (24) получается соотношение (28), выражающее процедуры адаптивного алгоритма рекуррентной сети для задачи ВФС:

а/

= -п(0Р + )] {Л - {[у(1 )]gт[у(1)]} , (28)

где \(0) Ф I и в качестве начального условия может использоваться \(0) = 0 (0 — нулевая (п*п)-матрица).

• Скалярная форма этого алгоритма оп-

ределяется соотношениями (29а) и (29б), которые эквивалентны (28):

отношение \У(/) \У(/) = I, то

а/

\¥-1 +

+

а\\-1(/) _ ат

а/

= 0.

а/

= -П(?) х

Л

АЧ(/) - /\уг(/)]+Х^р(/)/р[Ур(/)]

I р=1

(, Ф /; ,, / = 1,2,...,п);

g/[У/(/)]

(29а)

аЧ,

а/

=-п(/) х

А(ч(0-1) -

/ [ у (0]+ЁЧр(0 /р[ Ур (/)]

р=1

х&[ У (/)]

; (, = /; ,= 1,2,...,п),

(29б)

8) Правило дифференцирования матричного соотношения аналогично обычному, однако требует сохранения порядка следования матриц-множителей. Так, поскольку единичная матрица I постоянная и справедливо со-

а[\\ \-1] = а\.

где п > 0, X, > 0 и можно использовать алгоритм с X, = 0 при V,.

Функциональная блок-схема для алгоритма обучения РНС с использованием соотношения (28) показана на рис. 5.

Описанный адаптивный алгоритм обучения, представленный на этом рисунке и соотношением (28), с помощью обычной процедуры разностной аппроксимации производной может быть приведен к дискретной форме:

\(к + 1) = \(к) - п(к)[I + \(к)] х х {Л - {[ У(к )]g т[ У(к)]}.

В этом случае алгоритм должен быть правильно инициирован: наиболее просто выбрать начальные условия нулевыми (\(0) = 0). Как бывает обычно, устойчивая работа алгоритма обеспечивается при достаточно малом значении параметра скорости обучения п(к). После начальной фазы обучения величину п(к) полезно дополнительно уменьшать, используя зависимость от времени, близкую к экспоненциальной при небольшом коэффициенте релаксации (показателе временной зависимости у экспоненты). Эти особенности настройки алгоритма зависят от временного масштаба решаемой задачи ВФС, приемлемого для нее шага дискретизации времени и интервала стационарности (квазистационарности) сигналов источника. Последнее свойство анализируемых сигналов относится к основным исходным положениям формирования анализируемого алгоритма.

х

Рис. 5. Функциональная блок-схема выполнения адаптивного алгоритма обучения для рекуррентной нейронной сети (схема соответствует соотношению (28))

ЗАКЛЮЧЕНИЕ

Проведен анализ задачи восстановления группы первичных сигналов, совместное действие которых на датчики регистрирующей измерительной системы дает на выходе линейное смешивание сигналов источников. Восстановление формы исходных сигналов (сигналов источника) осуществляется на основе нейросетевого алгоритма, начальное формирование которого выполнено Ко-моном, Джутен и Херолдом [8], [9]. Условиями решения задачи восстановления является стационарность и совместная независимость первичных сигналов. Практически это означает требование выполнения этих условий на интервалах, значительно больших длительности обучения нейронной сети (НС). Из-за отсутствия априорной информации о виде первичных сигналов и пропорций их смешивания (при формировании регистрируемых сигналов на выходе измерительных датчиков) восстановление принципиально не может давать полную реконструкцию исходных сигналов. Показано, что восстановление осуществляется

с точностью до масштаба сигналов и перестановки их порядка, т. е. с точностью до обобщенной матрицы перестановок (произведения канонической матрицы перестановок на диагональную матрицу).

Алгоритм из [8, 9] обладает рядом существенных недостатков: неустойчивость, временные срывы и т. п.

На основе анализа методической схемы в [6-9] введены две модификации алгоритма, одна из которых ориентирована на НС с прямым распространением сигнала, а другая на рекуррентную НС (с обратными связями). Первый вариант алгоритма (частично) и второй (полностью) лишены упомянутых недостатков: они практически независимы от большой неравномерности масштабов восстанавливаемых сигналов и от степени сингулярности матрицы смешивания.

Дана математическая форма двух модификаций алгоритмов и представление их в виде блочно-функциональных схем. Обучение НС проводится в несупервизорном режиме ("без учителя"). Алгоритм является адаптивным и несет элементы самоорганизации.

Приложение. АДАПТИВНЫЙ НЕЙРОСЕТЕВОЙ АЛГОРИТМ РАЗДЕЛЕНИЯ СИГНАЛОВ И ВОССТАНОВЛЕНИЯ ИХ ФОРМЫ

Логика построения адаптивного нейросетевого алгоритма разделения сигналов и восстановления их формы (задача ВФС) основана на следующих предпосылках, рассуждениях и преобразованиях. Набор исходных сигналов (компоненты вектор-сигнала s(t)) считается заданным, стационарным, некоррелированным, но неизвестным. Доступным наблюдению является вектор-сигнал x(t) (набор сигналов x1(t), ..., xn(t) — компонент этого вектора), который представляет линейное преобразование сигнала источника s(t) с неизвестной матрицей A. Задача ВФС состоит в получении оценки сигнала s(t) вектором y(t), который следует найти, исходя из доступных данных x(t), тоже на основе некоторого (пока неизвестного) линейного преобразования с некоторой матрицей W.

В соответствии с описанной постановкой задачи корреляционная матрица R^ диагональна (П1), а x(t) и y(t) связаны линейными преобразованиями (П2) и (П3):

где W = WAD^ ; D1/2 = R

Чтобы сформулировать адаптивный обучающий алгоритм для итеративного обновления элементов матрицы W, достаточно сформировать следующую функцию стоимости ФС:

1/2

R ,

:E[s(t)s T(t)]= D, = (D, )1/2(D, )1/2 ; (П1)

x(t ) = As(t );

y(t ) = Wx(t ) = W As(t ).

(П2) (П3)

ФС =1 4

)2+УУ

(П6)

г =1 . =1 '

где г. — элементы корреляционной матрицы Я^: г. = Е[у, (!)у. (!)]; г,. = 1,2,...,п. (П7)

Эта функция стоимости может быть представлена в матричной форме:

фс=-4il r^ - a||f,

(П8)

где — норма, определяемая как сумма

квадратов всех компонент матрицы (норма Фро-бениуса).

Правило подстройки синаптических весов НС определяется на основе минимизации ФС с использованием метода градиентного спуска, который с учетом "цепного" правила дифференцирования сложной функции дает соотношение

Корреляционная матрица Я** может быть фак-торизована в виде = УБУт, где Б — диагональная матрица собственных значений Я** ; У — связанная с ней матрица собственных векторов. Поэтому, чтобы убедиться, что компоненты у(0 тоже некоррелированы (и матрица —диагональная), достаточно в соотношении

Я уу = Е[у(! )у т(!)] = E[WxxT W т] = WR „ W т

в качестве W использовать матрицу У. С учетом того, что матрица собственных векторов ортогональна (и следовательно, УУт = Ут У = I), это свидетельствует о диагональности корреляционной матрицы сигнала у(!):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Я = WR Wт = Ут Я У =

уу хх *4 яя *

= У т УБУ т У = Б = Л, (П4)

где Л= , Кп) — диагональная матрица.

В силу того, что нейросетевой алгоритм имеет отчетливо выраженное свойство адаптации, в качестве Л может быть принята единичная матрица I.

Автокорреляционная матрица Яуу тоже может быть факторизована:

Я уу = WWT, (П5)

dwг ЭФС . . Ä Ä ЭФС drkl

dt dwp k =1 l=1 Эгы dwV

(П9)

где п(0 — параметр скорости обучения. При этом процедура минимизации заставляет корреляционную матрицу Яуу двигаться к диагональной матрице Л = К).

Поскольку корреляционная матрица Яуу сигнала у(0, оценивающего источник 8(0, связана

с матрицей весов W = ]пхх уравнением (П10),

то после некоторых преобразований получается более развернутая форма (П11) для соотношения (П9):

dwn =п dt = 2

R ^ = WW

Эг n n

Äi ^-УУ) г dt ^^

( П10)

k l

d~kl dwlj

Uiiïj -У rikwkj -У гуйу

(П11)

где X > 0 и для практических задач ВФС можно принять Хг = 1 для всех г.

Упрощение (П11) может быть получено в виде (П12) за счет использования свойства симметрии корреляционной функции (г. = г.) и последующего представления этого результата в матричной

kl

k

форме (П13):

dw,,

dt

k

(i, j = 1,2,..., n);

f = п[л - R„ ].

(П12)

(П13)

1/2

^ WD s A 1) естественным образом сводится к более простой векторно-матричной форме (П15):

ddW- D, "1/2 A -1 =n[A - R ], "1/2 A -1; (П14) dt

dW

dt

=n

[Л - E(yy T)]W.

(П15)

R yy = WAR „ A T W T = WA(WA)T = P PJ

yy

где P = WA.

(П16)

Для этого случая алгоритм обучения (П15) для решения задачи ВФС на основе адаптивной самонастраивающейся НС может быть представлен соотношением (П17):

— = п[ - РРТ ]) (П17)

&

при Л = I и Р = W(t)A .

Преобразование (П17) путем умножения справа на матрицу А (не зависящую от времени) позволяет использовать еще одну эквивалентную форму (П18) или (П19) математической основы этого алгоритма:

Умножение справа выражения (П13) на D s ~12 A -1 дает выражение (П14), которое на основании соотношений (П5) (W = WAD

^ = n[l - P(t)PT(t)]P(t), dt

^ = nP(t)[i -PT(t)P(t)]. dt

(П18)

(П19)

При подстройке НС равновесие в алгоритме достигается, когда правая часть в (П18) или (П19) начинает стремиться к нулю, т. е. когда матрица

Р(0 = W(t)А становится ортогональной матрицей, удовлетворяющей условию (П20 ):

P(t )PT(t) = PT P = I,

или

P -1 = PT.

(П20)

Уничтожение множителя [Л - Е(уу Т)] может происходить, если вектор-сигнал у(0 имеет некоррелированные компоненты с соответствующими дисперсиями Яг-. В отдельном случае для Л = I аннулирование [Л - Е(уу Т)]происходит только, если компоненты аппроксимирующего сигнала у(0 будут некоррелированными и иметь единичную дисперсию (т. е. их нормировка предусматривала выполнение этих свойств).

Поскольку восстановление (разделение) сигналов источника производится только с точностью до масштаба, то можно полагать, что они тоже имеют дисперсию (с/), равную единице, т. е. что корреляционная матрица К^ = I. Это связано с тем, что скалярные множители (определяющие масштаб у=1,2,..., п) могут обмениваться

между сигналами источника и столбцами матрицы смешивания А.

Для сигналов 8(0 с с2 = 1 корреляционная функция Куу выходного сигнала у(0 определяется выражением:

Ортогональная матрица в общем случае не равна матрице обобщенной перестановки (перестановки с перенормировкой компонент), поэтому алгоритм (П15) и его последующие формальные модификации не дают уверенности в корректном разделении сигналов, а только гарантируют декор-реляцию и нормализацию выходных сигналов — компонент вектора у(0. Так что условие (П20) не является достаточным для задачи ВФС, а только необходимым — для обеспечения общей независимости выходных нормализованных (су12=1) компонент сигнала у(0. Кроме того, алгоритм (П15) использует статистики второго порядка (Е( yiy]■)), производящие декоррелированные выходные сигналы. Этого недостаточно, чтобы быть уверенными в их независимости. Для достижения взаимной независимости выходных сигналов необходимо заменить линейные функции в Е(у{у ■)

на две нелинейные различающиеся функции Ду) и ё(у), что приведет к модификации алгоритма в форме выражения (П21):

dW

dt

= П

{{- E[f(y(t))gT(y(t))] }w(t). (П21)

Оправданность использования в нейросетевом алгоритме нелинейных функций 1"[у(0] и g[y(t)] связана с тем, что с их помощью вводится вычисление статистических моментов более высокого порядка (сравнительно со вторыми моментами), и это уже при их нулевом (а практически при очень малом) значении обеспечивает общую независимость компонент вектор-сигнала у(0.

Установление полной независимости является обычно сложной задачей, потому что она требует знания плотности распределения или ее оценки.

В общем случае для этого требуется, чтобы были исчезающе малыми статистические моменты более высокого порядка или обобщенные моменты E [ f (yi (t)) g T (y j (t)) ], i Ф j. На практике величина

математического ожидания (определяемого распределением вероятности) неизвестна, и она аппроксимируется своей мгновенной величиной в конце выполнения стохастического градиентного алгоритма (15) и (16).

СПИСОК ЛИТЕРАТУРЫ

1. Al-Kindi M.J., Dunlop J. Improved adaptive noise cancellation in presence of signal leakage on the noise reference channel // Signal Processing. 1989. V. 17. P. 241-250.

2. Nguyen Thi H.L., Jutten C., Caelen J. Speech enhancement: Analysis and comparison of methods on various real situations // Signal Processing VI: Theory and Applications / Eds. J. Vandewalle, R. Boite, M. Moonen, A. Oosterlinck. 1992. P.303-306.

3. Weinstein E., Oppenheim A.F., Feder M., Buck J.R. Iterative and sequential algorithms for multi-sensor signal enhancement // IEEE Transactions on Signal Processing. 1994. V. 42, N 4. P.846-859.

4. Shamsunder S., Giannakis G.B. Modeling of non-Gaussian array data using cumulants: DOA estimation of more sources with less sensors // Signal Processing. 1993. V. 30. P. 279-297.

5. Karhunen J., Joutsensalo J. Representation and separation of signals using nonlinear PCA type learning // Neural Networks. 1994. V. 7, N 1. P. 113-127.

6. Common P., Jutten C., Herault J. Blind separation of sources. II: Problem statement // Signal Processing. 1991. V. 24. P. 11-20.

7. Pope K.J., Bogner R.E. Blind signal separation: linear instantaneous combinations // Digital Signal Processing. 1996. V. 6. P. 5-16.

8. Jutten C., Herault J. Blind separation of sources. I: adaptive algorithm based on neural net architecture // Signal Processing. 1991. V. 24. P. 1-10.

9. Common P., Jutten C., Herault J. Blind separation of sources. II: Problem statement // Signal Processing. 1991. V. 24. P. 11-20.

10. Tong L., Liu R., Soon V.C., Huang Y.F. Indeterminacy and unidentifiability of blind identification // IEEE Transactions on Circuits and Systems. 1991. V. 38, N 5. P. 499-509.

11. Cohen M.H., Andreou A.G. Current-mode subthreshold MOS implementation of Herault-Jutten autoadapyive network // Journal of Solid State Circuits. 1992. V. 27, N 5. P. 714-727.

12. Макаров И.М., Менский Б.М. Линейные автоматические системы (элементы теории, методы расчета и справочный материал). М.: Машиностроение, 1982. 503 с.

13. Иванов В.А., Ющенко А.С. Теория дискретных систем автоматического управления. М.: Наука, 1983. 335 с.

14. Меркушева А.В. Применение нейронной сети для текущего анализа нестационарного сигнала (речи), представленного его вейвлет-отображением. I. Основные принципы // Научное приборостроение. 2003. Т. 13, № 1. С. 64-71.

15. Комарцова Л.Г. Искусственные нейронные сети. Теория и практика. М.: Изд-во МВТУ, 2002. 260 с.

16. Меркушева А.В. Нейросетевые методы обработки сигналов в информационных системах: Элементы структуры, приципы обучения и мера многообразия отображений информации // Информационные технологии. 2005. № 4 (в печати).

17. Малыхина Г.Ф., Меркушева А.В. Метод контроля состояния подсистемы (объекта) при неполной измерительной информации о совокупности параметров, определяющих ее динамику. II. Нейронные сети, отражающие динамику входной информации и построенные на принципе обратных связей (рекуррентные сети) // Научное приборостроение. 2004. Т. 14, № 3. С. 11-32.

18. Меркушева А.В. Фильтрация нестационарного сигнала (речи) в вейвлет-области с адаптацией к виду и динамике шума // Научное приборостроение. 2003. Т. 13, № 2. С. 73-87.

Санкт-Петербург

Материал поступил в редакцию 28.03.2005.

RECONSTRUCTION OF LINEARLY MIXED SIGNALS BY MEANS OF AN ADAPTIVE ALGORITHM FOR A RECURRENT

NEURAL NETWORK

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

A. V. Merkusheva, G. F. Malykhina

Saint-Petersburg

In the context of signal processing for information-measurement systems (IMS), we consider the case when the detected signals are linear combinations of original signals acting (with different efficiency) on each of IMS sensors. In certain problems (processing radar signal data arrays and information for medical-biology IMS, gain equalization and adaptive noise cancellation for communication channels), both the form of original signals and the proportion of their mixing at the output of the measuring system sensors are unknown. The problem at reconstruction of original signals is complicated by the necessity to identify the mixing structure. For stationary and independent original signals, the problem of their reconstruction is solved using neural network (NN) algorithms. Two NN structures, models for their construction and learning algorithms are considered. The lack of a priori information on the signal form and mixing structure allows one to fulfil only signal reconstruction with a precision of signal generalized permutation.

Восстановление линейно смешанных сигналов на основе адаптивного алгоритма рекуррентной сети Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Меркушева А. В., Малыхина Г. Ф.

Похожие темы научных работ по математике , автор научной работы — Меркушева А. В., Малыхина Г. Ф.

Текст научной работы на тему «Восстановление линейно смешанных сигналов на основе адаптивного алгоритма рекуррентной сети»