Нейросетевая регуляризация решения обратных  некорректных задач прикладной спектроскопии

А. А. Севастьянов; С. С. Харинцев; М. Х. Салахов

Нейросетевая регуляризация решения обратных некорректных задач прикладной спектроскопии

А.А. Севастьянов ([email protected]), С.С. Харинцев, М.Х. Салахов Казанский государственный университет

Введение

При обработке экспериментальных данных в прикладной спектроскопии часто приходится решать одну или несколько обратных задач [1-3]. К наиболее распространенным обратным задачам в спектроскопии относятся сглаживание и удаление шума из экспериментальных данных, дифференцирование спектров, решение задачи Абеля, учет аппаратурных искажений. Специфика этих задач состоит в обращении хода причинно-следственной связи - по наблюдениям определяются физические характеристики объекта. Такие задачи принадлежат к классу обратных задач математической физики [2], постановка которых может быть представлена в виде

Kp + £ = f, (1)

где f интерпретируется как искаженный случайным шумом £ выходной сигнал прибора K, на вход которого поступил сигнал р. K - непрерывный, чаще всего линейный оператор, моделирующий измерительный прибор. Основная проблема состоит в том, чтобы извлечь из измерения f как можно более точные значения параметров объекта, невозмущенные измерением. Этим уравнением может быть описан достаточно широкий класс задач математической обработки результатов эксперимента [3].

Обратные задачи часто оказываются некорректными, что означает в первую очередь неустойчивость их решения [4] и принципиальную невозможность получения точного решения [5]. Получение корректных результатов при решении такого рода задач возможно только при использовании дополнительной априорной информации об исходной функции, такой как дифференцируемость, ограниченность, гладкость, монотонность. Включение в алгоритм такой информации называется регуляризацией решения и заменяет исходную задачу другой. Другими словами, регуляризация решения без потери физического смысла позволяет преодолевать вычислительную неустойчивость.

В работах [5-6] подробно рассмотрены различные методы регуляризации обратных задач. Авторами работ было показано, что наиболее эффективны алгоритмы, основанные на методе статистической регуляризации (МСР). В рамках МСР обратная задача рассматривается как задача математической статистики и вместо уравнения (1) рассматривается его конечномерное приближение [7]. Тогда с учетом априорной информации о гладкости ( решение уравнения (1) представляется в виде математического ожидания

ра=(KTWK + аП)- KTWf, (2)

где W- ковариационная матрица ошибок, а > 0 - параметр регуляризации, Q -

рактической реализации 5-7]

сглаживающий функционал. Наилучшую сходимость при п обеспечивает параметр регуляризации, определяемый выражением

а = к/\Бр{О(КТЖК + ар +(д>а\ О | <ра)

(3)

Другие способы задания а и методы вычисления сглаживающего функционала О можно найти в [1,3,7-8].

Для решения обратных некорректных задач мы предлагаем использовать искусственные нейронные сети (ИНС), которые с успехом применяются в различных

областях обработки сигналов [9-10]. Нейронные сети обладают способностью к обобщению входной информации, что позволяет выделять в исследуемых сигналах основные закономерности и удалять случайный шум, неизбежно присутствующий в результатах эксперимента. Следовательно, при решении обратных некорректных задач с помощью нейронных сетей некоторая часть шумовой составляющей сигнала будет удалена автоматически. Однако во многих сигналах, полученных в результате эксперимента, уровень случайных помех слишком высок для корректной нейросетевой обработки. При решении некорректных обратных задач, таких как дифференцирование, удаление аппаратурных искажений или решение задачи Абеля уровень шума возрастает настолько, что обучение сети может зайти в тупик и никогда не закончиться, либо сеть научиться воспроизводить закономерности, имеющие весьма далекое отношение к истинным.

Инструментарий искусственных нейронных сетей достаточно открыт для включения дополнительных условий об исходном сигнале или предположений об исследуемых закономерностях в данных. Простота и открытость алгоритмов обучения сетей позволяют использовать имеющуюся априорную информацию. Способы включения такой информации в алгоритм обучения ИНС будут рассмотрены ниже. С помощью регуляризации задачи обучения нейронной сети можно избежать переобученности сети и сохранить ее способность к обобщению. Это позволяет с успехом решать некорректные обратные задачи обработки экспериментальных данных с высоким уровнем случайных шумов.

Теория

Нейронная сеть может быть представлена как нелинейная функция регрессии, характеризующаяся соотношением между зависимыми переменными (выходами) а размерности п и независимыми переменными (входами) р размерности М. В отличие от нелинейной регрессии, где постулируется специфическая нелинейная функция, модель нейронной сети строится путем комбинирования множества элементарных функций в многоуровневой структуре. В прямослойных сетях множество входов могут активизировать одновременно q скрытых элементов в первом слое, каждый из которых вычисляет некую функцию активации Г(•) от взвешенной суммы всех входов. Математически это записывается в виде [9]

3 м 4

а1 = Г £ ™1]р] + Ъг , г = Ь.. п, (4)

7 }= 8

где w - матрица весов первого слоя.

Любую нейронную сеть можно представить как оператор О, производящий преобразование входного вектора р е Р в выходные значения а е А :

р = Оа. (5)

В случае использования линейных активационных функций оператор О может воспроизвести произвольную линейную операцию над входным вектором. Такие сети просты в настройке и обучении, но их применение весьма ограничено вследствие невозможности осуществления такой сетью нелинейных операций и введения ограничений и априорных предположений о выходном сигнале.

Для решения сложных нелинейных задач обычно используются нейронные сети с гладкими и дифференцируемыми функциями активации Г(•), такими как логистическая функция

У = ^ (6)

1 - е х

или гиперболический тангенс

е - е (П\ У = —--7. (7)

е + е х

В соответствии с теоремой Хехт-Нильсена [11], такие нейронные сети могут воспроизвести любую многомерную нелинейную функцию.

Для решения обратных некорректных задач обработки данных, искаженных случайным шумом, подходят несколько типов нейронных сетей. Наиболее простой и доступной для модификации архитектурой являются многослойные нейронные сети прямого распространения. Обучение сетей такого типа производится "с учителем", при этом обучающий набор входов и целевых значений задается в форме {р1,{р2,t2}...{р1, Предположим, что целевые значения генерируются как а{ = g(ti) + , где g - неизвестная

функция. Исходной целью процесса обучения является минимизация среднеквадратичной ошибки в виде

Еа = £ в - а )2. (8)

г=1

Использование целевой функции вида (8) приводит к переобученности сети и слабой устойчивости к случайному шуму в данных. В этом случае минимизация функции вида (8) не приводит к достоверным результатам на выходе сети.

В работе [12] был предложен байесовский подход для решения задачи интерполяции зашумленных данных, основные идеи которого могут быть полезны при решении многих задач обработки экспериментальных данных. Байесовские стратегии позволяют включать в решение задачи субъективные предположения относительно исследуемого сигнала. Однако они могут быть полезны не только на этапе оптимизирования параметров модели, описывающей обработку данных, но и при выборе подходящей модели для описания решения задачи.

Выбор подходящей модели, наилучшим образом описывающей результаты эксперимента является непростой задачей. Сложные модели с большим количеством настраиваемых параметров лучше подгоняются под имеющиеся данные, нежели более простые модели. Однако часто сложные модели оказываются слишком параметризованы и не обладают нужными обобщающими свойствами.

Для улучшения обобщающих свойств сети и устойчивости к случайным погрешностям необходима регуляризация процесса обучения. Основная идея регуляризации сводится к ограничению величин весов сети, что приводит к повышению степени гладкости получаемых на выходе значений. При помощи регуляризации удается избежать переобучения и добиться более точного воспроизведения аппроксимируемой функции.

Мы предлагаем использовать метод байесовской регуляризации обучения нейронной сети для решения обратных некорректных задач. Оптимальный метод регуляризации по [12] требует расчета определителя Гессе. Для минимизации объема вычислений авторами [13] был предложен алгоритм Гаусса-Ньютона для аппроксимации гессиана. Эта аппроксимация позволяет включать методы байесовской регуляризации в алгоритм обучения сетей Левенберга-Маркуарта [14]. Далее мы рассмотрим методы байесовской регуляризации применительно к обучению нейронных сетей для решения некорректных задач.

Цель обучения нейронной сети - уменьшить сумму среднеквадратичных ошибок Е = Ев. Регуляризация добавляет к этому выражению дополнительный член, таким образом целевая функция принимает вид

Г = РЕа + аЕш, (9)

где Еш - сумма квадратов весов сети, а и в - параметры целевой функции. Относительный размер параметров целевой функции определяет основной акцент при обучении. Если а<<в, тогда обучающий алгоритм будет давать маленькую ошибку. В случае, когда а >> в, то обучение будет направлено на уменьшение весов. В этом случае ошибка сети будет велика и отклик сети будет сильно сглаженным.

Основная проблема в применении регуляризации состоит в определении корректных значений параметров целевой функции. Д. Маккей в [12] подробно рассмотрел проблему

применения байесовских правил в нейросетевом обучении и оптимизации регуляризации. Для выбора параметров регуляризации мы воспользуемся подходом, предложенным авторами работы [13] и рассмотрим его применение для решения обратных задач.

В рамках байесовского подхода веса сети рассматриваются как случайные переменные. После получения данных функция плотности вероятности для весов может быть модифицирована по правилу Байеса:

=Р( еа—* а М), (10)

Р(Б \ а, — М)

где Б представляет собой набор данных, М - используемая модель нейронной сети, w -вектор сетевых весов. Р^ \ а,М) - априорная плотность вероятности, которая представляет собой наше знание о весах. Р(Б \ w, —М) - функция правдоподобия, которая равна вероятности попадания данных, заданных весами w . Р(Б \а,—М) - нормировочный множитель, гарантирующий общую вероятность равной 1.

Если мы предположим что шум на тренировочном множестве гауссовский и что начальное распределение весов тоже гауссовское, тогда плотности вероятностей могут быть записаны как

Р(Б \ w, —М) = —-(—- ехр(~вЕ0 ) и

Р(п \ а,М) = -^-ехр(-аЕш), (11)

^(а)

где 2б (—) = (ж/ —)"П2 и (—) = (ж/—)к2. Когда мы подставим эти вероятности в уравнение (10), то получим

1

ехР(-—Еи + аЕш ))

б а, —, М) = 7б (а)7б —)

Р0 , (12)

1

-ехр(-Е (w))

^ (а, —)

где Р0 - нормировочный множитель. В рамках байесовского подхода оптимальные веса будут при максимуме апостериорной вероятности Р^ \Б ,а, — М). Максимизация апостериорной вероятности эквивалентна минимизации регуляризованной целевой функции

Е = —Еи +аЕш .

Рассмотрим приложения правил байесовской регуляризации для оптимизации параметров целевой функции а и — . Тогда мы имеем

Р(а, — \Б,М) = Р(Ба —,М)Р(а, — \М) . (13)

Р(Б \ М)

Затем мы предположим, что равномерное распределение плотности вероятности Р(а, — \ М) для параметров регуляризации. Тогда максимум апостериорной вероятности достигается максимизацией функции вероятности Р(Б \а, —,М). Заметим, что функция вероятности - это нормировочный множитель в уравнении (10). Так как все вероятности имеют гауссовскую форму, мы знаем форму апостериорной плотности уравнения (10). Это показано в уравнении (13). Сейчас мы решим уравнение (10) с нормировочным множителем:

P( D|a, в, M ) = P D|w'вM > W-M )

1 exp(-e£D )

P(w | D,a, в, M) 1

zd (в)

Zw(a)

exp(-aEw )

1 exp(-F (w))

(14)

ZF (a, в)

ZF (a, в) exp(^ED -aEw ) ZF (a, в)

ZD (fi)Zw (a) exp(-F (w)) ZD (fi)Zw (a) Заметим, что мы знаем постоянные ZD (в) и Zw (a) из уравнения (11). Неизвестна только величина ZF (a, в) • Однако, мы можем оценить ее, разложив в ряд Тейлора. Поскольку целевая функция имеет квадратичную форму в маленькой области окружающей точку минимума, мы можем расширить F (w) вокруг точки минимума с апостериорной

вероятностью ww что градиент равен нулю. Индекс MP (most probable) означает наиболее вероятные значения весов. Решение для нормировочной постоянной дает

zf - (2n)N/2(det((HMг1))1'2 exp(-F(wMP)), (15)

где H = в2Ed + aV2Ew - матрица Гессе для целевой функции. Подставив этот результат в уравнение (14), мы можем найти оптимальные значения a и в в точке минимума. Сделаем это путем взятия производных относительно каждого слагаемого уравнения (14) и приравняв их к нулю. Это дает

MP Y nMP n — Y 1ла\

a = " в = ÏËJw^j * (16)

где y = N - 2aMP tr(HMP )-1 называется эффективным числом параметров, N - общее число параметров в сети. Параметр Y определяет количество параметров сети, которые эффективно используются в уменьшении функции ошибки. Он принимает значения от нуля до N .

Байесовская оптимизация регуляризационных параметров требует расчета матрицы Гессе от F (w) в минимальной точке w. Гаусс-Ньютоновская аппроксимация матрицы Гессе в соответствии с [13] определяется выражением

H = V2 F (w ) -2вЗT J + 2aI N , (17)

где J - якобиан ошибок на обучающей выборке. С учетом (17) итерационный алгоритм обучения сети с регуляризацией выглядит следующим образом:

1. Инициализируем веса сети в соответствии с [14] и полагаем a = 0 и в = 1.

2. Минимизируем целевую функцию F (w) = вED +aEw, вычислив один шаг алгоритма Левенберга-Маркуарта.

3. Подсчитаем эффективное число параметров y = N - 2aMP tr(HMP )-1 , используя выражение (17) для расчета гессиана.

4. Рассчитаем новые оценки параметров регуляризации по формулам (16).

5. Повторяем шаги 2-4 до тех пор, пока не будет достигнута сходимость.

Далее мы покажем, что полученная нейронная сеть с байесовской регуляризацией (НСБР) может быть с успехом использована для решения обратных некорректных задач. Одними из самых распространенных и необходимых задач первичной обработки спектроскопического эксперимента являются задача сглаживания и инверсия Абеля.

Сглаживание данных

Отделение полезной части сигнала от шумовой может быть осуществлено путем сглаживания исходных данных [15-17]. Такая операция эквивалентна пропусканию сигнала через фильтр низких частот [15]. Авторами [6] было показано, что для сглаживания экспериментальных спектров наилучшим методом является МСР. Однако метод статистической регуляризации обладает некоторыми недостатками, к наиболее существенным из которых относится ручной выбор количества итераций. Также с помощью МСР затруднена обработка сложных и нестационарных сигналов.

Мы исследуем возможности применения нейронных сетей в задаче сглаживания сигналов. Как известно, нейронные сети обладают способностью к обобщению входной информации и могут быть представлены в виде нелинейной регрессии (4). В силу развитых обобщающих свойств и способности выделять основные закономерности сигналов сглаживание при нейросетевой обработке происходит автоматически. Степень гладкости определяется различными факторами, такими как общая топология сети, количество слоев и нейронов в этих слоях, видом функции активации и алгоритмами обучения. В случае, когда количество нейронов и количество настраиваемых параметров сети меньше размерности входного сигнала выходы сети получаются более гладкими, чем исходный сигнал.

Для сглаживания экспериментальных данных мы предлагаем использовать сети топологии 1 - Ып -1, что означает 1 вход, 1 нейрон в выходном слое и Ып нейронов в

промежуточном (скрытом) слое. Такая топология предполагает следующую постановку задачи сглаживания. Пусть необходимо получить сглаженную оценку некоторого сигнала ((х), искаженного случайным шумом £(х) : у(х) = ((х) + %(х). Решение задачи сглаживания в нейросетевой постановке заключается в нахождении такого оператора О, который осуществлял бы отображение х ^ у , т.е. являлся бы моделью исследуемого явления:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(п (х) = Ох (18)

Основная задача в такой подстановке - получить такой вид О, который давал бы сглаженную оценку ( , максимально близкую к ( . Для построения такой модели в качестве значений должны быть отсчеты координат или времени х{, а качестве целевых - отсчеты сигнала у{. Для согласования с принятыми в литературе обозначениями для нейронных сетей обозначим входные значения как pi, а целевые значения - ti. Используемая модель сети - нейронная сеть прямого распространения (НСПР). В процессе обучения по алгоритму Левенберга-Маркуарта на каждой итерации входные элементы обучающей выборки {pi, ti}

подают в случайном порядке. Цель обучения сети - минимизация среднеквадратичной ошибки в виде (8). Условие ограниченности сигнала включается в решение задачи путем выбора активационной функции в выходном слое в виде сигмоиды (6) и приведения входного сигнала в диапазон (0,1) .

Результаты, выдаваемые такой сетью, получаются достаточно сглаженными, но не являются оптимальными. При небольшом количестве нейронов отклик сети получается слишком гладким. При увеличении количества нейронов улучшается информационная емкость сети, в результате чего сеть начинает воспроизводить более сложные зависимости. Однако это приводит к переобученности, в результате чего сеть теряет способность к обобщению, и в восстановленном сигнале появляются ложные пики (см. рис. 1).

Для того, чтобы сеть могла воспроизводить сложные зависимости и при этом не теряла обобщающих свойств, необходимо включение в алгоритм обучения априорной информации о гладкости выходного сигнала, что эквивалентно минимизации целевой функции в виде (9). Введение регуляризации в процесс обучения положительно сказывается на степени гладкости отклика сети.

Исследуем возможности нейросетевого сглаживания сигналов на модельных данных. Для этой цели на модельный сигнал у, состоящий из двух контуров гауссовской формы и

двух - лоренцовской, набрасываем случайный гауссовский шум с дисперсией а2 = [^max(>^ )]2, где г/ - относительный уровень шума. Полученный таким образом вектор

I представляет собой модель экспериментальных данных.

На рисунке 1 и 2 показаны результаты восстановления модельного сигнала нейронной сетью прямого распространения и сетью с регуляризацией. Относительный уровень аддитивного шума в спектре 7%. Число нейронов в промежуточном слое сети равно 6, 10 и 20. Визуальное наблюдение показывает, что во втором случае (рис. 2) результаты восстановления сигнала существенно лучше: степень гладкости выше, отсутствуют ложные пики и осцилляции на краях контуров, точнее описывается исходная форма контуров. Следует отметить, что качество сглаживания зависит от количества нейронов в сети. С увеличением числа настраиваемых параметров вырастает способность сети воспроизводить более тонкие детали сигнала. В то же время увеличивается чувствительность к случайному шуму и выходной сигнал становится менее гладким.

1.0

<5 0.8

к

8

л 0.6

ё

о

И 0.4

0

К

<и

1 0.2

0.0

-8 -6 -4 -2 0 2 4 6 8 Волновое число, отн. ед.

Рис. 1. Сглаживание модельных данных с помощью НСПР при 6, 10 и 20 нейронах в скрытом слое.

1.0

0.8

0.6 0.4 0.2 0.0

-8 -6 -4 -2 0 2 4 6 8 Волновое число, отн. ед.

Рис. 2. Сглаживание модельных данных с помощью НСБР при 6, 10 и 20 нейронах в скрытом слое.

Для того, чтобы исследовать зависимость качества выходного сигнала от количества нейронов, на рисунке 3 мы построили зависимость квадратичной меры а2 от количества нейронов для НСПР и НСБР. Из графика можно сделать вывод, что применение регуляризации дает существенный выигрыш в уменьшении ошибки восстановления. Следует также отметить высокую степень стабильности получаемых результатов. Из рисунка следует, что НСБР начинает справляться с задачей при 7 нейронах в скрытом слое, при этом минимальная ошибка наблюдается при 18 нейронах, в то время как обычная сеть прямого

распространения достигает минимума погрешности при 14 нейронах. В дальнейшем при усложнении сети решение начинает разбалтываться и качество сглаживания понижается.

«

к к

и ч т о

ИЗ

о о

т «

ю к

а о

0.25

0.20

0.15

0.10

0.05

0.00

6 8 10 12 14 Количество нейронов, Ып

16 18 20

Рис. 3. Зависимость ошибки восстановления сигнала с2 от количества нейронов.

Дальнейшее усложнение сети не приводит к выигрышу в качестве сглаживания сигнала. При увеличении количества настраиваемых параметров в выходном сигнале появляются артефакты, связанные с избыточной информационной емкостью сети, что хорошо видно на рисунке 1. Визуальное наблюдение показывает, что сеть прямого распространения более чувствительна к случайному шуму и увеличению количества нейронов, что отрицательно сказывается на качестве сглаживания сигналов.

Как видно из графиков, наилучшее соответствие с исходным сигналом дает сеть с 18 нейронами, что соответствует минимуму на графике квадратичной меры с2 (рис. 2). Из этого можно сделать вывод, что с поставленной задачей наилучшим образом справляется НСБР. Необходимое количество нейронов можно рассчитать путем анализа зависимости

квадратичной меры с2 для данного типа сигналов.

1.0

<и

к

ё

л

ё о к т К о К и н к

к

0.8 -

0.6

0.4

0.2 -

0.0

-8 -6 -4 -2 0 2 4 6 8 Волновое число, отн. ед.

Рис. 4. Сглаживание модельных данных с помощью МСР и НСБР.

Для оценки полученных результатов произведем сравнение качества сглаживания нейронными сетями с методом статистической регуляризации. Для этого на рисунке 3а приведены результаты сглаживания модельного сигнала, аналогичного "экспериментальному" сигналу в предыдущем случае. При сглаживании методом статистической регуляризации параметр а выбирался в соответствии с (3), число итераций т = 6. В нейронной сети с байесовской регуляризации обучения число нейронов Nп = 18.

Визуальное наблюдение показывает лучшее качество восстановления обеспечивает нейронная сеть с регуляризацией.

0.07

2 0.06 к

Й 0.05

ч

т

к 0.04

ё

8 0.03 т

I 0.02

к

О 0.01 0.00

123456789 10 Уровень шума п, %

Рис. 5. Зависимость квадратичной меры от уровня шума п.

Для количественной оценки качества восстановления сигналов с помощью этих методов на рисунке 5 приведены зависимости среднеквадратичной ошибки от уровня шума. Из рисунка можно сделать вывод о целесообразности использования нейросетевого вычислительного аппарата с регуляризацией для задачи сглаживания модельных и экспериментальных спектров.

Решение задачи Абеля

В качестве обратной некорректной задачи, при решении которой происходит значительное повышение уровня случайного шума рассмотрим решение уравнения Абеля. Инверсия Абеля является одним из важных разделов математической физики и находит весьма широкое применение в самых разных областях как фундаментальной, так и прикладной физики [18-20]. К числу наиболее распространенных задач, приводящих к инверсии Абеля, можно отнести следующие: трехмерная реконструкция молекул, исследование структуры нуклонов и атомных ядер методами рассеяния частиц, лазерное зондирование атмосферной турбулентности, исследования распределения вещества в галактике по данным спектральных наблюдений и т.д. Однако, среди большого количества работ, посвященных прикладным вопросам абелевой инверсии, особое место занимает локальная диагностика лабораторной плазмы [1,3,20].

В случаях осевой или сферической симметрии плазменного объекта функциональная связь между измеряемой функцией / (х) (например, распределение интенсивности спектральной линии I(х,®)) и искомым распределением ср(х) (например, локальная плотность частиц п( х), локальный коэффициент испускания а(у, х) ) определяется, в общем случае, интегральным уравнением Вольтерра 1-го рода

1 (х - у)->(у) = Дх), (19)

а

где 0 <а < 1, а > 0, в случае радиальной симметрии а = 1/2 . Также встречаются различные обобщения этой задачи от сравнительно простых случаев эллиптической симметрии и заканчивая случаями совершенно асимметричных объектов (задачи томографии [21]); существуют обобщения задачи Абеля на многомерные пространства. В случае, если /(х) непрерывно-дифференцируемая функция, можно показать, что формальное решение уравнения (19) записывается в виде

х) = ^^Л}(х-У)а-1/(у) Лу (20)

77" /Л" •>

sin(ап) Л п Лх и

или

-1 / (у)

, ч sin(ап) <Р( х) =

п

(х - а)а-1 /(а) + | (х - у)а-1 Лу

а лу

(21)

В работе [6] для нахождения решения уравнения (19) был предложен алгоритм дробного дифференцирования, позволяющий получить решение (21) в один этап. В самом деле, на основе определения дробного интеграла Римана-Лиувилля [22]

° у[/(х)] = Г(Н +1/2) 0(х - у)Н-12/(у) лу (22)

уравнение (19) можно представить в виде

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/ (х) = Г(1 -а) Баа "Х х)]. (23)

Решение (20) в силу коммутативности дробных операторов запишется в виде

ф( х) = [Г(1 -а)]-1 / (х)]. (24)

Таким образом, решение уравнения Абеля можно свести к вычислению дробной производной.

Из соотношений (22)-(24) следует, что инверсия Абеля связана с дифференцированием либо экспериментальной функции, либо дробного интеграла от этой функции. В силу нарушения условий корректности по Адамару, в частности условия устойчивости дифференцирования неточно заданной функции, инверсия Абеля представляет собой некорректно поставленную задачу [18]. В данной работе мы предлагаем нейросетевой подход к решению задачи Абеля при высоком уровне случайного шума, когда с помощью других методов получить приемлемое решение невозможно.

С прикладной точки зрения наибольший интерес представляет алгоритм локальной диагностики оптически плотной плазмы, т.е. определение функций е(г,ю) и %(г,а). Мы рассмотрим упрощенный вариант абелевой инверсии - задачу восстановления радиального распределения для цилиндрической симметрии в случае оптически прозрачной плазмы. В этом случае уравнение Абеля имеет вид

I(у) = 21(г2 - у2)4/2 е(г)тйу, (25)

у

формальное решение которого записывается в виде

е(г) = -{(/ - г2)-* Лу . (26)

п у у

В операторном виде соотношения (25) и (26) могут быть записаны как

I = ле, е = Л-11, (27)

где Л - линейный оператор преобразования Абеля. Регуляризованное решение в рамках МСР запишется в виде математического ожидания

(Еа) = (К *ЖК + аО)-1 К *Ж1 (28)

с единичным оператором К = Е. Для решения задачи Абеля со случайным шумом в получаемых из эксперимента данных мы предлагаем использовать нейронные сети с регуляризацией обучения. Функционирование нейронной сети с регуляризацией для решения задачи Абеля в операторном виде можно записать как

а = (Л-1 + а)Р, (29)

где р и а - значения на входах и выходах сети, Л - линейный оператор преобразования Абеля, Яа в - регуляризующий оператор. При решении задачи Абеля необходимо построить такую сеть, которая бы осуществляла операцию, обратную Л, при этом на выходах сигнал

должен быть достаточно сглаженным. Тогда выходы сети a будут сглаженной оценкой производной исходного ряда. Таким образом постановка задачи заключается в построении и обучении сети, осуществляющей регуляризованную по (10) оценку решения уравнения (19):

срав= (A-1 + Rae) f . (30)

Для решения задачи Абеля мы предлагаем использовать сети двухслойные сети топологии N - Nn - M, где Nn - количество нейронов в скрытом слое, N и M -размерности входного и выходного сигнала соответственно. Обучение производится на тестовом множестве функций, где функции st (r) строятся из полиномов 10-й степени со случайными параметрами таким образом, чтобы результирующая функция попадала в диапазон (0,2). Функции ft (y) получались из st (r) путем преобразования Абеля (25). В

процессе обучения случайный шум плавно увеличивался и к концу обучения достигал 10%.

Мы исследуем эффективность предложенного метода на модельном сигнале. В качестве восстанавливаемой излучательной способности s(r) возьмем тестовую функцию

s(r) = 17r4 - 32r3 + 14r2 +1. (31)

2.5 -

<ц 2.0

К

ь

А 1.5

к

и я 1.0

к

<ц

К К 0.5

0.0

0.2

1.0

0.4 0.6

г, у, отн. ед.

Рис. 6. Восстановление излучательной способности е(г) . Исходная функция £(у) с шумом, восстановление с помощью МСР, нейросетевое решение. 0.10

«

я

к <ц

ч m

о §

н о о о m

св

w ю я В О

0.08

0.06

0.04

0.02

23456789 Относительный уровень шума п, %

.2

10

Рис. 7. Зависимость квадратичной меры с от уровня шума п с помощью МСР и НСБР.

Выполняя преобразование Абеля мы получали "экспериментальную" функцию по схеме £ = £ + п^, где п - относительный уровень шума. На рисунке 6 приведены результаты восстановления излучательной способности е(г) методом статистической регуляризации и нейронной сетью с регуляризацией. Как видно из рисунка, при использовании нейронной сети с регуляризацией удается достичь более качественного

восстановления искомой функции. Улучшений удается достичь как в восстановлении общей формы s(r), так и в уменьшении искажений центральной части сигнала, где влияние шумов наиболее существенно.

Для количественной оценки качества восстановления сигнала на рисунке 7 построена зависимость квадратичной меры ст2 от уровня шума в модельном спектре. Рисунок иллюстрирует меньшую чувствительность нейронной сети к случайному шуму по сравнению с МСР. Однако при незначительной случайной погрешности МСР демонстрирует более точное восстановление. Таким образом, уменьшение ошибки восстановления излучательной способности s(r) с помощью нейронной сети с регуляризацией наблюдается при уровне шума в исходном профиле f (y) больше 3%.

Выводы

В данной работе мы предлагаем подход для решения обратных некорректных задач на основе нейронных сетей с регуляризацией. Наблюдается значительное повышение степени сглаживания модельного спектра при сохранении тонких особенностей сигнала. Достигнуто улучшение качества восстановления излучательной способности при решении задачи Абеля при уровне шума в исходном профиле более 3%. Полученные результаты демонстрируют высокую производительность предлагаемого подхода при решении обратных некорректных задач с высоким уровнем шума в исходных данных. Предлагаемый подход может быть использован для обработки экспериментальных данных в прикладной спектроскопии.

Литература

1. Преображенский Н.Г., Пикалов В.В., Неустойчивые задачи диагностики плазмы, -Новосибирск: Наука. -1982. -236c.

2. Федотов А.М., Некорректные задачи со случайными ошибками в данных, Новосибирск: Наука. -1982. -280c.

3. Salakhov M.Kh. // Spectrchem. Acta Rev. -1993. -V.5, N.6. -P.399.

4. Hadamar J. Bull. Univ. Princeton. -1902. -V.13. -P.49.

5. Kharintsev S.S., Nigmatullin R.R., Salakhov M.Kh. // Asian J. Spectr. -1999. -V3. -P.49.

6. Kharintsev S.S., Nigmatullin R.R., Salakhov M.Kh. // JQSRT. -2000. -V.54, N.5. -P.164.

7. Тихонов А.Н., Арсенин В.Я., Методы решения некорректных задач, М.: Наука. -1979. -286c.

8. Турчин В.Ф., Козлов В.П., Малкевич М.С. // УФН. -1970. -T.102. №3. -С.345.

9. Круглов В.В., Борисов В.В., Искусственные нейронные сети. Теория и практика. -М.:Горячая линия-Телеком. -2002. -382с.

10. Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н. и др. Нейроинформатика --Новосибирск: Наука. -1998. -296c.

11. Hecht-Nielsen R. Neurocomputing. Addison-Wesley. -1989. -433p.

12. MacKay, D. J. C. // Neural Computation, -1992. -V.4, N.3. -P.415.

13. Foresee, F. D., and M. T. Hagan. // Proc. 1997 IJCNN. -1997. -P.1930.

14. Hagan, M. T., and M. Menhaj. // IEEE Transactions on Neural Networks, -1994. -V.5, N.6. -P.989.

15. Bialkowski S.E. // Anal. Chem. -1989. -V61, N.11. -P.1308.

16. Дубровкин И.М., Беликов В.Г., Производная спектрометрия. Теория, техника, применение. -Ростов: Изд. Рост. Ун-та. -1988. -144с.

17. Savitzky A., Golay M. // Anal. Chem. -1964. -V.36, N.8. -P.1627.

18. Инверсия Абеля и ее обобщения. Под ред. Н.Г. Преображенского. -Новосибирск: Наука. -1978. -272с.

19. Воскобойников Ю.Е., Преображенский Н.Г., Седельников А.И. Математическая обработка эксперимента в молекулярной газодинамике. Новосибирск: Наука. -1984. -240с.

20. Shmitt J.M. // Appl. Spec. -1998. -V.52, N.6. -P.840.

21. Троицкий И.Н. Статистическая теория томографии. М: Радио и связь. -1989. -240с.

22. Mandelbrot B.B. Fractal Geometry of Nature. San-Francisco: Freeman. -1982. -486c.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А А. Севастьянов, С С. Харинцев, М Х. Салахов

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А А. Севастьянов, С С. Харинцев, М Х. Салахов

Neural network’s regularization of solving ill-posed inverse problems of applied spectroscopy

Текст научной работы на тему «Нейросетевая регуляризация решения обратных некорректных задач прикладной спектроскопии»