Научная статья на тему 'Использование асимптотических решений при построении нейросетевой модели в жесткой задаче'

Использование асимптотических решений при построении нейросетевой модели в жесткой задаче Текст научной статьи по специальности «Математика»

CC BY
92
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ / ПАРАМЕТРИЗОВАННАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / ДВУСТОРОННЯЯ АСИМПТОТИКА

Аннотация научной статьи по математике, автор научной работы — Лазовская Татьяна Валерьевна, Тархов Дмитрий Альбертович

В статье рассматриваются новые подходы к нейросетевому решению параметризованных дифференциальных уравнений на примере модельной задачи. Применяются такие методы, как частичная перегенерация тестовых точек, использование дополнительной информации различных типов, в том числе алгоритм, использующий условия двусторонней асимптотики. Рассмотрены возможности расширения интервала изменения параметра.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лазовская Татьяна Валерьевна, Тархов Дмитрий Альбертович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование асимптотических решений при построении нейросетевой модели в жесткой задаче»

Лазовская Т.В.1, Тархов Д.А.2

1 Санкт-Петербургский государственный политехнический университет Петра Великого, г.Санкт-

Петербург, ст. преподаватель кафедры Высшая математика, ИПММ, tatianala @ list.ru

2 Санкт-Петербургский государственный политехнический университет Петра Великого, г.Санкт-

Петербург, д.т.н., д.т.н., профессор кафедры Высшая математика, ИПММ, скагк1юу@ gmail. сот

ИСПОЛЬЗОВАНИЕ АСИМПТОТИЧЕСКИХ РЕШЕНИЙ ПРИ ПОСТРОЕНИИ НЕЙРОСЕТЕВОЙ МОДЕЛИ В ЖЕСТКОЙ ЗАДАЧЕ

КЛЮЧЕВЫЕ СЛОВА

Нейронные сети, дифференциальные уравнения, параметризованная математическая модель, двусторонняя асимптотика.

АННОТАЦИЯ

В статье рассматриваются новые подходы к нейросетевому решению параметризованных дифференциальных уравнений на примере модельной задачи. Применяются такие методы, как частичная перегенерация тестовых точек, использование дополнительной информации различных типов, в том числе алгоритм, использующий условия двусторонней асимптотики. Рассмотрены возможности расширения интервала изменения параметра.

Методология Васильева-Тархова [1] построения нейросетевых моделей на основе дифференциальных уравнений и прочих данных различного типа позволяет решать сложные, в том числе некорректные, задачи математической физики. В данной статье рассматриваются параметризованные нейронные сети, позволяющие одновременно решать совокупность задач, зависящих от одного или нескольких параметров, сразу. Апробация новых методов проводилась на одной модельной задаче [2].

Рассмотрим параметризованную задачу Коши

¡у' = -а( y-cos х)}

(у (0 )=0 } (1)

При значении параметра а = 50 и более задача (1) является жесткой в том смысле, что решение ее методом Эйлера нестабильно в окрестности нуля. Таким образом, достаточно ограничиться рассмотрением х£[0,1 ] . Что касается интервала изменения параметра, то рассмотрены как результаты для ранее рассматривавшегося [2,3] интервала а£[0.5,50], так и для расширенного по сравнению с предыдущими исследованиями [2,3] до [0.1, 100].

Приближенное решение задачи ищется в виде выхода искусственной нейронной сети заданной архитектуры

У(х) = Е (х>а>а;),

веса которой {ci, а;}"=1 определяются в процессе минимизации функционала ошибки

т

К у' (У+а, (у (^ ,)-со^, )))2+6 у2 (0).

1=1

Пары тестовых точек (а^) моделируются как равномерно распределенные в двумерной области изменения переменной x и параметра а случайные величины. После нескольких итераций алгоритма оптимизации такие точки выбираются заново. Новый случайный выбор пробных точек на некотором шаге будем называть перегенерацией тестовых точек.

Что касается дополнительных данных, их введение в нейросетевую модель происходит путем добавления в функционал ошибки соответствующих новых слагаемых. Так, в случае точечной информации о решении вида (х^^(х^)) такое дополнительное слагаемое будет иметь

m

вид S1 f (Xj)— y (Xj))2 , где константа S1 >0 означает штрафной вес, выбираемый в

j=i

зависимости от свойств данных или иных условий. Дополнительные данные в виде уравнений учитываются аналогично.

Оптимизация функционала ошибки проводилась по алгоритму, сочетающему RProp и метод облака; точки случайным образом перегенерировались каждые три шага, облако состояло из трех частиц. Выбор задачи позволяет оценить согласованность полученного результата с аналитическим решением уравнения (1).

В предыдущих работах [2,3] были исследованы два типа нейронных сетей для решения задачи с интервалом изменения параметра а равным [0.5, 50]. В качестве базисных функций рассматривались сигмоиды и умноженные на x гауссианы, причем последние изначально удовлетворяют краевому условию задачи (1). Для обеих сетей рассматривались две модели, зависящие от типа дополнительных данных. В первом случае использовалась точечная информация о решении, роль которой играли поточечные решения задачи явным методом Эйлера для значений параметра а равных 5 и 50. Как уже упоминалось, при а = 50 такое решение получается с достаточно большой ошибкой, что позволяет походу исследовать робастность данного метода. Эксперименты с различным сочетанием данных в модели, а также разным количеством функций активации показали, что сеть-персептрон более восприимчива к введению новой информации и требует меньшего числа итераций.

Остановимся более подробно на модели, где в качестве дополнительных данных используется информация в виде уравнений, которые мы получим непосредственно из условия решаемой задачи. Отметим, что при достаточно малых а имеет место приближение

y—а sinx . (2)

Данное асимптотическое условие мы будем учитывать в функционале ошибки, добавив в

m2

него слагаемое вида S2y (xk, ак/M)-ак/M sin xk)2, где M>0 достаточно велико.

k=i

Гетерогенная модель, учитывающая данные обоих типов, была исследована для n=20 базисных функций и показала улучшение результатов по сравнению с базовой. Таким образом, использование даже неточной дополнительной информации позволяет улучшить нейросетевую модель.

Как было отмечено выше, в ходе реализации алгоритма оптимизации происходит полная перегенерация тестовых точек. Если ее не проводить, то нейросетевой метод можно считать аналогом метода, называемого метод коллокаций, где приближение строится для набора фиксированных точек. В статье [3] был введен алгоритм частичной перегенерации тестовых точек. Вводится параметр dt, принимающий любые значения в промежутке от 0 до 1 и отражающий долю точек, фиксирующихся от одной итерации к другой. Например, dt = 0 означает полную перегенерацию (традиционно используемую Васильевым и Тарховым), т. е. все точки заново выбираются случайным образом перед каждой итерацией, dt = 1 соответствует методу коллокаций. Для промежуточных значений параметра используется следующее правило: фиксируется dtm точек из всех m тестовых точек с наибольшими значениями слагаемых в соответствующей сумме функционала ошибки, а остальные перегенерируются случайным образом. При первой итерации во всех случаях точки выбираются так, чтобы они были случайно и равномерно распределены на рассматриваемой области.

Первая группа экспериментов была проведена для нейросетевой модели с параметрами dt = 0.0,0.3,0.5,0.7,1.0, n=20 персептронными базисными функциями, как более восприимчивыми, в случае точечных дополнительных данных. Число тестовых точек m выбиралось равным 20, общее число итераций k=300. Результаты показали, что частичная перегенерация снижает зависимость от начального выбора точек, а также в ряде задач помогает получить более стабильное решение. Другая серия экспериментов исследовала уже модель с гетерогенными данными. Вариация асимптотического условия выражалась в рассмотрении параметра M = 50,100,200, параметр dt изменялся аналогично предыдущим моделям, число тестовых точек m=20, 50. Результаты для модели при M=50 подтвердили гипотезу, что при малом числе тестовых точек целесообразно использовать полную перегенерацию точек ( dt = 0 ). При

этом, выбор достаточно большого числа пробных точек обеспечивает наилучшее приближение решения задачи при их фиксации. Отметим, что при использовании асимптотического условия с параметром М=100, 200 задача (1) становится неклассической. Так, если а0.5, 50] , то

°.005, °.!5] даже при М=100, то есть условие накладывается вне области поиска решения.

Как показали результаты вычислительных экспериментов, в таких случаях предпочтительно выбирать модель с частичной перегенерацией тестовых точек. Уточнение модели при прочих равных наглядно демонстрирует сравнение рис.1 и рис.2.

Рис.1. Нейросетевое приближение (красным) решения задачи (1). Гетерогенная модель с параметрами

а = 0.5, dt=0, xе[0,1 ] , а^[0.5, 50], м=100

Рис.2. Нейросетевое приближение (красным) решения задачи (1). Гетерогенная модель с частичной перегенерацией с параметрами а = 0.5 , dt = 0.3 , xG[ 0,1 ] , аj£[ 0.5, 50], M=100

Расширим теперь интервал изменения параметра а до [0.01, 100] и рассмотрим новый тип алгоритма построения модели, где будут использоваться только асимптотические условия. Для малых а уточним условие, использованное в предыдущей модели, применяя к уравнению задачи (1) метод разложения по малому параметру [4]. Тогда асимптотическое разложение решения, например, третьего порядка будет иметь вид

y @ As1(x,a) := a sinx + a2(cosx — 1) — a3(sinx — x) . (3)

Для больших а , то в качестве малого параметра можно рассматривать 1/ . В этом случае разложение примет форму

у @ cos X

sin x cos x sin x

(4)

а а а

Отметим, что в окрестности нуля разложение (4) не удовлетворяет граничному условию задачи (1). Скорректируем условие следующим образом. Рассматривая в качестве малого параметра саму переменную x, получим вышеупомянутым методом новое разложение

(ах)2 з X3

у @ax---+ (а -а) —.

2 6

Тогда вместо условия (4) будем использовать следующее

у =АХ2(х,СС) = тш

СОЗI ■

кшх соэл: шх ч х

з \

.ах

а

а

а

- (от - а) — б

(5)

Изменения алгоритма естественно вносятся в нейросетевую модель путем модификации исходного функционала ошибки введением дополнительных слагаемых

( т

4X ■ Ж 'тг> - 'X>тг> - ^ XГ-Х^'^ - м2> - + м2))'

- М1 Лх1 )

Рис.3. Ошибка нейросетевого приближения решения задачи (1). Базовая модель с параметрами = 0,

хе[0,1 ], ае[0.01,100].

Рис.4. Ошибка нейросетевого приближения решения задачи (1). Модель двусторонней асимптотики с параметрами = 0 , х£[0,1 ], а£[0.01,100] .

Алгоритм двусторонней асимптотики был опробован для решения задачи (1) с помощью нейросетевой модели с параметрами п = 50, т = 100, k = 100 и уже упомянутого расширенного интервала изменения параметра [0.01,100]. Сравнение результатов по среднему и минимальному значению среднеквадратичной ошибки полученного приближенного решения в

105 равномерно распределенных на соответствующей области точках показало значимую

эффективность асимптотической модели. Трехмерные изображения ошибки на всей области изменения переменной х и параметра а представлены для базовой модели (рис.3) и асимптотической (рис.4), значения оценки с равны 0.12 и 0,11 соответственно.

параметрами dt = 0, х£[0,1 ], а = 0.1, С = 0.07

Рис.6. Нейросетевое приближение (зеленым) решения задачи (1). Базовая модель с параметрами dt = 0 ,

хе[0,1 ], а = 0.1, с = 0.12

ы

О 2

I ' ' 0.2 ' <М ' 0.6 ' С* ' ¡Л

Рис.7. Нейросетевое приближение (зеленым) решения задачи (1). Модель двусторонней асимптотики с параметрами dt = 0 , х£[0,1 ], а = 100 , С = 0.07

и е. Р4 0.2

о.2 ал се о» 1.о

Рис.8. Нейросетевое приближение (зеленым) решения задачи (1). Базовая модель с параметрами dt = 0 ,

хе[0,1 ], а = 100 , с=0.12

Здесь важно отметить более равномерный характер ошибки для двусторонне-асимптотической модели. Слабыми местами базовой модели являются области малых значений параметра, а также малых значений переменной в комбинации с большими О . Более наглядно этот факт демонстрируют графики приближенных и истинных решений в упомянутых случаях для моделей обоих типов (рис.5-8). Отметим, представлены наилучшие результаты в серии экспериментов.

Итак, мы можем заключить, что нейросетевой подход способен учитывать в приближенной модели дополнительные данные различных типов, приводящие к улучшению результата. Для внесения изменений в модель не требуются значимые изменения в алгоритме. Отметим, рассмотренные в статье подходы естественно обобщаются на системы обыкновенных дифференциальных уравнений, дифференциальные уравнения в частных производных и дифференциальные уравнения более высокого порядка.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант №14-01-00660).

Литература

1. Васильев А.Н., Тархов Д.А. Нейросетевое моделирование. Принципы. Алгоритмы. Приложения. - СПб.: Изд-во Политехнического университета, 2009. - 528 с.

2. Лазовская Т.В., Тархов Д.А. Об использовании методов нейронных сетей для одного жесткого уравнения первого порядка. - Проблемы информатики в образовании, управлении, экономике и технике: Сб. статей XIV Междунар. научно-техн. конф. - Пенза: ПДЗ. - 2014. -С. 171-175.

3. Лазовская Т.В., Тархов Д.А. Варианты использования дополнительной информации при построении параметризованного нейросетевого решения жесткого дифференциального уравнения. - Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Физико-математические науки. - 2015. - № 2 (218). С. 138-147.

4. Эльсгольц Л.Э. Дифференциальные уравнения и вариационное исчисление. - Наука. - 1969.

5. Тархов Д.А. Нейросетевые модели и алгоритмы. - М.: Радиотехника. - 2014. - 348 с.

6. Васильев А.Н., Тархов Д.А. Построение приближенных нейросетевых моделей по разнородным данным. -Математическое моделирование. 2007. - Т. 19. № 12. - С. 43-51.

i Надоели баннеры? Вы всегда можете отключить рекламу.