Лазовская Т.В.1, Тархов Д.А.2
1 Санкт-Петербургский государственный политехнический университет Петра Великого, г.Санкт-
Петербург, ст. преподаватель кафедры Высшая математика, ИПММ, tatianala @ list.ru
2 Санкт-Петербургский государственный политехнический университет Петра Великого, г.Санкт-
Петербург, д.т.н., д.т.н., профессор кафедры Высшая математика, ИПММ, скагк1юу@ gmail. сот
ИСПОЛЬЗОВАНИЕ АСИМПТОТИЧЕСКИХ РЕШЕНИЙ ПРИ ПОСТРОЕНИИ НЕЙРОСЕТЕВОЙ МОДЕЛИ В ЖЕСТКОЙ ЗАДАЧЕ
КЛЮЧЕВЫЕ СЛОВА
Нейронные сети, дифференциальные уравнения, параметризованная математическая модель, двусторонняя асимптотика.
АННОТАЦИЯ
В статье рассматриваются новые подходы к нейросетевому решению параметризованных дифференциальных уравнений на примере модельной задачи. Применяются такие методы, как частичная перегенерация тестовых точек, использование дополнительной информации различных типов, в том числе алгоритм, использующий условия двусторонней асимптотики. Рассмотрены возможности расширения интервала изменения параметра.
Методология Васильева-Тархова [1] построения нейросетевых моделей на основе дифференциальных уравнений и прочих данных различного типа позволяет решать сложные, в том числе некорректные, задачи математической физики. В данной статье рассматриваются параметризованные нейронные сети, позволяющие одновременно решать совокупность задач, зависящих от одного или нескольких параметров, сразу. Апробация новых методов проводилась на одной модельной задаче [2].
Рассмотрим параметризованную задачу Коши
¡у' = -а( y-cos х)}
(у (0 )=0 } (1)
При значении параметра а = 50 и более задача (1) является жесткой в том смысле, что решение ее методом Эйлера нестабильно в окрестности нуля. Таким образом, достаточно ограничиться рассмотрением х£[0,1 ] . Что касается интервала изменения параметра, то рассмотрены как результаты для ранее рассматривавшегося [2,3] интервала а£[0.5,50], так и для расширенного по сравнению с предыдущими исследованиями [2,3] до [0.1, 100].
Приближенное решение задачи ищется в виде выхода искусственной нейронной сети заданной архитектуры
У(х) = Е (х>а>а;),
веса которой {ci, а;}"=1 определяются в процессе минимизации функционала ошибки
т
К у' (У+а, (у (^ ,)-со^, )))2+6 у2 (0).
1=1
Пары тестовых точек (а^) моделируются как равномерно распределенные в двумерной области изменения переменной x и параметра а случайные величины. После нескольких итераций алгоритма оптимизации такие точки выбираются заново. Новый случайный выбор пробных точек на некотором шаге будем называть перегенерацией тестовых точек.
Что касается дополнительных данных, их введение в нейросетевую модель происходит путем добавления в функционал ошибки соответствующих новых слагаемых. Так, в случае точечной информации о решении вида (х^^(х^)) такое дополнительное слагаемое будет иметь
m
вид S1 f (Xj)— y (Xj))2 , где константа S1 >0 означает штрафной вес, выбираемый в
j=i
зависимости от свойств данных или иных условий. Дополнительные данные в виде уравнений учитываются аналогично.
Оптимизация функционала ошибки проводилась по алгоритму, сочетающему RProp и метод облака; точки случайным образом перегенерировались каждые три шага, облако состояло из трех частиц. Выбор задачи позволяет оценить согласованность полученного результата с аналитическим решением уравнения (1).
В предыдущих работах [2,3] были исследованы два типа нейронных сетей для решения задачи с интервалом изменения параметра а равным [0.5, 50]. В качестве базисных функций рассматривались сигмоиды и умноженные на x гауссианы, причем последние изначально удовлетворяют краевому условию задачи (1). Для обеих сетей рассматривались две модели, зависящие от типа дополнительных данных. В первом случае использовалась точечная информация о решении, роль которой играли поточечные решения задачи явным методом Эйлера для значений параметра а равных 5 и 50. Как уже упоминалось, при а = 50 такое решение получается с достаточно большой ошибкой, что позволяет походу исследовать робастность данного метода. Эксперименты с различным сочетанием данных в модели, а также разным количеством функций активации показали, что сеть-персептрон более восприимчива к введению новой информации и требует меньшего числа итераций.
Остановимся более подробно на модели, где в качестве дополнительных данных используется информация в виде уравнений, которые мы получим непосредственно из условия решаемой задачи. Отметим, что при достаточно малых а имеет место приближение
y—а sinx . (2)
Данное асимптотическое условие мы будем учитывать в функционале ошибки, добавив в
m2
него слагаемое вида S2y (xk, ак/M)-ак/M sin xk)2, где M>0 достаточно велико.
k=i
Гетерогенная модель, учитывающая данные обоих типов, была исследована для n=20 базисных функций и показала улучшение результатов по сравнению с базовой. Таким образом, использование даже неточной дополнительной информации позволяет улучшить нейросетевую модель.
Как было отмечено выше, в ходе реализации алгоритма оптимизации происходит полная перегенерация тестовых точек. Если ее не проводить, то нейросетевой метод можно считать аналогом метода, называемого метод коллокаций, где приближение строится для набора фиксированных точек. В статье [3] был введен алгоритм частичной перегенерации тестовых точек. Вводится параметр dt, принимающий любые значения в промежутке от 0 до 1 и отражающий долю точек, фиксирующихся от одной итерации к другой. Например, dt = 0 означает полную перегенерацию (традиционно используемую Васильевым и Тарховым), т. е. все точки заново выбираются случайным образом перед каждой итерацией, dt = 1 соответствует методу коллокаций. Для промежуточных значений параметра используется следующее правило: фиксируется dtm точек из всех m тестовых точек с наибольшими значениями слагаемых в соответствующей сумме функционала ошибки, а остальные перегенерируются случайным образом. При первой итерации во всех случаях точки выбираются так, чтобы они были случайно и равномерно распределены на рассматриваемой области.
Первая группа экспериментов была проведена для нейросетевой модели с параметрами dt = 0.0,0.3,0.5,0.7,1.0, n=20 персептронными базисными функциями, как более восприимчивыми, в случае точечных дополнительных данных. Число тестовых точек m выбиралось равным 20, общее число итераций k=300. Результаты показали, что частичная перегенерация снижает зависимость от начального выбора точек, а также в ряде задач помогает получить более стабильное решение. Другая серия экспериментов исследовала уже модель с гетерогенными данными. Вариация асимптотического условия выражалась в рассмотрении параметра M = 50,100,200, параметр dt изменялся аналогично предыдущим моделям, число тестовых точек m=20, 50. Результаты для модели при M=50 подтвердили гипотезу, что при малом числе тестовых точек целесообразно использовать полную перегенерацию точек ( dt = 0 ). При
этом, выбор достаточно большого числа пробных точек обеспечивает наилучшее приближение решения задачи при их фиксации. Отметим, что при использовании асимптотического условия с параметром М=100, 200 задача (1) становится неклассической. Так, если а0.5, 50] , то
°.005, °.!5] даже при М=100, то есть условие накладывается вне области поиска решения.
Как показали результаты вычислительных экспериментов, в таких случаях предпочтительно выбирать модель с частичной перегенерацией тестовых точек. Уточнение модели при прочих равных наглядно демонстрирует сравнение рис.1 и рис.2.
Рис.1. Нейросетевое приближение (красным) решения задачи (1). Гетерогенная модель с параметрами
а = 0.5, dt=0, xе[0,1 ] , а^[0.5, 50], м=100
Рис.2. Нейросетевое приближение (красным) решения задачи (1). Гетерогенная модель с частичной перегенерацией с параметрами а = 0.5 , dt = 0.3 , xG[ 0,1 ] , аj£[ 0.5, 50], M=100
Расширим теперь интервал изменения параметра а до [0.01, 100] и рассмотрим новый тип алгоритма построения модели, где будут использоваться только асимптотические условия. Для малых а уточним условие, использованное в предыдущей модели, применяя к уравнению задачи (1) метод разложения по малому параметру [4]. Тогда асимптотическое разложение решения, например, третьего порядка будет иметь вид
y @ As1(x,a) := a sinx + a2(cosx — 1) — a3(sinx — x) . (3)
Для больших а , то в качестве малого параметра можно рассматривать 1/ . В этом случае разложение примет форму
у @ cos X
sin x cos x sin x
(4)
а а а
Отметим, что в окрестности нуля разложение (4) не удовлетворяет граничному условию задачи (1). Скорректируем условие следующим образом. Рассматривая в качестве малого параметра саму переменную x, получим вышеупомянутым методом новое разложение
(ах)2 з X3
у @ax---+ (а -а) —.
2 6
Тогда вместо условия (4) будем использовать следующее
у =АХ2(х,СС) = тш
СОЗI ■
кшх соэл: шх ч х
з \
.ах
а
а
а
- (от - а) — б
(5)
Изменения алгоритма естественно вносятся в нейросетевую модель путем модификации исходного функционала ошибки введением дополнительных слагаемых
( т
4X ■ Ж 'тг> - 'X>тг> - ^ XГ-Х^'^ - м2> - + м2))'
- М1 Лх1 )
Рис.3. Ошибка нейросетевого приближения решения задачи (1). Базовая модель с параметрами = 0,
хе[0,1 ], ае[0.01,100].
Рис.4. Ошибка нейросетевого приближения решения задачи (1). Модель двусторонней асимптотики с параметрами = 0 , х£[0,1 ], а£[0.01,100] .
Алгоритм двусторонней асимптотики был опробован для решения задачи (1) с помощью нейросетевой модели с параметрами п = 50, т = 100, k = 100 и уже упомянутого расширенного интервала изменения параметра [0.01,100]. Сравнение результатов по среднему и минимальному значению среднеквадратичной ошибки полученного приближенного решения в
105 равномерно распределенных на соответствующей области точках показало значимую
эффективность асимптотической модели. Трехмерные изображения ошибки на всей области изменения переменной х и параметра а представлены для базовой модели (рис.3) и асимптотической (рис.4), значения оценки с равны 0.12 и 0,11 соответственно.
параметрами dt = 0, х£[0,1 ], а = 0.1, С = 0.07
Рис.6. Нейросетевое приближение (зеленым) решения задачи (1). Базовая модель с параметрами dt = 0 ,
хе[0,1 ], а = 0.1, с = 0.12
1Л
0«
ы
О 2
I ' ' 0.2 ' <М ' 0.6 ' С* ' ¡Л
Рис.7. Нейросетевое приближение (зеленым) решения задачи (1). Модель двусторонней асимптотики с параметрами dt = 0 , х£[0,1 ], а = 100 , С = 0.07
и е. Р4 0.2
о.2 ал се о» 1.о
Рис.8. Нейросетевое приближение (зеленым) решения задачи (1). Базовая модель с параметрами dt = 0 ,
хе[0,1 ], а = 100 , с=0.12
Здесь важно отметить более равномерный характер ошибки для двусторонне-асимптотической модели. Слабыми местами базовой модели являются области малых значений параметра, а также малых значений переменной в комбинации с большими О . Более наглядно этот факт демонстрируют графики приближенных и истинных решений в упомянутых случаях для моделей обоих типов (рис.5-8). Отметим, представлены наилучшие результаты в серии экспериментов.
Итак, мы можем заключить, что нейросетевой подход способен учитывать в приближенной модели дополнительные данные различных типов, приводящие к улучшению результата. Для внесения изменений в модель не требуются значимые изменения в алгоритме. Отметим, рассмотренные в статье подходы естественно обобщаются на системы обыкновенных дифференциальных уравнений, дифференциальные уравнения в частных производных и дифференциальные уравнения более высокого порядка.
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант №14-01-00660).
Литература
1. Васильев А.Н., Тархов Д.А. Нейросетевое моделирование. Принципы. Алгоритмы. Приложения. - СПб.: Изд-во Политехнического университета, 2009. - 528 с.
2. Лазовская Т.В., Тархов Д.А. Об использовании методов нейронных сетей для одного жесткого уравнения первого порядка. - Проблемы информатики в образовании, управлении, экономике и технике: Сб. статей XIV Междунар. научно-техн. конф. - Пенза: ПДЗ. - 2014. -С. 171-175.
3. Лазовская Т.В., Тархов Д.А. Варианты использования дополнительной информации при построении параметризованного нейросетевого решения жесткого дифференциального уравнения. - Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Физико-математические науки. - 2015. - № 2 (218). С. 138-147.
4. Эльсгольц Л.Э. Дифференциальные уравнения и вариационное исчисление. - Наука. - 1969.
5. Тархов Д.А. Нейросетевые модели и алгоритмы. - М.: Радиотехника. - 2014. - 348 с.
6. Васильев А.Н., Тархов Д.А. Построение приближенных нейросетевых моделей по разнородным данным. -Математическое моделирование. 2007. - Т. 19. № 12. - С. 43-51.