НЕЙРОННЫЕ СЕТИ ДЛЯ ЭКСТРАПОЛЯЦИИ ВРЕМЕННЫХ РЯДОВ

Толстых Виктор Николаевич

Сс1: 10.36724/2409-5419-2023-15-6-4-11

НЕЙРОННЫЕ СЕТИ ДЛЯ ЭКСТРАПОЛЯЦИИ ВРЕМЕННЫХ РЯДОВ

ТОЛСТЫХ АННОТАЦИЯ

Виктор Николаевич1 Предлагается использование новых типов нейронов для решения задачи

прогнозирования временных рядов. Рассматриваются существующие методы решения - искусственные нейронные сети и их аналоги, базирующиеся на идее группирования аргументов. Отмечены их достоинства и недостатки. Показано, что искусственные нейронные сети позволяют делать прогнозы, но без экстраполяции - с ней нейронные сети справляются плохо. Показано, что метод группирования аргументов более приспособлен для задач экстраполяции, хотя, и к нему есть вопросы. Цель исследования: Определение возможности изменения архитектуры искусственных нейронных сетей, чтобы адаптировать их для задач прогноза. Методы: Исследуются способы соединения перечисленных решений детерминистских и пошаговой оптимизации для создания нейросетей следующего поколения. Результаты: Приведены расчетные графики, демонстрирующие, что качество экстраполяции у алгебраических функций выше, чем у нейросетей, но у них тоже есть слабые места. Также показано, что в нейросетях можно использовать нейроны на рациональных функциях вместо сверточных нейронов, которые, сохраняя общую структуру нейросети, придают ей возможность экстраполировать поведение временного ряда. Практическая значимость: Решения задачи экстраполяции временных рядов имеет большое практическое значение для задач прогноза, который касается буквально всех сфер нашей жизни: от финансовых рынков до беспилотного управления летательными аппаратами - везде, где нужно принимать решение с упреждением. Обсуждаются перспективы использования нейросетей нового типа для создания механизмов с искусственным интеллектом, способным прогнозировать свои действия, в том числе за пределами земной атмосферы.

Сведения об авторе:

1 к.т.н., доцент кафедры инфокоммуникационных технологий и связи Государственного университета

аэрокосмического приборостроения, КЛЮЧЕВЫЕ СЛ°ВА: нейронные сеm, групповой учет аргументов,

Санкт-Петербург-, Россия рациональные функции, прогноз временных рядов, плотные подмножества.

Для цитирования: ТолстыхВ.Н. Нейронные сети для экстраполяции временных рядов // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 6. С. 4-11. Сс1: 10.36724/2409-5419-2023-15-6-4-11

Введение

Технологии искусственных нейронных сетей1 (ИНС или нейросетей), как главной составляющей искусственного интеллекта, активно развиваются и, несомненно, являются одним из двигателей прогресса. Причем, основное развитие идет в направлении кластеризации, классификации объектов и распознавания образов. Задачи аппроксимации и тем более экстраполяции [1] пользуются существенно меньшей популярностью. Более полувека нейронные сети, как новое направление так называемых коннекционистских2 (иначе коннективистских) методов, в отличие от привычных детерминистических, были скорее экзотикой, чем полезным инструментом. Но, потом произошла революция в развитии компьютерной техники, стимулированной потребностями игровой и медиа индустрии.

Компьютеры стали мощнее, появились видеокарты высокой производительности, которые позволили производить не только быстрый параллельный расчет шейдеров для трехмерных объектов в компьютерных играх, но и выполнять другие задачи, в том числе научные и коммерческие (в областях астрофизики, динамики жидкостей, молекулярной динамики, биоинформатики, томографии, майнинга биткоинов и др.), работающие на принципе распараллеливания вычислений. Структура многоуровневых нейронных сетей с их тензорной организацией данных, ориентированных на параллельные вычисления, идеально вписалась в новые возможности. Появление примерно в то же время алгоритма глубокого обучения3 (deep machine learning) с обратным распространением ошибки (error backpropagation algorithm) позволило производить эффективное обучение многоуровневых нейронных сетей. Область применения ИНС постоянно расширяется, вплоть до искусной имитации искусственного интеллекта с возможностью прохождения теста Тьюринга «человек-машина»4.

Современные ИНС используют многопараметрические модели, включающие десятки миллионов параметров и они эффективно решают задачи кластеризации и классификации, проводя многомерную оптимизацию параметров в координатных пространствах размерностью в многие миллионы. При этом, для задач регрессии или, что то же самое, задач аппроксимации, нейросети не очень подходят. И тем более, их успехи не замечены в области экстраполяции данных. В отдельных случаях всё ещё надежнее использовать метод Гаусса решения переопределенных систем уравнений, который известен по учебникам как метод наименьших квадратов.

«Ахиллесовой пятой» ИНС является их долгое обучение, затем дообучение, а также переобучение. Пока что выход

находят в предварительном обучении нейронных сетей на огромном количестве образцов, которые регулярно проводят крупные высокотехнологичные компании, такие как Google, Microsoft идр.В том числе и через соревнование дата-сайен-тистов на регулярно организуемом корпорацией Google конкурсе Кэггл «Kaggle Competitions». Предварительно обученная нейросеть - это массив из огромного числа весовых коэффициентов, компонентов начального вектора спуска для локальной сети, ориентированной на «местные условия». Такая нейросеть обучается на представительном наборе из примерно 1000 изображений в течение долгого времени на сверхмощных компьютерах. После чего она может «дообучаться применению к местным условиям» уже на менее мощных компьютерах за меньшее время. Но, и при таких «тепличных» условиях обучение занимает часы. То есть, долго, что во многих случаях крайне неудобно. Особенно если речь идет об изолированных компьютеризованных устройствах, не имеющих доступа к большим компьютерам или не имеющих возможности совершать дообучение на месте.

Мы не можем всегда и во всём полагаться на поддержку крупных зарубежных компаний, особенно если речь идет о космосе, спутниках и тем более других планетах, куда огромным компьютерам доступа нет - нужны другие, более компактные решения.

Метод Гаусса и пошаговая оптимизация

Формально, метод Гаусса предназначен для решения задачи интерполяции в условиях, когда число точек в данных превосходит число параметров (обычно для алгебраического многочлена), что приводит к переопределенной системе линейных уравнений относительно неизвестных параметров. В таком случае, интерполяция переходит в аппроксимацию, то есть в приближенное решение. Из практики известно, что метод Гаусса хорошо подходит для задач аппроксимации многочленами младших степеней на ограниченном интервале I (в том числе многомерном I™) данных — не больше третьей степени. Для задач с высокой степенью изменчивости данных на большом интервале применяют различные алгоритмы локальной аппроксимации с последующей их «склейкой» функциями вида g (l - g), где g - обычно дважды дифференцируемая функция, гладко спадающая на отрезке от единицы до нуля. Примером такой функции может быть g(t) = cos2(t-^/2) или обратная «сигмоида» g(t) = 1 - 1/(1 + exp(-t)). Среди алгоритмов с более сложной организацией искусственных нейронов наиболее перспективным можно назвать почти забытый5 метод группового учета аргументов (МГУА) [2, 3],

1 Искусственная нейронная сеть - это сложная дифференцируемая функция, задающая отображение из исходного признакового пространства в пространство ответов, все параметры которой могут настраиваться одновременно и взаимосвязанно

2 В когнитивистике коннекционизм - это подход к изучению познавательных процессов, основывающийся на предположении о том, что система (такая как мозг) оперирует так, как будто она состоит из сети узлов, кавдый из которых в определенный момент времени имеет определенный уровень активации

3 Алгоритм глубокого обучения - это совокупность методов машинного обу-

чения (с учителем, с частичным привлечением учителя, без учителя, с под-

креплением), основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи

4 Тест, предложенный Тьюрингом, - это мысленный эксперимент, заключающийся в том, что некий собеседник-исследователь, взаимодействуя либо с машиной, претендующей на обладание искусственным интеллектом, либо с человеком, должен определить, с кем из них он взаимодействует. Согласно гипотезе Тьюринга, машина, которую собеседник-исследователь не сможет отличить от человека, обладает искусственным интеллектом.

5 В последние годы в научных публикациях наблюдается возобновление интереса к этому методу, в основном, как к альтернативе нейросетям или параллельному методу коннекционизма.

разработанный в нашей стране ещё в далекие семидесятые годы6. Метод изначально предназначался для многомерной аппроксимации частными моделями - многочленами, с группированием их значений в новые аргументы. Которые, в свою очередь, подавались на вход моделям следующего ряда (так в

[3]) и так далее. Этот подход очень похож на многослойные нейронные сети со встроенным алгоритмом дифференцирования суперпозиции функций7.

В многомерном случае используются матрицы Якоби. Производной от суперпозиции матриц будет их произведение

[4], как способом подбора или обучения коэффициентов моделей нейросети в обратном порядке от ряда к ряду - то есть, «back propagation» [5]. С тех пор метод много раз изменялся как самим автором, так и его последователями [6, 7]. Его наследием является ставшее традиционным для нейронных сетей разбиение всего множества данныхХна обучающую Xl и проверочную Хг выборки. За счет чего устраняется эффект «переобучения», когда модель работает на одних данных и не работает на других. Также еще в 1971-м году был применен метод обучения восьмирядной (аналог восьмислойной) нейросети МГУА методом, позднее получившим название метода «глубокого обучения». В 2006 году этот метод был переизобретен (впервые применен на конкурсе Kaggle8) и использован для обучения ИНС. С тех пор в технологии нейросетей этот метод доминирует9.

В отличие от нейронных сетей, изначально, МГУА разрабатывался для аппроксимации (аналитического моделирования) временных процессов (все переменные в модели изначально параметризованы переменной времени t), в основном, с целью экстраполяции, то есть прогноза поведения динамической многопараметрической системы без накопления опыта. Известно, что многочлены высоких степеней для экстраполяции подходят не лучшим образом. Поэтому, в методе генерируются частные модели полного многочлена (Колмо-горова-Габора [7]) (см. 3), на отдельных участках-интервалах с переменными = xtf), i = l,...,n. Многочлены выбираются младших степеней, не выше третьей.

Частные модели строятся методом Гаусса на обучающих выборках и проверяются на проверочных. Из прошедших проверку моделей строятся узлы полиномиальной модели xi =fi(x) первого уровня. Далее значения (вектора) xi становятся новыми переменными для модели x2 = f(xi) следующего ряда. Процесс группирования данных заканчивается тогда, когда модель начинает работать должным образом. Метод показал свою работоспособность, но отсутствие должной поддержки, как организационной, так и финансовой, не позволило ему развиться до уровня технологии сравнимого с современными ИНС [8].

Плотные семейства функций

Следующий вопрос связан с выбором аппроксимирующего семейства: насколько мы ограничены использованием

многочленов? Если рассматривать множество непрерывных функций Са на п-мерном кубе как топологическое пространство с базой, индуцированной выбранной метрикой, то можно определить всюду плотность10 для различных семейств многопараметрических функций, включая многочлены, ряды Фурье и, в том числе, искусственные нейронные сети. Развитие компьютерной техники отодвинуло на задний план аналитические методы, выдвинув вперед методы пошаговой оптимизации выбранной многопараметрической модели, имитирующей нейронные связи мозга. Вместе с тем, ничто не мешает функцию нейрона сделать изначально нелинейной: линейность нейронной модели - это не более чем дань традиции в моделировании естественного нейрона, с которого всё началось [9].

Как может выглядеть более совершенная модель искусственного нейрона в будущем? Сейчас формальная модель трехслойного перцептрона выглядит следующим образом:

(

f(w,x) = £<т £(w}x} + b)

V j=

(1)

Здесь х - да-мерный вектор аргумента, w - да-мерный вектор весовых параметров /-го нейрона скрытого слоя, Ь - коэффициент смещения, т - размерность пространства (тензорного пространства в терминологии нейросетей), М - число нейронов на скрытом слое, с - активаторная или активацион-ная функция, которая может быть разных видов. Наиболее часто используют два вида этих функций - ^-образная «сигмо-ида» для сверточных нейросетей

'( x ) =

1

1 + е~

(2)

и кусочно-линейная ReLu для полносвязных нейросетей.

io, x < о

'( x ) =

x, x > 0

Аргумент активатора «сигма» (2) является линейной частью полного многочлена от т переменных. Полный многочлен степени п может выполнять ту же функцию, но без привлечения активационной функции. Его формальная запись такая

p xn ) _ S/C/xi1 x22--xn"

(3)

где I = (/1 ,/2,... ,/п) - мультииндекс, а с - коэффициенты многочлена, зависящие от мультииндекса. Ввиду того, что все коэффициенты многочлена имеют линейное вхождение, градиент такой модели, необходимый для корректировки весов, быстро вычисляется. Аппроксимирующие свойства полиномиальной модели хорошо изучены - у неё есть как достоинства, так и недостатки. Применение метода градиентного спуска также стало дальнейшим развитием метода группового учета аргументов, он пришел на смену методу

x

6 Первый общий рабочий алгоритм для глубоких многослойных перцептро-нов был опубликован в книге советских учёных А. Г. Ивахненко и В. Г. Лапы «Кибернетические предсказывающие устройства» в 1965 г.

7 Цепное правило или правило дифференцирования сложной функции позволяет вычислить производную композиции двух и более функций на основе

индивидуальных производных.

88 Kaggle - система организации конкурсов по исследованию данных, а также

социальная сеть специалистов по обработке данных и машинному обучению

9 В настоящее время чаще используют разделение на обучающую, проверочную и тестовую наборы данных

10 Пусть дано топологическое пространство X и два его подмножества А, В с X. Множество А называется плотным на множестве В если любая окрестность любой точки из В содержит хотя бы одну точку множества А. Множество А называется всюду плотным если оно плотно в X.

наименьших квадратов. А, поскольку градиенты не всегда можно легко вычислить (при использовании нетрадиционных нейронов), то и другие методы оптимизации по критерию ошибки также используются [9,10,11].

Всюду плотные семейства на C перечисленными тремя семействами не исчерпываются. Очевидное дополнение списка плотных семейств - это семейство рациональных функций F™ = Gmn/Hmn 11, где m - размерность векторного пространства аргумента, a n - степень многочленов G иH. То же самое можно сказать про семейство тригонометрических функций Тп. Оба семейства, очевидно, всюду плотны на Cn, поскольку они содержат в качестве подмножеств либо многочлены, либо ряды Фурье [12]. Проблема для перехода на эти семейства в задачах регрессии состоит в том, что они содержат нелинейное вхождение неопределенных коэффициентов. В первом случае это коэффициенты знаменателя (b¡), во втором - период (T) и смещение Видимо, данное обстоятельство привело к тому, что эти семейства в задачах регрессии никак не используются: ни в методе наименьших квадратов, ни в методе градиентного спуска. Вместе с тем, для градиентного спуска таких семейств есть решение через оптимизацию с запаздывающим градиентом. Пусть

f (x) = g (x)/h(x) = (a0 + Ú1 x +...)/(b0 + b1x +...) .

Тогда градиент ищется в виде ковектора12 длины 2n:

Г f'

J ча f'i

vf = ;;

Jba f

Градиент (4) рациональной функции имеет достаточно простой для вычисления вид. Главное отличие от модели с линейным вхождением коэффициентов в том, что в вычислении градиента на к-м шаге оптимизации участвуют коэффициенты из k-1-го шага. То есть, градиент корректирует коэффициенты ak и bk функции/с отставанием и это надо учитывать при составлении алгоритма программы. При небольшом шаге оптимизации не имеет принципиального значения, используем ли мы для вычисления градиента значения коэффициентов на этом или на предыдущем шаге. Второе отличие заключается в том, что случайный выбор начальной точки спуска для таких моделей не является лучшим выбором.

Большой плюс в использовании рациональных функций для задач регрессии заключается в том, что их поведение за границами интервала обучения контролируемо, независимо от общего количества коэффициентов в числителе и знаменателе. Второй плюс модели в виде рациональной функции состоит в том, что при заданной степени многочленов, число

11 Рациональная или дробно-рациональная функция - это дробь, в числителе и знаменателе которой находятся многочлены.

12 Векторы и ковекторы различают по тому, какое из представлений для них естественно. Так, для ковекторов - например, для градиента - естественно разложение по дуальному базису, так как их естественная свёртка с обычным вектором осуществляется без участия метрики

коэффициентов удваивается, что делает модель более изменчивой. То есть, рациональная функция степени п аппроксимирует на отрезке не хуже (по экспериментальному опыту, всегда лучше), чем многочлен в два раза большей степени 2п. И третий несомненный плюс в том, что её экстраполяцион-ные, то есть прогнозные, свойства несравненно лучше, чем у многочленов.

-0.4 -0.2 0.0 0.2 0.4

Рис. 1. Сравнение результатов аппроксимации данных многочленом (1)и рациональной функцией (2)

Обучение моделей для рис.1 проходило в равных условиях с использованием многочлена и рациональной функции разной степени, но с равным числом параметров за равное число итераций. Преимущество последней модели очевидно. Помимо полиномов и рациональных функций, существуют и другие плотные на интервале (в том числе многомерном) семейства, исследование свойств которых ещё впереди.

Вместе с тем, эксперимент показал, что для частных случаев можно пользоваться плотными подмножествами не на всем множестве непрерывных функций С, а на его представительном подмножестве В с С [13]. К примеру, если известно, что числовая зависимость, такая как на рисунке 1, то есть гаус-соида13 с неизвестными параметрами, то можно искать модель среди семейства гауссоид О с нелинейным вхождением параметров О(а, 0 = аоехр(-(/ + а\)21 аг) тем же способом каким моделировалась гауссоида на рисунке. В статье [14] приведен пример «подгонки» функциональной модели с нелинейными параметрами для аппроксимации данных резонатора Фабри-Перо14. Рациональные функции, как плотное подмножество алгебраических функций, хорошо аппроксимируют не только в одномерном, но и в многомерном случае с многими переменными. Вопрос о многомерной аппроксимации другими семействами в рамках данной работы не рассматривается.

Вопрос о построении частных моделей

Применяемый в методе группового учета аргументов алгоритм генерации частных многочленов нельзя назвать

13 Гауссоида - неформальное название кривой плотности нормального распределения Гаусса, имеющей куполообразную форму как на рисунке. Традиционный объект при моделировании

14 Резонатор Фабри-Перо состоит их двух соосных параллельных зеркал, между которыми образуется стоячая оптическая волна.

1/ h x/h

- g/h 2 - xg/h2

(4)

совершенным - он не перебирает все возможные модели и более того, не организует направленный поиск лучших моделей [3, 4]. Вместо этого он организует автоматический перебор большого количества частных моделей, большая часть которых отбрасывается в процессе обучения (на самом деле, вместо пошагового обучения используется метод наименьших квадратов). При этом, на их проверку тратится значительное время. С другой стороны, саму идею уменьшения числа параметров стоит отметить, как перспективную. Даже при обучении нейронных сетей можно заметить, что далеко не все весовые коэффициенты участвуют в обучении - значения некоторых практически не изменяются. Это не значит, что их надо игнорировать, поскольку в противном случае модель становится неплотной и может один раз сработать, а в дальнейшем выдавать неверные результаты. Более перспективным выглядит направленный поиск частных моделей с редукцией числа параметров. Приведем простой пример: пусть известно (по результатам предыдущих шагов генерации с увеличением степени многочлена), что модель проходит (или близко проходит) через точку (хо, уо). Аппроксимация (для простоты) функцией второй степени у = ао + а\х + аХ потребует определения трёх параметров а0, аь а2. Ставим условие прохода через точкууо = а0 + ах + а2х20 и получаем уравнение у = уо + а\(х - хо) + а2(х2 - х2о) относительно параметров. Их число сократилось до двух - а\, аг. И оба они входят в модель линейно. Обобщая этот подход, можно сказать, что фиксация к точек уменьшает число неопределенных параметров на к. Это же относится и к многомерным зависимостям. Из этого следует, что можно построить эффективный алгоритм быстрого направленного поиска частных моделей, без ухудшения аппроксимирующих свойств и без генерации лишних моделей.

Другой метод построения частных моделей состоит в редукции числа переменных на многомерном интервале I". Переменные эти, как правило, не равноценные и образуют не реальное евклидово пространство с евклидовой метрикой, а, скорее «координатное» пространство, наделенное неизотропностью, прямо зависящей от координатных осей. Из этого следует, что локально искомая функция реально зависит от небольшого числа переменных, оставляя остальные примерно константами - частные производные по этим координатам равны нулю и матрица Якоби15 в общем случае будет разреженной, что может привести к проблемам с плохой обусловленностью16. Поэтому поиск зависимостей следует начинать с «прогулок» вдоль всех осей. Если вдоль какой-то оси изменения нет или изменения незначительные, то из полного полинома (3) эта переменная убирается - так можно перейти к маломерным моделям.

Что могут несвёрточные нейроны

Поскольку задачи у ИНС и МГУА были изначально разные, возможность ИНС решать задачи регрессии и тем более задачи временного прогноза, не является их сильной стороной.

15 Матрица Якоби - матрица всех частных производных функции многих переменных

16 Плохо обусловленная система линейных алгебраических уравнений - это

система, малое изменение исходных данных которой приводит к большому изменению решения.

Формально говоря, нейросети также могут прогнозировать, но это вариант распознавания событий или вариантов поведения по образцам из прошлого, как в техническом анализе [15, 16]. То есть, это не экстраполяция с точки зрения математики. Посмотрим, что получится, если заставить простую нейронную

сеть аппроксимировать. Выглядеть эта сеть будет так:

"

/(а,х)=Е(2'ст(а0к + а\кх)-0 • (5)

к=1

Здесь а0 и а\ - пара коэффициентов, образующих линейную часть многочлена, " - количество этих пар, которое также является числом нейронов на скрытом слое нейросети. Удвоение сигмы (в-образная активационная функция) с вычитанием единицы нужно для растяжения её на интервал от минус единицы до единицы по оси ординат. В противном случае, нейросеть осуществляет регрессию очень долго и неаккуратно. Выглядит новая нейросеть (5) несколько необычно, но, в рамках концепции нейросетей: скрытый слой состоит из набора нейронов, каждый из которых содержит линейную зависимость под функцией активации. Коэффициент ао в данном случае используется вместо коэффициента смещения й в формуле (1) и, большому счету, на результат какого-то значимого влияния не оказывает. Входной вектор состоит всего из одного элемента - х, что тоже необычно. Обучающий дата-сет17 прежний. В данном случае, это набор из тридцати точек функции (или пары функций) плотности нормального распределения, сдвинутого по оси абсцисс. Такая сеть действительно хорошо и быстро интерполирует и аппроксимирует числовые зависимости. В этом она может создать конкуренцию рациональным функциям.

Нейронная сеть с достаточным количеством нейронов справляется с регрессией на интервале обучения, но так ли хорошо она справится с задачей экстраполяции временного ряда? То есть, за пределами интервала обучения. Разделим всю последовательность данных пополам на обучающую (0.5 - 0) и прогнозную (0 - 0.5) выборки.

-0.4 -0.2 0.0 0.2 0.4

Рис. 2. Аппроксимация модели нейросетью (1)и рациональной функцией (2) с использованием для обучения только левой части датасета от-0.5 доО

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

17 Датасет - принятое в технологии название для последовательности данных, выборки.

Прогнозную выборку также можно считать проверочной выборкой, с той поправкой, что она находится вне полуинтервала обучения. Сравним её прогноз с прогнозом рациональной функции. На рисунке 2 частный, но типичный результат.

Рисунок 2 показывает, что с экстраполяцией нейронная сеть справляется не лучшим образом, в пределах 10%. В то время как рациональная функция с ней справляется намного лучше, хотя и медленнее.

Нейросети с несвёрточиыми нейронами

В свете сказанного, вполне естественно построить нейросеть с нейронами, содержащими нелинейные функции вместо традиционной свертки под активационной функцией (или без неё) и посмотреть, что из этого получится.

/(а,х) = 12а0 + ахх + а2х21 -1| (6)

На рисунке 3 один характерный случай экстраполяции довольно простой числовой зависимости нейросетью вида (6). В данном случае, линейная часть многочлена заменена многочленом второй степени, то есть параболой.

-0.4 -О.? 0-0 0.2 0.4

Рис. 3. Аппроксимация модели нейросетью с новыми нейронами на многочленах. Обучающая выборка на интервале от -0.5 доО

Как и ожидалось, результат прогноза оказался по качеству немного лучше - примерно 20-30%. При этом, «хвост» экстраполяции непременно задирается вверх или вниз - такова неустранимая особенность регрессии с участием многочленов. Чем больше степень многочлена, тем этот эффект значительнее.

Для сравнения, результаты экстраполяций рациональными функциями на том же интервале обучения, показаны на рисунке 4. Поэтому их интереснее использовать вместо многочленов, как при самостоятельной экстраполяции, так и в составе нейросетей. Качество прогноза у рациональных функций принципиально выше - от 40% и далее.

Прежде чем строить нейронные сети с несверточными18 нейронами на этих функциях, рассмотрим зачем они могут понадобиться, какие новые задачи они могут помочь решать, как могут выглядеть и нужны ли они вообще.

18 Несверточные нейроны - это те, которые содержат под активационной функцией нелинейную зависимость от переменных. Разделяют сверточные и

0.3-

C.6-0.4 ■

'Г I

D.Q-

IJ.Jtl (124 Ciif) 015 0.1D № "jWI

Рис. 4. Аппроксимация числовых последовательностей рациональной функцией. Обучающая выборка на интервале от-0.5 доО

Какие бывают задачи прогноза

Многим из нас жизненно необходимо знать прогноз поведения окружающей среды, включающей в себя много значимых факторов, зависящих от времени. Начиная от сезонного спроса на товары в магазинах или поведения биржевых курсов, до появления геомагнитных бурь или сдвигов земной коры. Есть процессы, характеризуемые сезонностью - они имеют циклический характер и для их моделирования целесообразно использовать периодические функции. Есть процессы, которые характеризуются волатильностью, то есть, плохо предсказуемой изменчивостью - для их прогноза в финансовых сферах разработан технический анализ [15,16], позволяющий делать краткосрочный прогноз, а трейдерам оперативно принимать решение. Есть также практически не предсказуемые процессы, происходящие редко, но при том резко изменяющие поведение в данных.

Для всех этих случаев подходят разные виды прогноза. И прогнозы нужны всегда. Даже для последнего очевидно непредсказуемого случая есть польза от прогноза: резкое расхождение с прогнозом говорит о том, что что-то произошло и надо обратить на это событие особое внимание. Это повод для сигнала «alarm». С прогнозом «по образцам» нейросети уже успешно справляются, но для прогноза без образцов по текущей изменчивости данных нужны нейроны нового типа, работающие на экстраполяцию. При этом, стоит учитывать, что «правильный прогноз» - это не тот прогноз, который обязательно сбудется, а тот, при учете которого мы примем правильное решение.

Если ситуативный прогноз, которым пользуются нейронные сети, оперирует узнаванием уже известных ситуаций, то прогноз экстраполяционный позволяет предсказать как наступление уже известной ситуации, так и ситуации новой: то ли всё идет как положено, то ли впереди есть что-то новое, неизученное. Представим марсоход, который потерял связь с Землей, но продолжает действовать по плану. Это скорее философское, чем техническое, умозаключение позволяет нам с нашим человеческим опытом быть экспертами в том какая экстраполяция хороша и какая не очень. Особенно, если прогнозной выборки нам не предоставлено. Наш интуитивный прогноз - это тоже работа нейронов. Нейронов мозга. Тут нет каких-то строгих правил - мы буквально «чувствуем», что будет дальше. Интуиция, опыт.

полносвязные сети, которые отличаются активационной функцией, но под ней всё равно свертка ковектора весов с вектором аргумента.

Перспективы развития направления

До сих пор мы разбирали поведение аппроксимирующих функций на коротких интервалах и нашли, что нейросети хороши для интерполяции и плохи для экстраполяции. Но, даже для аппроксимации на больших интервалах с большой изменчивостью в данных, алгебраические19 функции, включающие многочлены и рациональные функции, малопригодны. Поэтому, использование нейросетей и, в целом, коннекционист-ских инструментов решения - лучшее, что у нас есть. При этом, добавление нейронов нового типа не меняют концепцию нейросетей, но могут привнести в неё нечто новое.

1.0 0.5 0.0

-0,5 -1.0

Рис. 5. Сравнение конвенциональной сети на свертках (1) и сети на рациональных функциях (2) четвертой степени по трем испытаниям

На рисунке 5 видно, что экстраполяция нейросети на новых нейронах (2) сгруппировалась вокруг прогнозной выборки, а в одном испытании даже прошла по ней. В то же время нейросеть на свертках (1) дала очень кроткий и ненадёжный прогноз. Возможно использование и других нелинейных функций, потребность в которых может возникнуть. Человеческий мозг состоит не только из нейронов - он сложнее устроен. К тому же, самих нейронов насчитывается более полусотни разных типов, из которых 10-20 миллиардов в коре головного мозга и 55-70 миллиардов нейронов в мозжечке [17, 18]. Если продолжать идею коннекционизма, то искусственные нейроны тоже понадобится разнообразить, чтобы они могли решать более широкий круг задач.

Заключение

Организация архитектуры нейросетей с нестандартными нейронами, основанными на нелинейных функциях - это направление будущих исследований. А также в перспективе создание более мощных и «умных» вычислительных систем, способных прогнозировать поведение окружающего мира -это как раз то, что свойственно практическим всем живым существам нашей планеты.

Вычислительные эксперименты [13,14] показали перспективность предлагаемых вариантов улучшения существующих методов как классификации и регрессии, так и экстраполяции, особенно на малоразмерных данных с высокой изменчивостью значений аргумента. Практическую ценность развития этого направления развития нейросетей покажет будущее.

Литература

1. Alain Le Mehaute, Christophe Rabut, Larry L. Schumaker. Surface Fitting and Multiresolution Methods, 1997.

2. Ивахненко А.Г. Самообучающиеся системы распознавания и автома-тическогоуправления. К.: Техшка, 1969.

3. Ивахненко А.Г., Лапа В.Г. Кибернетические предсказывающие устройства, 1965.

4. Вычисление матрицы Якоби нейронной сети на Python, https://questu.ru/articles/396587/, [дата обращения 11.04.2023]

5. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. СПб. ПИТЕР, 2020.

6. Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.:ВЦ РАН, 2010. 60 с.

7. Галушкин А.И. Синтез многослойных систем распознавания образов. М.: Энергия, 1974.

8. Что такое нейронные сети, что они могут, и как написать нейронную сеть на Python? // https://neural-university.ru/neural-networks-basics, [дата обращения 11.04.2023].

9. Аттетков А.В., Галкин С.В., Зарубин B.C. Методы оптимизации. М.: Изд. МГТУ им. Баумана, 2001.

10. Hager W.W., Zhang H. A new conjugate gradient method with guaranteed descent and an efficient line search 11 SIAM Journal on Optimization, no. 16. 2005).

11. Афанасьев B.H., Юзбашев M.M. Анализ временных рядов и прогнозирование. М.: Финансы и статистика, Инфра-М, 2010.

12. Гатин, П.А. Семенова В.Н. Исследование циклических временных рядов с переменной цикличностью методом рядов Фурье // Вестник ДИТИ, 2018.

13. Victor Tolstykh, Irina Tolstykh. Generalization of Artificial Neuron 11 Proc. of the Int. Workshop "Soft Computing and the Measurements", 2000.

14. Толстых B.H., Толстых И.В., Ульянова Н.С. Исследование методов аппроксимации с нелинейными параметрами// Proc. of the Int. Workshop "Soft Computing and the Measurements", 2002.

15. Майкл. H. Кан. Технический анализ. «ПИТЕР», 2003.

16. Michael N. Kahn. Technical Analysis. Plain and Simple. 2006, 2009, 2010 editions.

17. фон Бартельд K.C., Бани Дж., Эркулано-Хоузел С. Поиск истинного количества нейронов и глиальных клеток в человеческом мозге: обзор 150-летнего подсчета клеток // Журнал сравнительной неврологии. 2016, по. 524(18), pp. 3865-3895.

18. von Bartheld CS, Bahney J, Herculano-Houzel S. The Cellular Composition and Glia-Neuron Ratio in the Spinal Cord of a Human and a Nonhuman Primate: Comparison with Other Species and Brain Regions 11 The Anatomical Record Advances in Integrative Anatomy and Evolutionary Biology, no. 301(4). D01:10.1002/ar.23728

19. Толстых B.H. Перцептрон, нейронная сеть. Что дальше? ПАРАДИГМА, СПб, 2022.

20. Элис Джен, Аманда Казари. Машинное обучение. Конструирование признаков. БОМБОРА, 2022.

21. Стивен Скиена. Алгоритмы. Руководство по разработке. Springer, БХВ-Петербург.

22. Bernard Friedman. Principles and Technologies of Applied Mathematics. Dover Publications Inc., NY, 1990.

23. Mark Nixon, Alberto Aquado. Feature Extraction & Image Processing. Newnes, 2003.

1 / J ' 1

2

\ 2

\ 1

-0.4 -0.2 0.0 0.2 0.4

19 Алгебраические функции, помимо четырех арифметических операций, как в случае рациональных функций, или трёх как у многочленов, включают операции возведения в целую степень и извлечения целого корня.

NEURAL NETWORKS FOR A TIME SERIES EXTRAPOLATION

VIKTOR N.TOLSTYKH

St. Petersburg, Russia

KEYWORDS: neural networks, group method of data handling, rational functions, time series forecasting, dense subsets

ABSTRACT

Introduction: A new types of neurons to solve the problem of time series forecasting is proposed. The existing solutions are considered including artificial neural networks and their analogues, based on arguments grouping. It's shown that step-by-step optimization methods such as conventional neural networks make the forecasting possible, excluding mathematical extrapolation - neural networks don't fit for this. It's shown that the arguments grouping method is more suitable for the extrapolation problems. The purpose: Determine a possibility of new networks architecture in order to adapt them for forecasting. Methods: Ways of combining the listed solutions to create next-generation neural networks.

Results: Calculations reveal that the extrapolation quality of algebraic functions is higher, but they also have weaknesses. It's also shown that in neural networks possible to use rational functions instead of weights-values convolution within common neural network structure. Practical significance: Solving the problem of extrapolation of time series is of a great practical importance for short-term forecasting problems, which concerns literally all areas of our lives: from financial markets to unmanned control of cars, aircrafts, so on. Wherever you need to make a proactive solution. The prospects for using new generation neural networks makes capable predicting their actions, including outside the Earth's atmosphere, are discussed.

REFERENCES

1. Alain Le Mehaute, Christophe Rabut, Larry L.Schumaker. Surface Fitting and Multiresolution Methods. 1997

2. A.G. Ivakhnenko. Self-learning recognition and automatic control systems. K.: "Technology", 1969.

3. A.G. Ivakhnenko, V. G. Lapa "Cybernetic predictive devices." 1965.

4. Calculation of the Jacobian matrix of a neural network in Python, https://questu.ru/articles/396587/, (access date 04/11/2023).

5. S. Nikolenko, A. Kadurin, E. Arkhangelskaya. Deep learning. St. Petersburg: Peter, 2020.

6. V.V. Strizhov, E.A. Krymova. Methods for selecting regression models. Moscow: Computer Center RAS, 2010. 60 p.

7. A.I. Galushkin. Synthesis of multilayer pattern recognition systems. Moscow: Energy, 1974.

8. What are neural networks, what can they do, and how to write a neural network in Python? https://neural-university.ru/neural-net-works-basics, (access date 04/11/2023).

9. A.V. Attetkov, S.V Galkin, V.S Zarubin. Optimization methods. Ed. MSTU im. Bauman. 2021.

10. W.W. Hager, H. Zhang. A new conjugate gradient method with guaranteed descent and an efficient line search. SIAM Journal on Optimization, 16. 2005.

11. V.N. Afanasyev, M.M. Yuzbashev. Time series analysis and forecasting. Moscow: Finance and Statistics, Infra-M, 2010.

12. P.A. Gatin, V.N. Semenova, Study of cyclic time series with variable cyclicity using the Fourier series method, Vestnik DITI, 2018.

13. Victor Tolstykh, Irina Tolstykh. Generalization of Artificial Neuron. Proc. of the Int. Workshop "Soft Computing and the Measurements", 2000.

14. V.N. Tolstykh, I.V. Tolstykh, N.S. Ulyanova. Study of approximation methods with nonlinear parameters. Proc. of the Int. Workshop "Soft Computing and the Measurements", 2002.

15. Michael N. Kan. Technical analysis. PETER, 200316. Michael N. Kahn. Technical Analysis. Plain and Simple. 2006, 2009, 2010 editions.

17. von Bartheld KS, Bani J, Herculano-Housell S (December 2016). "Finding the true number of neurons and glial cells in the human brain: a review of 150 years of cell counts." Journal of Comparative Neuroscience. No. 524(18), pp. 3865-3895.

18. von Bartheld CS, Bahney J, Herculano-Houzel S. The Cellular Composition and Glia-Neuron Ratio in the Spinal Cord of a Human and a Nonhuman Primate: Comparison With Other Species and Brain Regions. The Anatomical Record Advances in Integrative Anatomy and Evolutionary Biology, no. 301(4). DOI:10.1002/ar.23728

19. V.N. Tolstykh. Perceptron, neural network. What's next? PARADIGM, St. Petersburg, 2022.

20. Alice Jen, Amanda Casari. Machine learning. Feature construction. BOMBORA, 2022.

21. Stephen Skiena. Algorithms. Development Guide. Springer, BHV-Petersburg

22. Bernard Friedman. Principles and Technologies of Applied Mathematics. Dover Publications Inc., NY, 1990.

23. Mark Nixon, Alberto Aquado. Feature Extraction & Image Processing. Newnes, 2003.

INFORMATION ABOUT AUTHOR:

Viktor N.Tolstykh, Ph.D., Associate Professor of the Department of Infocommunication Technologies and Communication, State University of Aerospace Instrumentation

For citation: Tolstykh V.N. Neural networks for a time series extrapolation. H&ES Reserch. 2023. Vol. 15. No. 6. P. 4-11. doi: 10.36724/24095419-2023-15-6-4-11 (In Rus)

НЕЙРОННЫЕ СЕТИ ДЛЯ ЭКСТРАПОЛЯЦИИ ВРЕМЕННЫХ РЯДОВ Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Толстых Виктор Николаевич

Похожие темы научных работ по математике , автор научной работы — Толстых Виктор Николаевич

NEURAL NETWORKS FOR A TIME SERIES EXTRAPOLATION

Текст научной работы на тему «НЕЙРОННЫЕ СЕТИ ДЛЯ ЭКСТРАПОЛЯЦИИ ВРЕМЕННЫХ РЯДОВ»