Научная статья на тему 'НОВЫЙ ПОДХОД К ОБУЧЕНИЮ НЕЙРОННЫХ СЕТЕЙ С ПОМОЩЬЮ НАТУРАЛЬНОГО ГРАДИЕНТНОГО СПУСКА С ИМПУЛЬСОМ НА ОСНОВЕ РАСПРЕДЕЛЕНИЙ ДИРИХЛЕ'

НОВЫЙ ПОДХОД К ОБУЧЕНИЮ НЕЙРОННЫХ СЕТЕЙ С ПОМОЩЬЮ НАТУРАЛЬНОГО ГРАДИЕНТНОГО СПУСКА С ИМПУЛЬСОМ НА ОСНОВЕ РАСПРЕДЕЛЕНИЙ ДИРИХЛЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
196
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / МАШИННОЕ ОБУЧЕНИЕ / ОПТИМИЗАЦИЯ / РАСПРЕДЕЛЕНИЯ ДИРИХЛЕ / НАТУРАЛЬНЫЙ ГРАДИЕНТНЫЙ СПУСК

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Абдулкадиров Руслан Ибрагимович, Ляхов Павел Алексеевич

В данной работе мы предлагаем алгоритм натурального градиентного спуска с импульсом на основе распределений Дирихле для ускорения обучения нейронных сетей. Данный подход учитывает не только направления градиентов, но и выпуклость минимизируемой функции, что значительно ускоряет процесс поиска экстремумов. Представлены вычисления натуральных градиентов, базирующихся на распределениях Дирихле, и реализовано внедрение предложенного подхода в схему обратного распространения ошибок. Результаты по распознаванию изображений и прогнозированию временных рядов во время проведения экспериментов показывают, что предложенный подход дает более высокую точность и не требует большого количества итераций для минимизации функций потерь, по сравнению с методами стохастического градиентного спуска, адаптивной оценки момента и адаптивным по параметрам диагональным квазиньютоновским методом для невыпуклой стохастической оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Абдулкадиров Руслан Ибрагимович, Ляхов Павел Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A NEW APPROACH TO TRAINING NEURAL NETWORKS USING NATURAL GRADIENT DESCENT WITH MOMENTUM BASED ON DIRICHLET DISTRIBUTIONS

In this paper, we propose a natural gradient descent algorithm with momentum based on Dirichlet distributions to speed up the training of neural networks. This approach takes into account not only the direction of the gradients, but also the convexity of the minimized function, which significantly accelerates the process of searching for the extremes. Calculations of natural gradients based on Dirichlet distributions are presented, with the proposed approach introduced into an error backpropagation scheme. The results of image recognition and time series forecasting during the experiments show that the proposed approach gives higher accuracy and does not require a large number of iterations to minimize loss functions compared to the methods of stochastic gradient descent, adaptive moment estimation and adaptive parameter-wise diagonal quasi-Newton method for nonconvex stochastic optimization.

Текст научной работы на тему «НОВЫЙ ПОДХОД К ОБУЧЕНИЮ НЕЙРОННЫХ СЕТЕЙ С ПОМОЩЬЮ НАТУРАЛЬНОГО ГРАДИЕНТНОГО СПУСКА С ИМПУЛЬСОМ НА ОСНОВЕ РАСПРЕДЕЛЕНИЙ ДИРИХЛЕ»

Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле

Р.И. Абдулкадиров1, П.А. Ляхов2 1 Северо-Кавказский центр математических исследований, 355009, Россия, г. Ставрополь, ул. Пушкина 1;

2 Северо-Кавказский федеральный университет, 355009, Россия, г. Ставрополь, ул. Пушкина 1

Аннотация

В данной работе мы предлагаем алгоритм натурального градиентного спуска с импульсом на основе распределений Дирихле для ускорения обучения нейронных сетей. Данный подход учитывает не только направления градиентов, но и выпуклость минимизируемой функции, что значительно ускоряет процесс поиска экстремумов. Представлены вычисления натуральных градиентов, базирующихся на распределениях Дирихле, и реализовано внедрение предложенного подхода в схему обратного распространения ошибок. Результаты по распознаванию изображений и прогнозированию временных рядов во время проведения экспериментов показывают, что предложенный подход дает более высокую точность и не требует большого количества итераций для минимизации функций потерь, по сравнению с методами стохастического градиентного спуска, адаптивной оценки момента и адаптивным по параметрам диагональным квазиньютоновским методом для невыпуклой стохастической оптимизации.

Ключевые слова: распознавание образов, машинное обучение, оптимизация, распределения Дирихле, натуральный градиентный спуск.

Цитирование: Абдулкадиров, Р.И. Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле / Р.И. Абдулкадиров, П.А. Ляхов // Компьютерная оптика. - 2023. - Т. 47, № 1. - С. 160-169. -DOI: 10.18287/2412-6179-CO-1147.

Citation: Abdulkadirov RI, Lyakhov PA. A new approach to training neural networks using natural gradient descent with momentum based on Dirichlet distributions. Computer Optics 2023; 47(1): 160-169. DOI: 10.18287/2412-6179-C0-1147.

Введение

Наиболее важную роль в искусственных нейронных сетях играют методы оптимизации, которые существенно влияют на процесс обучения. Конечная точность в процессе обучения зависит от согласования значений весов искусственных нейронов с функцией потерь, которую с каждой эпохой необходимо минимизировать. Если оптимизация проходит быстро и сходится к глобальному минимуму, то повышается точность распознавания и сокращается время обучения.

Одним из самых известных методов оптимизации является стохастический градиентный спуск SGD [1], который был модифицирован в SGDM [2] и SGDM с условием Нестерова [3]. Позднее на базе градиентного подхода были предложены новые методы оптимизации: AdaGrad [4], ADADELTA [5], RMSProp[6] и Adam [7]. В настоящее время наиболее распространенные методы в машинном обучении - это SGDM с модификацией Нестерова и Adam.

Достижение глобального минимума за меньшее количество итераций (эпох) с требуемой точностью по сей день остается актуальной проблемой в методах оптимизации. Особенно остро встает вопрос нахождения минимума в машинном обучении, где процесс оптимизации функции потерь влияет на конечную

точность. Для решения данной проблемы был предложен градиентный поток из [8], представляющий собой произведение метрического тензора на гладком многообразии и градиента оптимизируемой функции. Такой подход ускорил процесс минимизации функции потерь в нейронных сетях, но в данной статье будут использоваться многообразия вероятностных распределений вместо гладких.

Многообразия вероятностных распределений в основном используются в информационной геометрии, где аналогом градиентного потока является натуральный градиент. Натуральный градиент представляет собой произведение информационной матрицы Фишера и градиента оптимизируемой функции. Матрица Фишера рассчитывается по расхождению Кульбака-Лейблера (расхождение К-Ь в [9] и [10]).

Натуральный градиентный спуск с импульсом (МвБЫ) является альтернативой стохастическому градиентному спуску и его модификациям, как было отмечено в [11]. Благодаря натуральному градиенту, содержащему матрицу Фишера, базирующуюся на вероятностном распределении, процесс оптимизации сходится в области глобального минимума с высокой точностью. Вероятностные распределения стоит выбирать таким образом, чтобы матрица Фишера содержала только постоянные значения. В данной ста-

тье мы предлагаем алгоритм обучения нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределения Дирихле и обобщенного распределения Дирихле. Мы покажем, что предложенный подход имеет более высокую точность и не требует большого количества итераций для минимизации функций потерь, в отличие от SGDM, Adam и Apollo [12]. Затем продемонстрируем работу предложенного алгоритма в экспериментах с распознаванием образов и прогнозированием временных рядов. В заключении мы обсудим результаты, перспективы и направления разработок новых модификаций натурального градиентного спуска.

1. Предварительные сведения

Пусть f: Q ^ Ж. - гладкая функция над замкнутым выпуклым множеством Q е Ж", содержащая один или несколько экстремумов. Задача стохастического градиентного спуска состоит в нахождении наименьшего значения функции f (9) в заданной области Q с помощью следующей итеративной формулы:

e(k+1) = e(k vf (e(k)),

где 9 - произвольный аргумент.

Функция f может быть минимизирована с помощью SGDM с модификацией Нестерова из [3], псевдокод которого представлен в Алгоритме 1.

Algorithm 1. Стохастический градиентный спуск с

импульсом и модификацией Нестерова_

Input: у (скорость обучения), ео (входные параметры), f (целевая функция), 1 (распад веса), ц (импульс), т (демпфирование)

Output: en (конечный результат) 1: for i from 1 to n do

2: gi=V f(e, -1) + М,- -1

3: if i > 1 then

4: bi ^ цЬ, -1 + (1x)gi Ubi - вспомогательная переменная 5: else 6: bi ^ gi 7: end if 8: gi ^ gi -1 + pbi 9: e, ^ 9i -1 ^ Ygi _10: end for_

Стохастический градиентный спуск с импульсом и модификацией Нестерова очень практичен в свер-точных нейронных сетях для распознавания изображений. Процесс минимизации при SGDM не требует много времени и ресурсов, но достичь глобального минимума у него не всегда удается.

Наиболее предпочтительным методом оптимизации в нейронных сетях, решающих не только задачи распознавания образов, является Adam. Данный метод отличается от SGDM и является более надежным в машинном обучении, потому что он обновляет экс-

поненциальные скользящие средние градиента mt и квадрата градиента ц с гиперпараметрами j3a, P2 е [0, 1), контролирующими скорость экспоненциального затухания этих скользящих средних. Однако эти скользящие средние инициализируются как (векторы) нули, что приводит к оценкам моментов, которые смещены в сторону нуля, особенно на начальных шагах и при малых скоростях затухания. Псевдокод метода Adam ([7]) представлен в Алгоритме 2.

Algorithm 2. Адаптивная оценка момента (Adam) Input: у (скорость обучения), рь Р2 (коэффициенты для вычисления скользящих средних градиента и его квадрата), e0 (входные параметры), f (целевая функция), 1 (распад веса)

Output: en (конечный результат)

1: m0 ^ 0 (первый момент), ц0 ^ 0 (второй момент)

2: for i from 1 to n do

3: gi ^ V f (eI -1)+ieI-1 4: mi ^ Pn + (1 - POg,-

5: Vi ^p2V¿-1 +(1 -P2 )gi2

6: >П, ^ m¡ / (1 -Pí)

7: V ^ v / (1 -P2) e¡ ^e¡-1 -yin, / ((V,+е)

8:

_9: end for_

Метод Adam широко используется в библиотеках машинного обучения MATLAB, Python и R, но и он не лишен недостатков. Для спуска в область глобального минимума требуется много итераций, а иногда глобальный экстремум не достигается вообще. Помимо Adam, в задачах распознавания изображений может использоваться алгоритм Apollo [12]. Данный подход отличается от представленных выше тем, что путем аппроксимации матрицы Гесса он способен учитывать выпуклость минимизируемой функции. Основное преимущество Apollo состоит в том, что он способен уменьшать стохастическую дисперсию, что упрощает аппроксимацию матрицы Гесса, сохраняет положительную определенность в условии невыпуклости целевой функции и сходится в выпуклой и стохастической оптимизациях.

Algorithm 3. Apollo Адаптивный по параметрам диагональный квазиньютоновский метод невыпуклой стохастической оптимизации_

Input: y (скорость обучения), р (коэффициенты для вычисления скользящего среднего градиента), 90 (входные параметры), f (целевая функция), е = 10~4 Output: 9n (конечный результат)

1: m0 ^ 0 (скользящее среднее с поправкой на смещение), d0 ^ 0 (коррекция направления), B0 ^ 0 (аппроксимация Гессиана) 2: for i from 1 to n do

3: gM ^ Vf (0i)

P(1 ^) 1 -P

m,<--1-1 m, +---— g,

4: iH1 1 -Pm i 1 -ртi+1

a ^

dj (mi+1 - mi) + djBtdi

5:

(II dt 14 +f)4

// значения коэффициента для B

6: Bi+i ^ Bi - a • Diag (df)

7: Di+1 ^ rectify(Bi+1, 0.01) // устранение не-

выпулости

8: di+1 ^ D-+\mi+1

9:0i+1 ^ 0i - ydi+1 _0: end for_

В Алгоритмах 1 и 2 направление к минимуму определяется с помощью градиентов. Но если, как в Алгоритме 3, учитывать не только поле градиентов, но и выпуклость поверхности, описанной оптимизируемой функцией f, то это даст возможность достигать именно глобального минимума с требуемой точностью. Но данный подход будет аппроксимировать Гессиан каждую итерацию, что увеличит количество вычислений и временные затраты. Далее мы изложили наш подход к решению этой проблемы, используя натуральный градиент.

2. Метод быстрого поиска экстремума на основе NGDM и распределений Дирихле

2.1. K-L расхождение для NGDM

Натуральный градиентный спуск ([11], [13]) с импульсом, удовлетворяющий условию Нестерова, может быть представлен следующим образом:

0(k+1) = 0(k) - -1 (Vf (0(k)) + yb(k+1)),

(2)

где 9(0) = 0о - начальная точка,

ММ) = + (1- тХУДе®) +Х0да) (т - параметр демпфирования), Е - матрица Фишера, которая учитывает кривизну поверхности / для обхода локальных минимумов и отличает натуральный градиентный спуск (2) от стохастического (1). Определение матрицы Фишера берет свое начало еще с определения градиентного потока на гладких Римановых многообразиях в [8], где свойства производных (градиентов) и кривизны уже рассмотрены в общих случаях. Данный подход уже пытались использовать в методах оптимизации в [14]. Впоследствии выяснилось, что наиболее эффективно оказалось использовать многообразия вероятностных распределений, где градиентным потоком является информационная матрица Фишера, вычисление которой можно провести с помощью расхождения Кульбака-Лейблера (К-Ь-расхождение).

Предположим, что р (х; 4) - некоторое семейство вероятностных распределений над значениями весовых коэффициентов х, где 4 6 ®и- вектор значений параметров распределения, регулирующих значения

весовых коэффициентов. Тогда непрерывное К-Ь-расхождение имеет следующий вид [15]:

КЦ р (х; )||р (х; ^ + 5Ц) = -2 5^ТЕ 5^,

2 (3)

где Е = - Е [Vlogр(х; Vlogр(х; ^)Т] - информационная матрица Фишера, представляющая собой градиентный поток на многообразии вероятностных распределений. Далее приведем расчеты матрицы Фишера для распределения Дирихле и обобщенного распределения Дирихле.

2.2. Вычисление матрицы Фишера с распределением Дирихле и его обобщением

Распределение Дирихле порядка К > 2 с параметрами 4 = а, где ад, ..., ак> 0 в [16] имеет функцию плотности вероятности относительно меры Лебега на Евклидовом пространстве Мк-1, заданную формулой

1 к тгг(а-)

p(x;a) = -^-ПхГ-1, B(a) = f 1 '' П ' > B(a)1 i ' 1 ; г(хa

(4)

где {х< }К=! удовлетворяет Х,х,- = 1, и Г(а) - гамма-функция.

Вычислим логарифм от функции плотности (4).

log p (x; a) = log

Г( V ai) к

lZji ' Пх,-1

П ir(ai )if

= log r| Vai I - V log Г (ai) + V(ai - 1)log x.

i=1 J i=1

Вычислим частные производные второго порядка от log p (x; a) по a:

Э2 / K

-log p = | Vai

da j dak V1=1

d 2 ( к Л

daflog p=v lSa J-v(a j).

Следовательно, матрицу Фишера можно представить следующим образом:

V^wfVal ... -^(е*

Fnr (a) =

-Vi va I ... wi v

(5)

где у (a) = (d / da) log (r(a)) - пси-функция.

Приведем обобщенное распределение Дирихле

[16] для {xi }K=1, X, xi = 1, и a i > 0, p.- > 0, i = 1, ..., K-1, имеющее функцию плотности вероятности

p (x; a, р) = П

1B(ai,Pi) i

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 - Vx

V j=1 J

Y'

(6)

где у,- = р, - а,- +1 - р,+1 для , = 1, ..., К-1 и ук = Рк-ь Логарифм от функции плотности обобщенного распределения Дирихле имеет следующий вид:

log p = log

п 11 x*-1

1 - Б

у,

V У

K

Г (а,- )г(р, )" = Б log г +Р,)- Б log Г )- Б log г () +

,=1 K

,=1

,=1

+Б(а,- -1) log x, + БУ, log (1 - БХ1 )•

,=i ,=i j=i

Вычислим частные производные второго порядка от logp (x; а, Р):

Э2 Э2 Э2

1) т—log p = л0 log p = лQ log p = 0, j Ф l;

Эаj Эа1

Эр j Эр1

Эа j ЭР1

Э2

2) эо^ lo§ p=|а;+pj )-|(();

3) J^g p=1(а+р; ); Эр2

Э2 Э2

4) ——log p = log p = |'(Oj + Pj).

Эа y Эр j

Эр j Эау

Тогда матрица Фишера для обобщенного распределения Дирихле выражается следующим образом:

(... о

Fr„

(а) =

о

^ K

(7)

где

Л,/

=

|'(а, )-V(a, + р,-) -|'(а, + р,-) -|(а, + р,) |(р, )-|(а, +р,)

И О - нулевая матрица.

Рассмотрим биективное отображение значений весовых коэффициентов х на множество значений г, удовлетворяющих условию Х- г, = 1. Пусть значения весовых коэффициентов х принадлежат «-мерному шару Б(щ, г), где ио ё!", г ё [0, да) - центр шара и его радиус соответственно. Из геометрии и топологии известно, что произвольный «-мерный шар Б(и0, г) можно биективно отобразить на «-мерный симплекс А":

Б(ио, г) э (х1, ..., х«) ^ (го, 21, ..., г«) е А".

После чего подбираем значения параметров а для распределения Дирихле, а и р для обобщенного распределения Дирихле. При этом удовлетворяются условия двух критериев согласия [17]: энергетического критерия согласия, критерия согласия треугольника. Для значений г, удовлетворяющих условию

У " г- = 1,

,=0 1 '

можно вычислить матрицу Фишера распределений Дирихле р (г; а) и р (г; а, Р). В следствие чего вычисляются матрицы Фишера (5) и (7). Так как отображение между х и г биективное, то имеется возможность минимизировать функцию потерь Е (х (г)) по значениям г. С помощью натурального градиентного спуска находится такое значение г, при котором функция потерь Е принимает наименьшее значение в точке х (г).

Отсюда можно сделать вывод: натуральные градиенты на основе распределений Дирихле (4) и (6) могут использоваться на различных значениях весовых коэффициентов. То есть для произвольных переменных х из распределений р (х; а) и р (х; а, Р) возможно применение натурального градиентного спуска на основе распределений Дирихле.

Значения матрицы Фишера выбираются в зависимости от типа нейронной сети. В случае многослойного персептрона, где для стохастического и натурального градиентного спуска наиболее эффективная скорость обучения находится в промежутке [0,01; 0,1], выбираются значения на отрезке от [1; 4], так как в данной области матрица Фишера позволяет с большей точностью сходиться в области глобального минимума. Для сверточных и рекуррентных нейронных сетей, где наиболее эффективная скорость обучения находится в промежутке [0,001; 0,005], выбираются значения на отрезке [4; 8], что дает возможность «избегать» локальных минимумов.

Значения а,- на промежутке [12; да) не способны регулировать значения весовых коэффициентов так же эффективно, как на отрезке [4; 8]. При значениях а/ = 12 обратная матрица Фишера распределения Дирихле имеет следующий вид:

FD?r »d,ag(1/|(12);...;1/V'(12)) = d,ag (1,428;...;1,428).

(8)

Натуральный градиент с обратной матрицей Фишера (8) не способен минимизировать функцию потерь с требуемой точностью, так как увеличивается шаг. При а,, стремящейся к бесконечности, натуральный градиент становится «взрывающимся».

На промежутке (0; 0,5] натуральный градиент принимает слишком малые значения, которые не позволяют сходиться в области глобального минимума. При а, = 0,5 обратная матрица Фишера имеет следующий вид:

F-r = d,ag (1/\|/ (0,5);...;1/|'(0,5)) = d,ag (0,203;...;0,203).

(9)

Натуральный градиент с обратной матрицей Фишера (9) не способен «обходить» локальные минимумы, так как значительно уменьшается шаг. При а,, стремящейся к 0, натуральный градиент становится «исчезающим». На отрезке [0,5; 1] натуральный градиент не способен «обходить» ближайшие локальные минимумы, несмот-

ря на быструю сходимость. На отрезке [9; 12] натуральный градиент имеет возможность «обходить» локальные минимумы, но сходится с меньшей точностью.

Матрица Фишера FGenDir (7) является диагональной относительно блоков у,-. Вследствие чего наиболее эффективно выбирать значения а,- и р,- на отрезке [3, 5; 9], где у'(а,- + р,-) приближенно равно 0. Следовательно,

FGenDir ~

» diag (1/г/(а );1/v'(Pi );...;1/v'(a „ );1/у'(Р„ )).

В случае многослойного персептрона выбираются значения на отрезке от [4, 5; 6], для возможности сходимости в области глобального минимума. Для свер-точных и рекуррентных нейронных сетей выбираются значения на отрезке [5, 5; 9], что дает возможность «избегать» локальных минимумов.

После вычисления матриц Фишера для распределений Дирихле появляется возможность построить алгоритм натурального градиентного спуска с импульсом на основе распределений Дирихле, который будет внедрен в алгоритм обратного распространения ошибок.

2.3. Алгоритм поиска экстремума на основе NGDM и распределения Дирихле

В соответствии с матрицей Фишера для распределения Дирихле и обобщенного распределения Дирихле мы предлагаем Алгоритм 4 для ускоренного нахождения глобального минимума целевой функции f.

Algorithm 4. Натуральный градиентный спуск с импульсом, базирующийся на распределениях

Дирихле._

Input: у (скорость обучения), 0о (входные параметры), f (целевая функция), 1 (распад веса), ц (импульс), т (демпфирование), F=Fd-г или F=FGenDir (матрица Фишера)

Output: 0n (конечный результат) 1: for i from 1 to n do 2: gt = V f(0i-1) + Mi -1 3: if i > 1 then

4: bi цbi -1 + (1 - x)gi // bi - вспомогательная переменная 5: else 6: bi ^ gi 7: end if 8: g, ^ gi-1 + цЬ, 9: 0, ^ 0,-1 - yF -1g, _10: end for_

Заметим, что в Алгоритме 4 нет необходимости уменьшать длину шага или числовое значение градиента для повышения точности за счет учета выпуклости минимизируемой функции. К тому же матрица Фишера содержит только параметры распределений без переменных 0 и x из формул (4) и (6), что позво-

ляет избежать дополнительных вычислений в цикле и ресурсных затрат. Стоит отметить, что информационная матрица Фишера с обобщенным распределением Дирихле полезна только в случае 2п-мерной поверхности, где n е N. Но для нейронных сетей такое ограничение не оказывает особого влияния.

3. Алгоритм обучения нейронной сети на основе NGDM и распределения Дирихле

В данном параграфе представлены алгоритм и схема предложенного метода обучения нейронной сети на основе натурального градиента. Из [18] вектор x = {х1,..., xm}, проходящий через нейрон l, приобретает значение вектора у®. Затем сигнал yM^ сравнивается с ожидаемым выходом d. В итоге получаем результат ошибки ek = dk—yk, где k = 1, ..., m. Затем для достижения правильного ответа необходимо минимизировать функцию потерь E(n), которая пошагово корректирует синаптические веса нейронов, пока система не достигнет устойчивого состояния. Псевдокод метода обратного распространения ошибок с использованием натурального градиентного спуска с импульсом представлен в векторной форме в Алгоритме 5.

Отметим, что в строке 2 Алгоритма 5 начинается прямое обучение, в 7 строке - обратное распространение ошибки, а с 14 по 19 строки содержится формула натурального градиентного спуска с импульсом, удовлетворяющая условию Нестерова. В 8 и 10 строках использована операция О - умножение Адамара, которая выражается следующим образом:

(u1, ..., un)TО (V, ..., Vn)T = (urn, ..., Vn-Vnf.

На рис. 1 продемонстрирована схема работы нейронной сети с обратным распространением ошибки, использующая для оптимизации натуральный градиентный спуск с импульсом. Благодаря информационной матрице Фишера, значения весов будут регулироваться лучше за счет учета не только направлений градиентов, но и выпуклости поверхности функции потерь E(n).

Как видно на рис. 1, при обратном распространении ошибок веса нейронов будут принимать следующие значения:

Wk (n + 1) = Wk (n) — nF—1 (Vwk E (n) + vb (n + 1)) , (10)

где b (n +1) = ф (n) + (1- x)(VwkE(n) + Iwk (n)) (т - параметр демпфирования), n - скорость обучения, F -матрица Фишера, wkе Ж.m, m = 2, ... - вектор, выражающий веса. Аналогично можно применить метод обратного распространения ошибок для сверточ-ных нейронных сетей, где будут регулироваться значения весов в сверточных, пулинговых и полносвязных слоях.

Algorithm 5. Алгоритм обратного распространения ошибок с NGDM Nesterov на основе распределений Дирихле_

Input: >>0 e Km (входные данные), d e Rm (вектор ожидаемых выходов), w e MmxRm (весовые коэффициенты нейронов), ф (функция активации), F (матрица Фишера), 1 (распад веса), ц (импульс), т (демпфирование)

Output: >1l) (конечные результаты), Е (n) (функция потерь)

1: for n from 1 to N do 2: for l from 1 to L do 3: /+1) (n) ^ ф w(l) (n)>l) (n) 4: end for

5: e (n) ^ d (n) - >(L) (n) 6: for l from 0 to L do 7: if l = L then

8(L) (n )•

ЭЕ (n )Q ^(L

Эе (n) av(L)

9: else

8(')(n) ^ w((+1)(n) 8(/+1)(n) О■Э44 10: dv(n)

11: end if

12: for к from 0 to m do 13: if n > 1 then

14: b(n + 1) ^ цЬ(п) + (1 - т)х x(5(l) (n) >l-1) (n) + 1wk) 15: else

16: b(n + 1) ^ 5(l)(n)/-1)(n + 1) + 1wk 17: end if

18: g(l) (n + 1) ^ g(l) (n) + цЬ (n + 1)

19: w()(n + 1) ^

20: end for 21: end for 22: end for

„(')

(n )-^F-1 g(()(n +1)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ф'()

ф'о

5I;:

Принцип работы обратного распространения ошибок для сверточных нейронных сетей аналогичен Алгоритму 5. Отличие в том, что, помимо полносвязных слоев, необходимо учитывать слои свертки и пулинга при регулировании значений весов. Известно, что операция свертки [19] проводится следующим образом:

k1-1k2-1

(7 * к),, j = ББ1'

к

i+p, j+q ' ^p ,q>

(11)

p=0 q=0

где I - входное изображение и К - ядро размерностью к\ х к2. Прямое распространение в сверточных нейронных сетях проводится по следующей формуле:

>(l+1) (n) = ф (w(l) (n) *>l) (n)) .

(12)

После чего проводится обратное распространение ошибок, где функция ошибок вычисляется следующим образом:

ЭЕ(n) = ББ ЭЕ(n) Эх% (n) awW (n) " Б Б Эх() (n) Эм« (n) •

(13)

Подставив (13) в (10), получим формулу обратного распространения ошибки для сверточных нейронных сетей. Аналогичную подстановку можно выполнить в рекуррентных нейронных сетях. Модель рекуррентной нейронной сети похожа на модель многослойного пер-спетрона по строению архитектур. Основное отличие состоит в том, что рекуррентные сети могут использовать свою внутреннюю память для обработки последовательностей произвольной длины, что позволяет более точно обрабатывать временные ряды. В последнее время наибольшее распространение получили сети с долговременной и кратковременной памятью (Ь8ТМ) и управляемым рекуррентным блоком (вЯИ).

Ч>

фО

ф()

Ф(.) f

Od-

ф'(-)

Ф'О

е,„

Зг

3;,;:

Рис. 1. Предлагаемая схема обратного распространения ошибок с использованием натурального градиентного спуска

где и(1) (« - 1) - матрица весов с предыдущего состояния нейрона. После чего проводится обратное распространение ошибок, в котором локальные градиен-

Прямое распространение в рекуррентных нейронных сетях проводится следующим образом:

у(т) («) = ф(^(г) («)у® («) + и(1) (« - 1)у(1) (« - 1)) , (14)

ты функции потерь вычисляются так же, как и в мо-

Компьютерная оптика, 2023, том 47, №1 doi: 10.18287/2412-6179-c0-1147

165

дели многослойного пресептрона, для весов во входном, скрытом и выходном слоях.

4. Экспериментальная часть

В экспериментальной части показаны результаты работы предложенного алгоритма натурального градиентного спуска с импульсом, имеющие большую точность по сравнению с известными аналогами в задачах распознавания изображений баз ММ8Т и С№АШ0. Кроме того, представлены результаты прогнозирова-

ния временных рядов с помощью рекуррентных нейронных сетей, где предложенный Алгоритм 4 достиг наименьшего значения функции ошибок.

Для проведения экспериментов на базе данных ММ8Т (рукописные цифры от 0 до 9) в качестве тестируемых моделей выбраны многослойный персеп-трон и сверточная нейронная сеть Ье№1 5 из рис. 2. Нейронные сети данных архитектур не требуют много времени для обучения, и их точность зависит от метода оптимизации.

ñatteninput input: [(None, 28, 28)] [(None, 28, 28)]

InputLayer output:

flatten input: (None, 28, 28) (None, 784)

Flatten output:

conv2 dinput input: [(None, 28, 28, 1)] [(None, 28, 28, 1)]

InputLayer output:

dense input: (None, 784) (None, 512)

Dense output:

conv2d input: (None, 28, 28, 1) (None, 28, 28, 6)

Conv2D output:

batchnormalization input: (None, 512) (None, 512)

BatchNormaliz ation output:

max jp ooling 2 d input; (None, 28, 28, 6) (None, 14, 14, 6)

MaxPooling2 D output:

dropout input: (None, 512) (None, 512)

Dropout output:

i

densel input: (None, 512) (None, 128)

Dense output:

conv2d_l input: (None, 14, 14, 6) (None, 10, 10, 16)

Conv2D output:

max_p ooling 2 d_l input: (None, 10, 10, 16) (None, 5, 5, 16)

MaxPooling2 D output:

batchnormalizationl input: (None, 128) (None, 128)

BatchNormalization output:

flattenl input: (None, 5, 5, 16) (None, 400)

Flatten output:

dropoutl input: (None, 128) (None, 128)

Dropout output:

i

dense_2 input: (None, 128) (None, 10)

Dense output:

dense 3 input: (None, 400) (None, 120)

Dense output:

1

dense 4 input: (None, 120) (None, 10)

Dense output:

(Ь)

Рис. 2. Архитектуры многослойного персептрона (а) и LeNet 5 (b) для базы изображений MNIST

Уточним, что None на рис. 2 означает возможность выбора сета (batch) произвольного размера. Flatten - слой, выравнивающий вход. Dense - полносвязный слой. BatchNormalization - нормализация слоев для ускорения и устойчивости распознавания. Conv2d - двумерная свертка. MaxPooling2D - выборка максимального значения из карты признаков. Dropout - регуляризатор, решающий проблему переобучения.

Реализация экспериментов проводилась на Python 3.8.1 с библиотекой машинного обучения TensorFlow 2.8. Ввиду небольшой архитектуры многослойного персептрона для матрицы Фишера распределения Дирихле были выбраны параметры ai = 1,4 + 0,005i, i е N. Для матрицы Фишера обобщенного распределения Дирихле были выбраны значения параметров а, = 3,5 + 0,005i, р, = 3,9 + 0,005i, iе N. С такими значениями предложенные алгоритмы до-

стигают наибольшей точности, причем для NGDM Dir и NGDM GenDir была выбрана скорость обучения, равная 0,1.

В случае сверточной нейронной сети LeNet 5 выбраны значения а, = 8,8 - 0,005' для распределения Дирихле и значения а, = 6,8 + 0,005', ß, = 5,5 + 0,005'' для обобщенного распределения Дирихле, где i ёМ. В данном случае для предложенных алгоритмов оптимизации была выбрана скорость обучения со значением 0,001, так как сеть LeNet 5 содержит свер-точные, пулинговые и полносвязные слои, где при большой скорости обучения функция потерь не минимизируется.

Для сравнения эффективности алгоритмов оптимизации были обучены многослойный персептрон и сверточная нейронная сеть LeNet 5, результаты которых представлены в табл. 1 и 2, где продемонстрированы конечные точности распознавания.

Табл. 1. Точность и значение функции потерь многослойного персептрона на базе данныхММ№Т

Параметр Алгоритмы оптимизации

Известные Предложенные

SGDM Adam Apollo NGDM (Dir) NGDM (GDir)

Точность (%) 98,00 ± 0,04 98,01 ± 0,02 98,03 ± 0,01 98,15 ± 0,01 98,12 ± 0,01

Функция потерь 0,1055 ± 0,02 0,0809 ± 0,01 0,0844 ± 0,005 0,0777 ± 0,003 0,0799 ± 0,003

Табл. 2. Точность и значение функции потерь 5 на базе данныхММ1БТ

Параметр Алгоритмы оптимизации

Известные Предложенные

SGDM Adam Apollo NGDM (Dir) NGDM (GenDir)

Точность (%) 98,91 ± 0,03 98,99 ± 0,03 99,0 ± 0,001 99,12 ± 0,03 99,11 ± 0,03

Функция потерь 10,421 ± 1,08 7,0309 ± 0,05 7,6442 ± 0,08 5,3276 ± 0,03 5,3703 ± 0,02

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для проведения экспериментов на базе данных С1РАЯ10 выбрана сверточная нейронная сеть, представленная на рис. 3. Данная архитектура подходит для сравнения методов оптимизаций, но за счет операций свертки будет работать дольше. Для такой базы данных, как ОБАЯЮ, подобная архитектура является относительно быстрой.

conv2 d_2_input input: [(None, 32, 32, 3)] [(None, 32, 32, 3)]

InputLayer output:

conv2d_2 input: (None, 32, 32, 3) (None, 32, 32, 32)

Conv2D output:

conv2d_3 input: (None, 32, 32, 32) (None, 30, 30, 32)

Conv2D output:

max_p ooling2 d_2 input: (None, 30, 30, 32) (None, 15, 15, 32)

MaxPooling2D output:

dropout_2 input: (None, 15, 15, 32)

Dropout output:

1

conv2d_4 input: (None, 15, 15, 32) (None, 15, 15, 64)

Conv2D output:

1

conv2d_5 input: (None, 15, 15, 64) (None, 13, 13, 64)

Conv2D output:

max_pooling2 d_3 input: (None, 13, 13, 64) (None, 6, 6, 64)

MaxPooling2 D output:

dropout_3 input: (None, 6, 6, 64) (None, 6, 6, 64)

Dropout output:

1

flatten_2 input: (None, 6, 6, 64) (None, 2304)

Flatten output:

dense 5 input: (None, 2304) (None, 512)

Dense output:

1

dropout_4 input: (None, 512) (None, 512)

Dropout output:

1

dense_6 input: (None, 512) (None, 10)

Dense output:

Рис. 3. Сверточная нейронная сеть для базы данных С1ЕЛЯ10

Для сверточной сети, распознающей изображения из С1РАЯ10, были выбраны параметры для распределения Дирихле а, = 7,4 - 0,02", для обобщенного распределения Дирихле были выбраны а, = 7,4 - 0,05', Р; = 7,6 - 0,01,, , е N. Данная сеть содержит больше слоев, чем Ье№1 5, вследствие чего была выбрана скорость обучения, равная 0,004. Проведем обучение сверточной нейронной сети и, как в случае многослойного персептрона и сверточной сети Ье№1 5, продемонстрируем результаты точности распознавания и минимизации функции ошибок в табл. 3.

Помимо улучшения распознаваний изображений, МвБМ №$1егоу с распределениями Дирихле способен успешно обрабатывать данные временных рядов.

Например, сделать прогноз дальнейшего поведения зашумленного сигнала, который представляет из себя синусоиду на рис. 4.

----- зашумленная синусоида

Рис. 4. Зашумленная синусоида для эксперимента прогнозирования временных рядов

Задача рекуррентной нейронной сети - спрогнозировать поведение сигнала на дальнейших промежутках, который визуально будет более приближен к обычной синусоиде. Для решения данной задачи использованы рекуррентные нейронные сети, представляющие из себя персептроны со слоями Ь8ТМ и вяи, состоящие из 128 нейронов с функцией активации гиперболического тангенса. На рис. 5 и 6 представлены прогнозы временного ряда, полученные нейронными сетями со слоями Ь8ТМ и вяи соответственно, и реальное поведение сигнала.

Рис. 5. График прогноза, полученный с помощью слоев ЬБТМ

7j___LZ____

j: |j j 1 > / J|

; Hi f ] ~p¥ ш

!l/ J 11 \ (

w ■ i I \l 11 A ^

Щ r

_

зашумленна прогноз синусоида ~T

Рис. 6. График прогноза, полученный с помощью слоев ОЯи

При обучении рекуррентных сетей, прогнозирующих временной ряд зашумленной синусоиды (рис. 2), для МвБМ с распределением Дирихле со скоростью обучения, равной 0,007, были выбраны параметры а,- = 4,4 - 0,005', для обобщенного распределения Дирихле - а,- = 4,4 - 0,005', р,- = 5,4 - 0,005', , е N. Представим результаты минимизации функции по-

терь (средней квадратичной ошибки) после обучения рекуррентных сетей со слоями LSTM и GRU.

Из табл. 4 можно видеть, что предложенные NGDM Dir и NGDM GenDir минимизируют функцию потерь с наибольшей точностью. Среди известных алгоритмов самым точным оказался Adam, затем SGDM Nesterov. Худший результат показал Apollo.

Табл. 3. Точность и значение функции потерь нейронной сети из рис. 3 на базе данных СШЛЯЮ

Параметр Алгоритмы оптимизации

Известные Предложенные

SGDM Adam Apollo NGDM (Dir) NGDM (GenDir)

Точность (%) 64,70 ± 2,45 77,90 ± 0,2 75,94 ± 0,43 78,49 ± 0,2 78,43 ± 0,16

Функция потерь 1,0376 ± 0,3 0,6619 ± 0,1 0,7025 ± 0,1 0,6338 ± 0,05 0,6363 ± 0,05

Табл. 4. Значение функции потерь рекуррентных нейронных сетей со слоями ЬБТМ и ОЯи при обучении на зашумлённом

синусоидальном временном ряде

Архитектуры Алгоритмы оптимизации

Известные Предложенные

SGDM Adam Apollo NGDM (Dir) NGDM (GenDir)

LSTM 0,3201 ± 10 -6 0,3074 ± 10 -6 0,3245 ± 10 -5 0,2825 ± 10 -6 0,2939 ± 10 -6

GRU 0,3243 ± 10 -5 0,3079 ± 10 -6 0, 3299 ± 10 -5 0,2937 ± 10 -6 0,2937 ± 10 -6

Наличие разности в 0,005' не дает матрице Фишера становиться единичной, так как в этом случае натуральный градиент становится стохастическим.

Основываясь на результатах, собранных в табл. 14, можно сделать выводы, что предложенный метод натурального градиентного спуска ускорил процесс обучения нейронных сетей и достиг наибольшей точности распознавания образов и прогнозирования временных рядов.

Заключение

Предложенный метод натурального градиентного спуска с импульсом на основе распределений Дирихле оптимизирует функцию потерь быстрее и точнее, по сравнению со стохастическим градиентным спуском, адаптивной оценкой момента и адаптивным по параметрам диагональным квазиньютоновским методом невыпуклой стохастической оптимизации. Основное преимущество NGDM Nesterov с распределениями Дирихле состоит в том, что данный подход учитывает не только направление градиентов, но, как и алгоритм Apollo, учитывает выпуклость минимизируемой функции, в отличие от SGDM Nesterov и Adam. Предложенный подход, по сравнению с Apollo, не аппроксимирует Гессиан минимизируемой функции, а заменяет его на информационную матрицу Фишера, которая при использовании распределений Дирихле является постоянной. Так как матрицу Фишера не нужно пересчитывать каждую итерацию, количество вычислений уменьшается и повышается скорость обучения. Следовательно, применение предложенного метода оптимизации в различных архитектурах нейронных сетей ускорит процесс распознавания образов и прогнозирования временных рядов, достигая высокой точности.

В дальнейших исследованиях планируется внедрение метода натурального градиентного спуска с распределениями Дирихле в сверточных нейронных сетях по типу AlexNet, VGG16, SqueezeNet, GoogLeNET и ResNet-101. Сети такой архитектуры способны распознавать изображения любой собранной базы данных, а внедрение предложенного метода оптимизации функции потерь даст возможность повысить точность в процессе обучения, затрачивая меньше времени.

Стоит отметить, что на основе натурального градиента также разрабатываются подходы к реализации квантового машинного обучения с интенсивным использованием квантовых вычислений. На их основе был выведен квантовый натуральный градиент, который отличается от натурального градиента метрикой Фишера-Рао, состоящей из вероятностных векторов. Эту метрику на комплексном Гильбертовом пространстве еще называют обучающей метрикой Фуби-ни (Fubini-Study metric). Данный подход способен ускорить процесс оптимизации функции потерь еще сильнее, чем обычный натуральный градиентный спуск. Развитие данной темы в дальнейших исследованиях позволит ускорить процесс обучения сверточ-ных нейронных сетей, внедрить натуральный градиентный спуск на комплекснозначные нейронные сети и развивать обработку сигналов и изображений с помощью квантовых вычислений.

Благодарности

Авторы выражают благодарность СКФУ за поддержку в рамках проекта поддержки малых научных групп и отдельных ученых. Исследование в параграфе 2 проведено в Северо-Кавказском центре математических исследований в рамках соглашения с Министерством науки и высшего образования Российской Федерации

(соглашение № 075-02-2022-892). Исследование в параграфе 2 проведено при поддержке Российского научного фонда (проект № 21-71-00017). Исследование в параграфе 3 проведено при поддержке Российского научного фонда (проект № 22-71-00009).

References

[1] Gardner WA. Learning characteristics of stochastic-gradient-descent algorithms: A general study, analysis, and critique. Signal Proces 1984; 6(2): 113-133. DOI: 10.1016/0165-1684(84)90013-6.

[2] Loizou N, Richtarik P. Momentum and stochastic momentum for stochastic gradient, Newton, proximal point and subspace descent methods. Comput Optim Appl 2020; 77: 653-710. DOI: 10.1007/s10589-020-00220-z.

[3] Gao S, Pei Z, Zhang Y, Li T. Bearing fault diagnosis based on adaptive convolutional neural network with Nesterov momentum. IEEE Sens J 2021; 21(7): 9268-9276. DOI: 10.1109/JSEN.2021.3050461.

[4] Hadgu AT, Nigam A, Diaz-Aviles E. Large-scale learning with AdaGrad on Spark. 2015 IEEE Int Conf on Big Data (Big Data) 2015: 2828-2830. DOI: 10.1109/BigData.2015.7364091.

[5] Wang Y, Liu J, Misic J, Misic VB, Lv S, Chang X. Assessing optimizer impact on DNN model sensitivity to adversarial examples. IEEE Access 2019; 7: 152766-152776. DOI: 10.1109/ACCESS.2019.2948658.

[6] Xu D, Zhang S, Zhang H, Mandic DP. Convergence of the RMSProp deep learning method with penalty for noncon-vex optimization. Neural Netw 2021; 139: 17-23. DOI: 10.1016/j.neunet.2021.02.011.

[7] Melinte DO, Vladareanu L. Facial expressions recognition for human-robot interaction using deep convolutional neural networks with rectified Adam optimizer. Sensors 2020; 20: 2393. DOI: 10.3390/s20082393.

[8] Noh S-H. Performance comparison of CNN models using gradient flow analysis. Informatics 2021; 8: 53. DOI: 10.3390/informatics8030053.

[9] Huang Y, Zhang Y, Chambers JA. A Novel Kullback-Leibler divergence minimization-based adaptive student's t-filter. IEEE Trans Signal Process 2019; 67(20): 54175432. DOI: 10.1109/TSP.2019.2939079.

[10] Asperti, A. Trentin. M. Balancing reconstruction error and Kullback-Leibler divergence in variational autoencoders. IEEE Access 2020; 8: 199440-199448. DOI: 10.1109/ACCESS.2020.3034828.

[11] Martens J. New insights and perspectives on the natural gradient method. J Mach Learn Res 2020; 21(146): 1-76.

[12] Ma X. Apollo: An adaptive parameter-wise diagonal quasi-newton method for nonconvex stochastic optimization. arXiv Preprint. 2021. Source: (https://arxiv.org/abs/2009.13586).

[13] Li W, Montufar G. Natural gradient via optimal transport. Information Geometry 2018; 1: 181-214. DOI: 10.1007/s41884-018-0015-3.

[14] Alvarez F, Bolte J, Brahic O. Hessian Riemannian gradient flows in convex programming. SIAM 2004; 43(2): 68-73. DOI: 10.1137/S0363012902419977.

[15] Abdulkadirov RI, Lyakhov PA. Improving extreme search with natural gradient descent using Dirichlet distribution. In Book: Tchernykh A, Alikhanov A, Babenko M, Samoylenko I, eds. Mathematics and its applications in new computer systems. Cham: Springer Nature Switzerland AG; 2022: 19-28. DOI: 10.1007/978-3-030-97020-8_3.

[16] Graf M. Regression for compositions based on a generalization of the Dirichlet distribution. Stat Methods Appt 2020; 29: 913-936. DOI: 10.1007/s10260-020-00512-y.

[17] Li Y. Goodness-of-fit tests for Dirichlet distributions with applications. A PhD dissertation. 2015.

[18] Haykin SS. Neural networks: a comprehensive foundation. Prentice Hall; 1999.

[19] Aghdam HH, Heravi EJ. Guide to convolutional neural networks: A practical application to traffic-sign detection and classification. Cham: Springer International Publishing AG; 2017.

Сведения об авторах

Абдулкадиров Руслан Ибрагимович, 2000 года рождения, студент Северо-Кавказского федерального университета с 2018 года по специальности «Прикладная математика и информатика», лаборант Cеверо-Кавказского центра математических исследований. Область научных интересов: машинное обучение, функциональный анализ. E-mail: ruslanabdulkadirovstavropol@smail.com.

Сведения об авторе Ляхов Павел Алексеевич см. стр 78 этого номера.

ГРНТИ: 28.23.15

Поступила в редакцию 7 апреля 2022 г. Окончательный вариант - 24 августа 2022 г.

A new approach to training neural networks using natural gradient descent with

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

momentum based on Dirichlet distributions

R.I. Abdulkadirov1, P.A. Lyakhov2 1 North-Caucasus Center for Mathematical Research, 355009, Russia, Stavropol, Pushkin str. 1;

2 North-Caucasus Federal University, 355009, Russia, Stavropol, Pushkin str. 1

Abstract

In this paper, we propose a natural gradient descent algorithm with momentum based on Di-richlet distributions to speed up the training of neural networks. This approach takes into account not only the direction of the gradients, but also the convexity of the minimized function, which significantly accelerates the process of searching for the extremes. Calculations of natural gradients based on Dirichlet distributions are presented, with the proposed approach introduced into an error backpropagation scheme. The results of image recognition and time series forecasting during the experiments show that the proposed approach gives higher accuracy and does not require a large number of iterations to minimize loss functions compared to the methods of stochastic gradient descent, adaptive moment estimation and adaptive parameter-wise diagonal quasi-Newton method for nonconvex stochastic optimization.

Keywords: pattern recognition, machine learning, optimization, Dirichlet distributions, natural gradient descent.

Citation: Abdulkadirov RI, Lyakhov PA. A new approach to training neural networks using natural gradient descent with momentum based on Dirichlet distributions. Computer Optics 2023; 47(1): 160-169. DOI: 10.18287/2412-6179-CO-1147.

Acknowledgements: The authors would like to thank the North-Caucasus Federal University for the award of funding in the contest of competitive projects of scientific groups and individual scientists of the North-Caucasus Federal University. The research in section 2 was supported by the North-Caucasus Center for Mathematical Research through the Ministry of Science and Higher Education of the Russian Federation (Project No. 075-02-2022-892). The research in section 3 was supported by the Russian Science Foundation (Project No. 21-71-00017). The research in section 4 was supported by the Russian Science Foundation (Project No. 22-71-00009).

Authors' information

Ruslan Ibragimovich Abdulkadirov (b. 2000) is a student of the North-Caucasus Federal University since 2018 with a degree in Applied Mathematics and Informatics, works as a laboratory assistant at the North-Caucasus Center for Mathematical Research. Research interests: machine learning, functional analysis. E-mail: ruslanabdulkadirovstavropol@gmail.com.

Pavel Alekseevich Lyakhov (b. 1988) graduated from Stavropol State University, specialty "Mathematics" in 2009. PhD of Physical and Mathematical Sciences. Head of the Department of Mathematical Modeling, North-Caucasus Federal University. Research interests are digital signal and image processing, artificial intelligence, neural networks, modular arithmetic, parallel computing, high-performance computing, digital circuits and hardware accelerators. E-mail: Hahov@mail.ru .

Received April 7, 2022. The final version - August 24, 2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.