УДК 623.465.7
doi:10.21685/2307-4205-2021-4-12
РАЗРАБОТКА АЛГОРИТМА ОПТИМИЗАЦИИ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ ПРИ ОПРЕДЕЛЕНИИ КОЛИЧЕСТВА НЕЙРОНОВ В СКРЫТОМ СЛОЕ В ЦЕЛЯХ ПОВЫШЕНИЯ ВЕРОЯТНОСТИ РАСПОЗНАВАНИЯ ОБРАЗОВ НАЗЕМНОЙ ЦЕЛИ
А. И. Годунов1, С. В. Шишков2, С. Т. Баланян3, Ф. Х. Аль Сафтли4
1 Пензенский государственный университет, Пенза, Россия 2 Филиал Военной академии материально-технического обеспечения имени генерала армии А. В. Хрулева в г. Пензе, Пенза, Россия 3' 4 Военно-воздушная академия имени профессора Н. Е. Жуковского и Ю. А. Гагарина, Воронеж, Россия 1 [email protected], 2 [email protected], 3 [email protected], 4 [email protected]
Аннотация. Актуальность и цели. Высокая точность распознавания типовых наземных объектов оптико-электронными следящими системами может быть достигнута за счет оптимизации параметров искусственной нейронной сети (ИНС) такими, как: размерность и структура входного сигнала ИНС, синапсы нейронов сети, количество нейронов каждого слоя сети и количество слоев сети. Материалы и методы. Рассматриваются существующие алгоритмы оптимизации обучения ИНС при определении количества нейронов во входном, скрытом и выходном слоях ИНС в целях повышения вероятности распознавания образов наземной цели. Исследуются факторы улучшения обучения ИНС, определения количества нейронов в скрытом слое для распознавания изображений наземных объектов в таких алгоритмах, как алгоритм Левенберга - Марквардта, алгоритм байесовской регуляризации, масштабируемом алгоритме сопряженных градиентов и в разработанном алгоритме. Результаты и выводы. Исследуется возможность использования разработанного алгоритма в подсистеме информации и управления ракетой при телевизионном самонаведении на цель. Осуществлена программная реализация разработанного алгоритма с использованием языка программирования Matlab.
Ключевые слова: оптимизация, нейронная сеть, скрытый слой, обучение нейронной сети, алгоритм Левенберга - Марквардта, алгоритм байесовской регуляризации, масштабируемый алгоритм сопряженных градиентов, распознавание, вероятность, цель
Для цитирования: Годунов А. И., Шишков С. В., Баланян С. Т., Аль Сафтли Ф. Х. Разработка алгоритма оптимизации обучения нейронной сети при определении количества нейронов в скрытом слое в целях повышения вероятности распознавания образов наземной цели. 2021. № 4. С. 106-118. doi:10.21685/2307-4205-2021-4-12
DEVELOPMENT OF AN ALGORITHM FOR OPTIMIZING NEURAL NETWORK TRAINING WHEN DETERMINING THE NUMBER OF NEURONS IN A HIDDEN LAYER IN ORDER TO INCREASE THE PROBABILITY OF RECOGNIZING IMAGES OF A GROUND TARGET
A.I. Godunov1, S.V. Shishkov2, S.T. Balanyan3, F.Kh. Al' Saftli4
1 Penza State University, Penza, Russia 2 Branch of the Military Academy of Logistics named after Army General A.V. Khrulev in Penza, Penza, Russia 3' 4 Air Force Academy named after Professor N. E. Zhukovsky and Yu. A. Gagarin, Voronezh, Russia 1 [email protected], 2 [email protected], 3 [email protected], 4 [email protected]
Abstract. Background. High accuracy of recognition of typical ground objects by optoelectronic tracking systems can be achieved by optimizing the parameters of an artificial neural network (INS) such as: the dimension and structure of the INS input signal, synapses of network neurons, the number of neurons of each network layer and the number of network layers. Materials and methods. The existing algorithms for optimizing the training of the INS are considered when determining the number of neurons in the input, hidden and output layers of the INS in order to increase the probability of recognizing images of a ground target. The factors of improving the training of the INS, determining the number of neurons in the hidden layer for recognizing images of ground objects in such algorithms as the Levenberg - Marquardt algorithm, the Bayesian regularization algorithm, the scalable conjugate
© Годунов А. И., Шишков С. В., Баланян С. Т., Аль Сафтли Ф. Х., 2021. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.
gradient algorithm and the developed algorithm are investigated. Results and conclusions. The possibility of using the developed algorithm in the subsystem of information and missile control during television homing on the target is investigated. The software implementation of the developed algorithm using the Matlab programming language is carried out.
Keywords: optimization, neural network, hidden layer, neural network training, Levenberg - Marquardt algorithm, Bayesian regularization algorithm, scalable conjugate gradient algorithm, recognition, probability, goal
For citation: Godunov A.I., Shishkov S.V., Balanyan S.T., Al' Saftli F.Kh. Development of an algorithm for optimizing neural network training when determining the number of neurons in a hidden layer in order to increase the probability of recognizing images of a ground target. Nadezhnost' i kachestvo slozhnykh sistem = Reliability and quality of complex systems. 2021;(4): 106-118. (In Russ.). doi:10.21685/2307-4205-2021-4-12
Введение
В теории искусственных нейронных сетей (ИНС) существуют две актуальных проблемы, одной из которых является выбор оптимальной структуры нейронной сети, а другой - построение эффективного алгоритма обучения нейронной сети.
Оптимизация нейронной сети направлена на уменьшение объема вычислений при условии сохранения точности решения задачи на требуемом уровне. Параметрами оптимизации в нейронной сети могут быть:
- размерность и структура входного сигнала нейросети;
- синапсы нейронов сети. Они упрощаются с помощью удаления из сети или заданием «нужной» или «оптимальной» величины веса синапса;
- количество нейронов каждого слоя сети;
- количество слоев сети.
Вторая проблема заключается в разработке качественных алгоритмов обучения нейросети, позволяющих за минимальное время настроить нейросеть на распознавание заданного набора входных образов.
Обучение нейронной сети представляет собой многокритериальную задачу нелинейной оптимизации. Ее целью является поиск оптимального набора весовых коэффициентов (экстремума функции) для минимизации ошибки сети (рис. 1).
Рис. 1. Обучение многослойной нейронной сети
Процесс обучения нейронной сети заключается в необходимости настройки сети таким образом, чтобы для некоторого множества входов давать желаемое (или, по крайней мере, близкое, сообразное с ним) множество выходов.
Выбор нейросетевой архитектуры
Создание архитектуры нейронной сети означает указание количества слоев каждого типа и количества нейронов в каждом из этих слоев [1].
Выбор нейросетевой архитектуры может быть сделан в зависимости от решаемой задачи, имеющихся исходных данных и планируемых алгоритмов обучения. Так, для решения задач клас-
сификации, аппроксимации и прогнозирования применимы сети прямого распространения [2]. Главным представителем сетей такого класса является многослойный персептрон, структура которого показана на рис. 2.
скрытый слой ВХОДНОЙ СЛОЙ ^-ХЛч выходной слой X,
вектор входных : величин
х,
Рис. 2. Многослойный персептрон
В качестве исходных данных имеем [3]:
- размерность вектора входного сигнала
- размерность вектора выходного сигнала (N>0;
- количество особых точек на изображении цели обучающей выборки
При этом выбираем:
- общее число нейронов в сети и число нейронов по слоям;
- функции активации нейронов;
- способ задания коэффициентов синоптической связи.
При построении нейронной сети накладываются следующие ограничения:
- число слоев в выходном слое равно числу классов;
- все входные сигналы подаются всем нейронам.
Количество нейронов входного слоя напрямую зависит от размерности исходного пространства входных данных (размерности выборки) [1]. Количество нейронов выходного слоя зависит от решаемой задачи и так же, как для входного слоя, от способов кодирования. Так, при решении задач анализа главных компонент и сжатия информации размерность выходного слоя берется точно такой же, как и входного. Для решения задач управления выходной слой обычно представлен одним нейроном. При классификации количество нейронов выходного слоя определяется методом кодирования тех классов, к которым может быть отнесен входной вектор [1].
Количество нейронов скрытого слоя
Основной задачей при построении нейронной сети является определение числа скрытых слоев и числа нейронов в скрытых слоях, так как число нейронов во входном и выходном слоях определяется известным числом входов и выходов сети. Проблема выбора количества скрытых элементов многослойного персептрона заключается в том, что с одной стороны, число скрытых элементов должно быть достаточным для решения поставленной задачи, а с другой - не должно быть слишком большим, чтобы обеспечить необходимую обобщающую способность сети и избежать переобучения.
В общем, при решении задач распознавания в сети с одним скрытым слоем входной вектор преобразуется в некоторое новое пространство, которое может иметь другую размерность, а затем гиперплоскости, соответствующие нейронам выходного слоя, разделяют его на классы. Таким образом, сеть распознает не только характеристики исходных данных, но и «характеристики характеристик», сформированные скрытым слоем. Сеть с одним скрытым слоем, содержащим нейроны со ступенчатой функцией активации, способна осуществить произвольную классификацию особых точек четырехмерного пространства. Более того, одного скрытого слоя нейронов с функцией активации достаточно для аппроксимации любой границы между классами или некоторой функции со сколь угодно высокой точностью [2].
Необходимое количество нейронов в скрытых слоях персептрона можно определить по формуле, являющейся следствием из теорем Арнольда - Колмогорова - Хехт - Нильсена. Однако эта
теорема не конструктивна, это лишь теорема существования, в ней не заложена методика определения числа нейронов в сети для некоторой конкретной обучающей выборки. Для первоначальной оценки числа нейронов в скрытых слоях однородных нейронных сетей часто используется формула для оценки необходимого числа синоптических весов Nw в многослойной сети [3]:
NyQ .Г в, л
1 + log2(0
•<N <
N
(N + Ny +1) + Ny, (1)
где Ыу - размерность выходного сигнала; Q - число элементов множества обучающих примеров; N - необходимое число синоптических связей; Ых - размерность входного сигнала.
Оценив с помощью этой формулы необходимое число синоптических связей можно рассчитать необходимое число нейронов в скрытых слоях. Например, число нейронов скрытого слоя (Nск) двухслойного персептрона будет равно
N
Мск =-. (2)
N + Ny "
Для определения числа нейронов в скрытом или скрытых слоях существуют эмпирически обоснованные правила. Считается, что количество нейронов в скрытом слое должно быть в несколько раз меньше количества обучающих примеров при условии наличия избыточности обучающих данных.
Суммируя выше сказанное, для большинства задач можно было бы, вероятно, получить достойную производительность, установив конфигурацию скрытого слоя, используя только два правила:
1) количество скрытых слоев равно единице;
2) количество нейронов в этом слое является средним между количеством нейронов во входном и выходном слоях и быть в несколько раз меньше количества обучающих примеров при условии наличия избыточности обучающих данных [1]:
N. + Nv
N. . (3)
Обучение нейронных сетей
Точность аппроксимации зависит от эффективности процедур обучения, поэтому при использовании нейронных сетей в прикладных задачах большое внимание уделяется алгоритмам, которые позволяют максимально точно «подстроить» весовые коэффициенты в зависимости от обучающей выборки [4].
Обучение нейронных сетей прямого распространения - это процесс определения значений весов сети на основе примеров, образующих обучающее множество для сети с п входами и т выходами, состоит из N входных и выходных значений - обучающих примеров. Структура обучающего множества имеет вид
(ХЛ) ={(х, у , (4)
где х1 е Я" - входной вектор из 7-го примера, у7 е Ят - вектор желаемого выхода; Кп - множество
пт
входных сигналов; К - множество выходных сигналов.
Степень близости вектора-ответа нейросети у7 на 7-м примере и соответствующего вектора желаемый выход Уi при текущем векторе весов нейронной сети п е КЖ , где Ж - количество весовых коэффициентов нейронной сети прямого распространения (НСПР), характеризуется мгновенным функционалом качества обучения ^) [5]:
Q¡ = Q (е, (п)) = е[ (п) ■ V -е, (п), (5)
где е7(п) = у7(п) — у7, е7 е Ят - вектор отклонений фактических выходов сети от желаемого выхода, V - определенная матрица, задающая взвешенную норму вектора е7(п). Обычно V е Ктт - единичная матрица, что сводит функционал к евклидовой норме вектора отклонений:
Q(e, (w)) =ef (w)-е, (w) = (y, (w) - yf )T (y, (w) - y) = £ (y, (w) - y )2. (6)
i=i
Степень соответствия сети данным из обучающего множества задается интегральным функционалом качества обучения (E(w)) [5]:
N N m
E( w) = £ Q (w) = ££ (y, (w) - y )2. (7)
i=1 i=1 j=1
Для случая с одним выходом (m = 1) и с учетом его обозначения, как F(x,, w) - функция активации нейронов, принимает следующий вид:
N N N
E(w) = £ Q, (w) = £ (yt (w) - yt )2 = £ (F (x,, w) - yt )2. (8)
i=1 i=1 i=1
Цель обучения НСПР - это определение такого вектора весов w*, чтобы уравнение (8) принимало минимальное значение, что превращает процесс обучения сети в решение задачи безусловной оптимизации:
w* = arg min E(w). (9)
w e Rw
Для решения (9) существует множество алгоритмов. На основе метода обратного распространения ошибки были основаны три алгоритма, которые могут быть использованы для обучения искусственной нейронной сети, которые, в свою очередь, были включены в программный пакет Matlab. Это алгоритм Левенберга - Марквардта, алгоритм байесовской регуляризации и масштабируемый алгоритм сопряженных градиентов.
Алгоритм сопряженных градиентов. В задаче обучения нейронной сети алгоритм сопряженных градиентов применяется для минимизации квадратичной функции вида f (w) [6]:
f (w) = 2 wTGw - bTw+с, (10)
где w - количество весовых коэффициентов; G - матрица Гессиана; b, с - постоянные значения.
Направление поиска экстремума выбирается так, чтобы оно было ортогональным и сопряженным со всеми предыдущими значениями направления градиента (pk):
Pk =-ёк +ßk-1 Pk-u (11)
где gk = g(wk) - фактическое значение направления градиента; ßk - коэффициент, используемый для определения сопряженного направления.
Изменение весов рассчитывается по формуле
wk+1 = wk + a kPk. (12)
Коэффициент ak используется для определения сопряженного направления. Значение ak должно минимизировать f (wk+1), для расчета можно применить алгоритм золотого сечения или другой линейный алгоритм поиска минимума. Для расчета коэффициента ßk применяется формула Флетчера - Ривза:
ßk = . (13)
gk-1 .gk-1
Для квадратичных функций алгоритм сопряженных градиентов находит минимум за n шагов (n - размерность пространства поиска), поэтому алгоритм нуждается в перезапуске на каждом n + 1 шаге. Для метода Флетчера - Ривза это выполняется с помощью ßk = 0 . Полный алгоритм выглядит следующим образом:
1) инициализация весов wk (k = 1);
2) расчет градиента g1 = Vf (w1);
3) определение направления p1 = -g1;
4) расчет ak = arg min [ f {wk + akpk)];
5) коррекция весовых коэффициентов wk+1 = wk + akpk ;
6) если ошибка (E) несущественна - остановить обучение;
7) если k + 1 > n установить w1 = wk+1 ,k = 1 и перейти к шагу 2;
8) определить k = k + 1;
9) рассчитать gk+1 = Vf (wk+1), ak , вектор направления pk+1 = -gk+1 +ßkpk и перейти к шагу 4. Для расчета градиента на этапах 2 и 9 используется целевая функция ошибки нейронной сети:
f (w)=zz( yn] - ynj )2,
2N'n j
(14)
где N - количество обучающих образов; уп] и уп] - фактический и желаемый выходы сети соответственно.
Алгоритм Левенберга - Марквардта
Для устранения указанных недостатков обычно используется информация высокого порядка об Е(м>). В рамках квадратичной аппроксимации ошибки в окрестности точки п имеет вид [5]:
Е (п + Ап) - Е (п)+УЕ (п)Дп+2 Апт V2 Е( (15)
На основе квадратичной аппроксимации разработаны широко известные алгоритмы Гаусса -Ньютона и Левенберга - Марквардта (ЛМ-алгоритм), которые сводят задачу (9) для (15) к уравнению
УЕ (п) + У2 Е (п) А (п) = 0, (16)
УЕ (п) = ^ ■ е(п) = Э( У(п)—У) ■ е(п) = ^^^ ■ е(п), (17)
Эл* Эп Эп
У2 ВД = Г ^ Т ■ ^ + V е(п) V 2е(п). (18)
^ дп ) дп
Ключевое различие между ними - подход к вычислению матрицы Гессе V2Е (п). Если представить (18) в виде
Н = 3 ■ 3 + 5, (19)
где 5 - информация о вторых производных, то для алгоритма Гаусса - Ньютона 5 = 0, в то время как в ЛМ-алгоритме 5 аппроксимируется эвристическими правилами.
Исходя из (16)-(19), алгоритм Левенберга - Марквардта заключается в решении уравнения относительно Ап [5]:
(¿3 + В )А(п) = 3Т е(п), (20)
или в другой интерпретации
(Уз + и )8 = 3 е (п),
е (п) = —еМ = у — у(п), (21)
где X - коэффициент затухания Левенберга; 5 - вектор, состоящий из величин приращения весов; I - единичная матрица.
Найденный вектор 5 позволяет изменить вектор весов п. Элементы вектора п обычно упорядочиваются сначала по слою, затем по нейронам и, наконец, по весу каждого нейрона и его смещению [5].
Параметр X задается изначально и определяет поведение алгоритма, делая его более похожим на градиентный или алгоритм Гаусса - Ньютона. В самом начале обучения, когда функция F (x, w) подобрана грубо, удобно использовать алгоритм наискорейшего спуска, поэтому X выбирается относительно большим. По мере уточнения коэффициентов w более эффективным становится алгоритм Гаусса - Ньютона (при этом X становится малой величиной; при X = 0 метод вырождается в алгоритм Гаусса - Ньютона). Так, ЛМ-алгоритм реализует адаптивную модель с явной аппроксимацией S и без нее.
В результате процедура, реализующая обучающий цикл НСПР, имеет вид [5]:
1) построить матрицу Якоби J;
2) рассчитать градиент ошибки g = JTe(w);
3) рассчитать приближенную матрицу Гессе с помощью матрицы Якоби H* = JTJ ;
4) решить уравнение (H * + XI) 8 = g относительно неизвестного вектора 5;
5) вычислить E (w + 5);
6) если E (w + 5) < E(w), то X = vX и перейти на шаг 4, иначе X: = X| v, E(w + 5) : = E(w) и закончить цикл обучения.
Алгоритм байесовской регуляризации обучения
В байесовском подходе выбор решения f ведется в рамках некоторой модели H - набора ограничивающих условий. Решение выбирается как наиболее вероятное по формуле Байеса [7]:
P(f|D,H) = P(,H)P(f|H) , (22)
P(D | H)
где P( f | D, H) - вероятность выбора функции f для описания данных D в рамках модели H; P(D | f, H) - вероятность того, что функция f генерирует данные D; P( f | H) - некоторая априорная вероятность выбора f в рамках модели H. Коэффициент P(D | H) необходим, чтобы нормировать множество значений произведения P(D | f,H)P( f | H) на единицу, придав ему, таким образом, смысл вероятности.
Насколько подходит тот или иной набор ограничивающих условий H для описания данных, определяет как раз знаменатель формулы Байеса [7]:
P(D | H) = £P(D | f,H)P( f | H) = £P(D, f | H). (23)
f f
В научно-технической литературе имеется термин evidence (доказательство). Чем больше evidence, тем соответствующая модель более предпочтительна [7].
Сделав несколько предположений о внешнем виде вероятностей в формуле (22), можно найти параметр регуляризации исходя из принципа максимального правдоподобия. Если предположить, что данные зашумлены гауссовым шумом, тогда вероятность порождения функцией f(x) данных
D = {, X} можно оценить следующим выражением [7, 8]:
P(D | f) = -Uxp (-в£ (y - f (Xi))21. (24)
Возьмем стабилизирующий функционал в гауссовой форме:
N
П = £ (25)
Я=1
Ему соответствует априорная вероятность:
1 ( М \
Р(/1Н) = — ехр -а£^2 . (26)
^А V п=1 /
RELIABILITY AND QUALITY OF COMPLEX SYSTEMS. 2021;(4) Максимизация вероятности:
P(f\D, H ) = -Z—exp (—M ), (27)
ZM
L N
где M = вУ (— f )2 + ay w2 сводится к решению системы линейных алгебраических уравнений:
i=1 n=1
У w A = B , (28)
/ j m mn n ' v /
L L L
где Amn =РУ VmiV„,,n * m , Ann =РУ VI, +a , Bn =РУ y,V„, ; V» - базисная функция; Am, Amn, Bn -
i=1 i=1 i=1
симметричные матрицы с положительными элементами главной диагонали; a, в - параметры модели обучения.
В качестве значений a и в берутся те, при которых evidence максимально. Таким образом, чтобы их определить, можно, например, получить аналитическое выражение для evidence, а затем градиентными методами найти его максимум. Легко показать, что
ln P(D \ H) = ln Zm — ln Za — ln , (29)
f N ( N ]2
zm = JdNwnxexP — pyi y — У wnVn I — аУ!
n=1
w2
za=J exp | -a у wn2 ]=^ ^2, =
где ZA, ZM,ZX - нормировочные коэффициенты; через yn обозначены векторы значений n-й базисной функции в точках {x}, а через y - вектор значений искомой функции в этих точках.
Подробности вычисления этого интеграла описаны в работе [8]. В результате приходим к следующему приближенному выражению для evidence:
( (Bvw )2 N Л
ln P (D \ H ) = У — ln A -в У VVww
^ I / / j л n n r / j T n t n n m
N ЖТ5тЛ7 Г N NTT
—ln a —py +—ln в — —- ln n. (30)
2 2 2
Г 1N
Данный функционал содержит коэффициенты разложения {wn} , для нахождения которых
из формулы (20), в свою очередь, необходимо знать значения параметров а и Р. В таких случаях обычно пользуются (Expectation Maximization / ожидание максимизация) ЕМ-алгоритмом [7]:
- на первом шаге случайным образом фиксируют параметры модели а, в и вычисляют значе-Г Т N
ния {wn} из уравнения (28);
- на втором шаге находят новые параметры а и в путем поиска максимума функционала (30)
при текущих значениях коэффициентов разложения {wn}.
Далее параметры модели, полученные на втором шаге, используют для получения новых коэффициентов разложения и т.д. При байесовском подходе к регуляризации задач обучения нейронной сети многократно повторяются эти шаги. Таким образом, алгоритм сводится к некоторому решению f (x) [7].
Моделирование
Для проведения экспериментов была разработана программа в среде МайаЬ для обучения нейронной сети, состоящей из двух слоев (входной и скрытый) с использованием алгоритма Левен-берга - Марквардта, алгоритма байесовской регуляризации, масштабируемого алгоритма сопряженных градиентов и разработанного алгоритма. Количество нейронов в скрытом слое определялось с использованием теории Арнольда - Колмогорова - Хехт - Нильсена (1) по критериям максимальной вероятности распознавания объекта и минимального времени обучения (рис. 3).
Рис. 3. Разработанный алгоритм оптимизации обучения нейронной сети при определении количества нейронов в скрытом слое
При этом N - количество особых точек на изображении цели [9] обучающей выборки (N = 2098); Ny - размерность выходного сигнала (Ny = 2 jeep или tank); Nx - размерность входного сигнала (Nx = 64); w™1 , w="x - максимальное количество весов между входным и скрытым слоем, максимальное количество весов между скрытым и выходным слоем соответственно; w™ , w^ -минимальное количество весов между входным и скрытым слоем, минимальное количество весов между скрытым и выходным слоем соответственно; wmax, wmin - максимальное и минимальное количество весов соответственно; N^ - количество нейронов в скрытом слое; Го6уч - время обучения; Ррасп - вероятность распознавания; собуч - ошибка обучения; срасп - ошибка распознавания.
Проведены исследования по определению количества нейронов в скрытом слое, вероятности распознавания объекта и времени обучения нейронной сети (рис. 4-6).
40 60 80 100
Количество нейронов в скрытом слое (Л^,) Рис. 4. Зависимость времени обучения ИНС от количества нейронов в скрытом слое (Жск)
40 60 80 100
Количество нейронов в скрытом слое (N„) Рис. 5. Зависимость вероятности распознавания цели (tank) ИНС от количества нейронов в скрытом слое (Мск)
40 60 80 100
Количество нейронов в скрытом слое (W.J
Рис. 6. Зависимость вероятности распознавания цели (jeep) ИНС от количества нейронов в скрытом слое (N^)
На рис. 4-6 показано, что время обучения многослойного персептрона нейронной сети для байесовского алгоритма к регуляризации обучения больше, чем у алгоритма Левенберга - Марк-вардта и масштабируемого алгоритма сопряженных градиентов, у которого время обучения меньше, чем у остальных. Вероятность распознавания цели (tank или jeep) у алгоритма Левенберга - Марк-вардта больше, чем у масштабируемого алгоритма сопряженных градиентов и байесовского алгоритма организации обучения.
Эмпирически определяется количество нейронов в скрытом слое с использованием уравнений (1), (3) и с помощью алгоритма Левенберга - Марквардта по критерию максимальной вероятности распознавания объекта (см. рис. 3). В результате оптимальное число нейронов в скрытом слое составило Ngk = 37 с вероятностью распознавания объекта Ррасп ~ 0,99 (рис. 7, 8).
33 34 35 36 37 Количество нейронов в скрытом слое (NrJ Рис. 7. Зависимость вероятности распознавания цели (tank) от количества нейронов в скрытом слое (Мск)
33 34 35 36 37 Количество нейронов в скрытом слое (W j Рис. 8. Зависимость вероятности распознавания цели (jeep) от количества нейронов в скрытом слое (Мск)
При использовании части или всех весов нейронной сети Дск = 37, полученных эмпирически, для определения количества нейронов в скрытом слое с помощью алгоритма масштабируемых сопряженных градиентов для обучения сети по критерию максимальной вероятности распознавания объекта получаем достаточно высокую вероятность распознавания объекта (рис. 7, 8).
Результаты
Процесс распознавания цели с помощью ИНС состоит из трех этапов. Первый - это извлечение признаков из эталонных изображений по алгоритму обнаружения особых точек SURF и формирование из них базы данных; второй этап - определение (Лск) и обучение нейронной сети с использованием этих данных и желаемых выходов y{; третий этап - это этап распознавания объекта, в процессе которого извлечены признаки из текущего изображения и применены в входе построения нейронной сети.
Особая точка на изображении цели, полученная с помощью алгоритма SURF, состоит из 64 градиентов дескрипторов относительно особой точки, поэтому количество нейронов во входном слое (Nx) равно 64.
Количество нейронов в скрытом слое определялось экспериментально с использованием разработанного алгоритма по критерию максимальной вероятности распознавания объекта и в диапазоне количества нейронов в скрытом слое (30 40) (см. рис. 7, 8).Таким образом, на этапе распознавания цели при использовании разработанной ИНС, в которой получено оптимальное число нейронов в скрытом слое (Лск = 37), имеем возможность ее обучения с целью получения высокой вероятности распознавания образов наземной цели Ррасп ~ 0,99 (см. рис. 7, 8).
Список литературы
1. Прус А. И. Разработка нейронной сети прямого распространения для решения задач прогнозирования и аппроксимации : магистерская диссертация. СПб. : СПБГУ, 2016. 324 с.
2. Евдокимов И. А., Солодовников В. И. Автоматизация построения нейронной сети в рамках объектно-ориентированного подхода. М. : Центр информационных технологий в проектировании (ЦИТИ) РАН, 2015. С. 34-45.
3. Методы классической и современной теории автоматического управления : учебник в 5 т. / под ред. К. А. Пупкова, Н. Д. Егупова. 2-е изд., перераб. и доп. М. : Изд-во МГТУ им. Н. Э. Баумана, 2004. Т. 5: Методы современной теории автоматического управления. 784 с.
4. Пархоменко С.С. О сокращении времени обработки большого количества данных нейронными сетями методом Левенберга - Марквардта // Международный научно-исследовательский журнал. 2014. № 1. С. 123-134.
5. Пархоменко С. С., Леденева Т. М. Обучение нейронных сетей методом Левенберга-Марквардта в условиях большого количества данных // Вестник ВГУ. Сер.: Системный анализ и информационные технологии. 2014. № 2. С. 66-78.
6. Кучеренко А. Г. Обучение нейронной сети с использованием алгоритма сопряженных градиентов и множественной линейной регрессии для задачи прогнозирования спроса // ДГТУ экономические науки. Математические методы в экономике. 2009. № 1. С. 27-34.
7. Нужный А. С. Байесовский подход к регуляризации задачи обучения сети функций радиального базиса // Искусственный интеллект и принятие решений. 2015. № 1. С. 167-179.
8. Нужный А. С. Байесовская регуляризация в задаче аппроксимации функции по точкам с помощью ортого-нализованного базиса // Физический институт им. П. Н. Лебедева РАН. Математическое моделирование. 2011. Т. 23, № 9. С. 33-42.
9. Годунов А. И., Баланян С. Т., Егоров П. С. Сегментация изображений и распознавание объектов на основе технологии сверточных нейронных сетей // Надежность и качество сложных систем. 2021. № 3. С. 62-73.
1. Prus A.I. Razrabotka neyronnoy seti pryamogo rasprostraneniya dlya resheniya zadach prognozirovaniya i ap-proksimatsii: magisterskaya dissertatsiya = Development of a neural network of direct propagation for solving forecasting and approximation problems : master's thesis. Saint Petersburg: SPBGU, 2016:324. (In Russ.)
2. Evdokimov I.A., Solodovnikov V.I. Avtomatizatsiya postroeniya neyronnoy seti v ramkakh ob"ektno-orientirovannogo podkhoda = Automation of building a neural network in the context of object-oriented approach. Moscow: Tsentr informatsionnykh tekhnologiy v proektirovanii (TsITI) RAN, 2015:34-45. (In Russ.)
3. Pupkov K.A., Egupov N.D. (ed.). Metody klassicheskoy i sovremennoy teorii avtomaticheskogo upravleniya: uchebnik v 5 t. = The methods of classical and modern theory of automatic control: tutorial in 5 volumes. 2nd ed., rev. and suppl. Moscow: Izd-vo MGTU im. N. E. Baumana, 2004;5:784. (In Russ.)
4. Parkhomenko S.S. On reducing the processing time of a large amount of data by neural networks using the Levenberg-Marquardt method. Mezhdunarodnyy nauchno-issledovatel'skiy zhurnal = International Research Journal. 2014;(1):123-134. (In Russ.)
5. Parkhomenko S.S., Ledeneva T.M. Training of neural networks by the Levenberg-Marquardt method in conditions of a large amount of data. Vestnik VGU. Ser.: Sistemnyy analiz i informatsionnye tekhnologii = Vestnik VSU. Ser.: System analysis and information technologies. 2014;(2):66-78. (In Russ.)
6. Kucherenko A.G. Neural network training using the algorithm of conjugate gradients and multiple linear regression for the problem of demand forecasting. DGTU ekonomicheskie nauki. Matematicheskie metody v ekonomike = DSTU ekonomicheskie nauki. Mathematical methods in economics. 2009;(1):27-34. (In Russ.)
7. Nuzhnyy A.S. Bayesian approach to regularization of the problem of training a network of radial basis functions. Iskusstvennyy intellekt i prinyatie resheniy = Artificial intelligence and decision-making. 2015;(1):167-179. (In Russ.)
8. Nuzhnyy A.S. Bayesian regularization in the problem of function approximation by points using an orthonalized basis. Fizicheskiy institut im. P. N. Lebedeva RAN. Matematicheskoe modelirovanie = Lebedev Physical Institute of the Russian Academy of Sciences. Mathematical modeling. 2011;23(9):33-42. (In Russ.)
9. Godunov A.I., Balanyan S.T., Egorov P.S. Image segmentation and object recognition based on convolutional neural network technology. Nadezhnost' i kachestvo slozhnykh system = Reliability and Quality of Complex Systems. 2021;(3):62-73. (In Russ.)
References
Информация об авторах / Information about the authors
Анатолий Иванович Годунов
доктор технических наук, профессор, профессор кафедры автоматики и телемеханики, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40) E-mail: [email protected]
Anatoly I. Godunov
Doctor of technical sciences, professor, professor of the sub-department of automatics and telemechanics, Penza State University (40 Krasnaya street, Penza, Russia)
Сергей Викторович Шишков
кандидат технических наук, доцент,
доцент кафедры производства и эксплуатации
ракетно-артиллерийского вооружения,
Филиал Военной академии материально-технического
обеспечения имени генерала армии
А. В. Хрулева в г. Пензе
(Россия, г. Пенза, Военный городок, 1)
E-mail:[email protected]
Sergey V. Shishkov
Candidate of technical sciences, associate professor,
associate professor of the sub-department of production
and operation of missile and artillery weapons,
Branch of the Military Academy of Logistics
named after Army General
A.V. Khrulev in Penza
(1 Voennyy gorodok, Penza, Russia)
Сергей Товмасович Баланян
кандидат технических наук, доцент, докторант кафедры авиационного вооружения и эффективности боевого применения, Военно-воздушная академия
имени профессора Н. Е. Жуковского и Ю. А. Гагарина (Россия, г. Воронеж, ул. Старых Большевиков, 54А) E-mail: [email protected]
Ф. Х. Аль Сафтли
адьюнкт,
Военно-воздушная академия
имени профессора Н. Е. Жуковского и Ю. А. Гагарина (Россия, г. Воронеж, ул. Старых Большевиков, 54А) E-mail: [email protected]
Sergey T. Balanyan
Candidate of technical sciences, associate professor,
doctoral candidate of the sub-department
of aviation armament and effectiveness of combat use,
Air Force Academy named after professor
N. E. Zhukovsky and Yu. A. Gagarin
(54A Starykh Bol'shevikov street, Voronezh, Russia)
F. H. Al Saftli
Adjunkt,
Air Force Academy named after professor
N. E. Zhukovsky and Yu. A. Gagarin
(54A Starykh Bol'shevikov street, Voronezh, Russia)
Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.
Поступила в редакцию/Received 25.08.2021 Поступила после рецензирования/Revised 15.10.2021 Принята к публикации/Accepted 16.11.2021