Научная статья на тему 'НЕЙРОЭВОЛЮЦИОННОЕ ПОДКРЕПЛЯЮЩЕЕ ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ'

НЕЙРОЭВОЛЮЦИОННОЕ ПОДКРЕПЛЯЮЩЕЕ ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
124
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / НЕЙРОННАЯ СЕТЬ СВЁРТКИ / НЕЙРОЭВОЛЮЦИЯ / ЭВОЛЮЦИОННЫЕ АЛГОРИТМЫ / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ / РАСПОЗНАВАНИЕ СИМВОЛОВ / РАСПОЗНАВАНИЕ ТЕКСТА / ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ / ГЛУБОКОЕ ОБУЧЕНИЕ / ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бурый Я. А., Самаль Д. И.

В статье представлены результаты объединения 4-х различных типов обучения нейронных сетей: эволюционного, с подкреплением, глубокого и экстраполирующего. Последние два используются в качестве первичного метода уменьшения размерности входного сигнала системы и упрощения процесса её обучения с точки зрения вычислительной сложности.В представленной работе нейросетевая структура управляющего устройства моделируемой системы формируется в ходе эволюционного процесса, с учётом известных на текущий момент особенностей строения и развития самообучающихся систем, имеющих место в живой природе. Данный способ его конструирования даёт возможность обойти специфические ограничения моделей, созданных на основе рекомбинации уже известных топологий нейронных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEUROEVOLUTIONARY REINFORCING LEARNING OF NEURAL NETWORKS

The article presents the results of combining 4 different types of neural network learning: evolutionary, reinforcing, deep and extrapolating. The last two are used as the primary method for reducing the dimension of the input signal of the system and simplifying the process of its training in terms of computational complexity.In the presented work, the neural network structure of the control device of the modeled system is formed in the course of the evolutionary process, taking into account the currently known structural and developmental features of self-learning systems that take place in living nature. This method of constructing it makes it possible to bypass the specific limitations of models created on the basis of recombination of already known topologies of neural networks.

Текст научной работы на тему «НЕЙРОЭВОЛЮЦИОННОЕ ПОДКРЕПЛЯЮЩЕЕ ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ»

УДК 004.[932.75>1+89]

Я. А. БУРЫЙ, Д. И. САМАЛЬ

НЕЙРОЭВОЛЮЦИОННОЕ ПОДКРЕПЛЯЮЩЕЕ ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ

Белорусский государственный университет информатики и радиоэлектроники г. Минск, Республика Беларусь

В статье представлены результаты объединения 4-х различных типов обучения нейронных сетей: эволюционного, с подкреплением, глубокого и экстраполирующего. Последние два используются в качестве первичного метода уменьшения размерности входного сигнала системы и упрощения процесса её обучения с точки зрения вычислительной сложности.

В представленной работе нейросетевая структура управляющего устройства моделируемой системы формируется в ходе эволюционного процесса, с учётом известных на текущий момент особенностей строения и развития самообучающихся систем, имеющих место в живой природе. Данный способ его конструирования даёт возможность обойти специфические ограничения моделей, созданных на основе рекомбинации уже известных топологий нейронных сетей.

Ключевые слова: Нейронные сети, нейронная сеть свёртки, нейроэволюция, эволюционные алгоритмы, генетический алгоритм, распознавание изображений, распознавание символов, распознавание текста, обучение нейронных сетей, глубокое обучение, обучение с подкреплением.

Введение

В последнее время нейросетевые модели отлично себя показали в различных направлениях искусственного интеллекта и, вследствие способности к некоторой имитации мыслительной деятельности человека, нашли широкое применение в качестве классификаторов во многих типах систем распознавания и принятия решений.

Среди их разновидностей следует особо выделить нейронные сети свёрточного типа, обладающие неплохой способностью к обобщению поступающей на их входы информации и инвариантностью к различным небольшим искажающим деформациям входного сигнала.

Несмотря на достигнутые успехи в области решения задач математического программирования с помощью нейронных сетей, сложившийся инструментарий их разработки базируется на сочетании уже известных типов структур. Это даёт возможность решения многих типов задач, однако требует соблюдения различных специальных условий для обеспечения заданного качества работы моделей,- таких, как хорошая выровненность фотографий, отсутствие сильных искажений,

соответствие шаблонам. Выполнение этих условий может быть соблюдено в таких прикладных задачах, как, например, распознавание паспортных или анкетных данных.

Вместе с тем, согласно теореме Коско о нечёткой аппроксимации, любую математическую систему можно аппроксимировать системой на нечёткой логике. При этом любую из существующих логических функций можно аппроксимировать при помощи многослойных нейронных сетей с разной точностью [1].

Вследствие подобия эволюционных алгоритмов с аналогичными процессами, имеющими место в живой природе, и в результате которых возникли биологические интеллектуальные системы, предположительно именно с их помощью должно быть возможно воспроизведение и подобных этим системам вероятностных моделей, способных адаптироваться к некоторой внешней среде, интерпретирующей их поведение.

Биологические прототипы искусственных интеллектуальных систем обладают способностью приспособления практически к любым условиям существования. Несмотря на то, что на текущий момент нет возможности точно повторить топологию связей в естественных

нейронных сетях, возможно предпринять попытку воспроизведения самого процесса их формирования, в надежде получить универсальный механизм оптимизации приемлемого качества, пригодный для решения максимально широкого перечня типов интеллектуальных задач.

Задача создания подобного механизма является актуальной, т.к. существует, например, насущная потребность в разработке универсальной системы распознавания текста, инвариантной к различным существенным искажениям, изменению масштабов, поворотам и другим трансформациям входных изображений.

Постановка задачи

Обучение с подкреплением подразумевает максимизацию числового значения некоторого сигнала вознаграждения обучаемой системой посредством модификации своего поведения под воздействием информации из окружающей среды. При этом система обучается не по заданным заранее примерам реакций в ответ на конкретные стимулы, как это происходит в большинстве обучающих методов, а, вероятностно взаимодействуя со средой, стремится выработать такие реакции, которые принесли бы ей наибольшее вознаграждение.

Таким образом, обучение с подкреплением определяется не с помощью формального описания методов обучения, а через выявление характерных особенностей задачи обучения, а любой метод, который хорошо подходит для решения описанной выше задачи, может рассматриваться в качестве метода обучения с подкреплением [2].

В отличие от классического обучения с подкреплением, которое не предполагает использование эволюционных методов [2], т.к., якобы, в процессе обучения с учителем «доступно намного больше подробной информации о том, как обучаться, чем может быть учтено в эволюционных методах», нейроэволюци-онное подкрепляющее обучение основывается на применении строго эволюционных методов при конструировании обучающегося и принимающего решения нейросетевого агента [2] для оптимизации значения некоторой функции оценки его поведения.

Следует заметить, что эволюционные алгоритмы достаточно универсальны для применения также при обучении с учителем, которое, в таком случае, может предполагать использование управляемого искусственного отбора для оптимизации как внутренней структуры классификатора, так и состояния этой структуры под воздействием сигналов от среды обитания.

Кроме того, представленный способ обучения подразумевает самостоятельную адаптацию агента к изменениям, происходящим в среде обитания (т.е.- «автодообучение»), а также позволяет решить проблему поиска компромисса между изучением и применением [2] за счёт стохастического поиска в пространстве решений, где стратегия выбора между поиском новых и применением уже добытых знаний определяется в ходе эволюционного процесса.

Описанная проблема является специфической для обучения с подкреплением и в других видах обучения отсутствует. Она заключается в том, что для получения большего вознаграждения обучающейся системе нужно выполнять действия, которые уже вызывали поощрение в прошлом. Но при этом система должна обучаться новым таким действиям - получать новые знания,- а для этого необходимо также пробовать выполнять новые действия, которые ранее не выполнялись и многократно их повторять для определения степени надёжности связей между воспринимаемыми ситуациями, предпринимаемыми действиями и сигналом вознаграждения. В работе [2] указано, что данное противоречие «активно исследуется математиками уже в течение нескольких десятилетий» и названо одной из наиболее серьёзных проблем, которые возникают при применении обучения с подкреплением.

Таким образом, в рамках данной статьи под нейроэволюционным подкрепляющим обучением будем подразумевать эволюционный поиск такой структуры нейронной сети, управляющей агентом, которая обладала бы поведенческими качествами, достаточными для успешного решения поставленной задачи.

В качестве таковой для достижения целей данного исследования была выбрана задача распознавания текста, которую, в свою очередь, можно определить, как поиск такой

последовательности символов заданного алфавита, которая максимально соответствует входному изображению текстовой информации. В рамках описываемой модели, все возможные сочетания символов на изображении могут быть представлены в виде марковского процесса [2]. При этом семантика, от которой он абстрагирован, может быть проявлена в дальнейшем через осуществление собственного поведения системы, как результат интерпретации её входных данных.

Существующие сегодня подходы и методы классификации и распознавания образов базируются на статичном поведении системы, когда ей на вход подаётся образ, а ответной реакцией служит мгновенное значение выхода, однозначно интерпретируемое в номер одного из классов, к которому она его отнесла, и на которые ранее была обучена. При этом система не генерирует управляющих сигналов, что значительно упрощает применение к ней обучения с учителем, т.к. становится возможным определить точное значение выхода в ответ на конкретный стимул. Таким образом, обратная связь от среды обитания практически отсутствует. Системе предоставляется некоторый образ, и она реагирует на него каким-то конкретным значением своих выходов, а каждый отдельный акт её работы не имеет связи с предыдущими и последующими.

С одной стороны, описанная концепция значительно упрощает минимальную необходимую структуру нейронной сети, лежащую в основе модели, но с другой - при обучении и взаимодействии агента со средой отсутствует динамический аспект, когда поведение системы проявляется в виде интерактивного кибернетического процесса, что уменьшает степень её подобия с моделируемым естественным аналогом, и, предположительно, отрицательно влияет на общее качество получаемого результата.

Обучение с подкреплением позволяет устранить эту разницу, однако требует некоторой адаптации для применения в рамках концепции обучения с учителем.

Рассматривая существующие биологические аналоги в естественной среде с точки зрения имеющихся данных об их развитии и строении, можно определить в них некоторые базовые характеристики, которые могут

быть положены в основу проектирования. Среди них следует особо заметить однозначный нейросетевой характер структуры, эволюционную природу процесса формирования топологии связей между нейронами, а также подкрепляющий механизм обучения, при котором система обучается взаимодействию с некоторой окружающей средой.

Таким образом, можно предположить, что стохастическая модель естественного аналога системы распознавания может быть получена в результате эволюционного процесса и описана с точки зрения нейросетевого моделирования, совместно с подкрепляющим обучением.

Задачей текущего исследования является проверка следующей гипотезы: в рамках ней-роэволюционного подкрепляющего обучения за ограниченное время возможно получить такую структуру агента, действующего в определённой цифровой среде обитания, которая наделяла бы его поведением, приспособленным к решению некоторой интеллектуальной задачи, характерной именно для данной среды обитания. В качестве такой задачи для проверки гипотезы было выбрано распознавание искажённых изображений коротких последовательностей текста. При этом изображения могут быть произвольного размера и искажёнными до той степени, которая не препятствует их распознаванию человеком.

Как правило, качество разрабатываемых систем распознавания оценивается значением соответствующей среднеквадратической ошибки её выходов, что характерно также и для эволюционных моделей [3]. Однако при обучении с подкреплением данная метрика не может быть объективно оценена, т.к. точно неизвестно заранее, какое именно поведение должна проявить система для распознавания конкретного стимула, и, в то же время, множество различных комбинаций действий могут предшествовать итоговому верному отклику системы.

Таким образом, чтобы оценить её качество при экспериментальной проверке гипотезы нужно определить и проанализировать следующие выходные динамические параметры модели, получаемые в результате итеративной работы эволюционного алгоритма:

• относительное скалярное значение полиномиальной функции взвешивания;

• общая точность определения характеристик текущего распознаваемого символа;

• относительная точность определения местоположения текущего распознаваемого символа;

• относительная точность определения размеров текущего распознаваемого символа;

• абсолютная точность определения количества символов на изображении;

• абсолютная точность распознавания символов;

Описание модели

Схема взаимодействия агента с окружающей средой в рамках концепции эволюционного подкрепляющего обучения изображена на рис. 1. На каждом дискретном временном шаге, которые составляют последовательность 1=0, 1, 2, ..., агенту предъявляется текущее описание состояния окружающей среды st е З1. где - множество допустимых состояний, на основе которого он генерирует действие а( е Агде А- множество возможных действий в состоянии st. В следующий момент времени t + 1, в ответ на предпринятые ранее действия агента, ему сообщается некоторое числовое значение вознаграждения г+! е Я, а также новое состояние окружающей среды st+l [2]. Вместе с тем, среда взаимодействует не с одним агентом, а с некоторой их популяцией, сообщая им на каждом временном шаге последовательности h = ^ С, где С е Z, С=сот1, описания их внутренней структуры в виде генерируемого в результате работы генетического алгоритма генома gnh е О, где п - номер особи

в популяции, а О - множество возможных описаний внутренней структуры агента.

Для минимизации размерности пространства признаков входного сигнала с целью упрощения общей структуры системы было применено абстрагирующее кодирование входных изображений в рамках концепции экстраполирующего обучения [4], при использовании которого информация, содержащаяся в одной, уже обученной, нейронной сети, может быть использована для ускорения и улучшения качества классификации, а также распознавания образов, принадлежащих к неизвестным ей классам, с помощью другой нейронной сети. Однако в общем случае здесь может применяться любое кодирующее преобразование, уменьшающее размерность признакового пространства входа без существенной потери информации, что позволяет значительно упростить архитектуру сети и, в результате, ускорить её работу. Описанная в указанной работе структура модели позволяет добиться регулярно достигаемой точности распознавания «интерполятора» [4] более 99 % в серии запусков на обучающей базе изображений рукописных символов М^1БТ [5], некоторые изображения из которой показаны на рис. 2.

Структура связей нейронной сети, лежащей в основе устройства управления системы, представлена на рис. 3. В нижней его части изображена схема «интерполирующей» подсети, а в верхней - непосредственно эволюционирующий нервный узел (ганглий). Он представляет собой множество связанных друг с другом искусственных нервных клеток и в вышеописанной концепции обучения с подкреплением

з. ие з z

S\3 /

3

ч\0\г

ь з

Рис. 1. Взаимосвязь «агент - окружающая среда» в эволюционном обучении с подкреплением

Рис.2. Примеры изображений рукописных символов из базы ММЖ

Интерполятор

Выход ганглия

Внутренние нейроны ганглия

Дополнительный входной слой ганглия

Дополнительный вход ганглия - внутренняя память и сигналы от среды обитания

птт.>

Основной входной слой ганглия Выходной слой интерполятора, основной вход ганглия - интерполированное изображение

Скрытые слои интерполятора

Входной слой интерполятора Вход интерполятора

Г Г Г V ГП Г ! ! П Г Г Г!! ! ГИТ

Рис. 3. Схема нейронной сети, лежащей в основе агента

играет роль агента. Нейроны, изображённые в нижней части ганглия, являются входными и связаны, кроме других нейронов ганглия, также с выходами «интерполятора». Нейроны средней части являются промежуточными и связаны только с нейронами самого ганглия. Нейроны, изображённые в верхней части нервного узла, являются выходными и генерируют множество двоичных сигналов, интерпретируемых средой обитания в конкретное воздействие, определяя параметры области восприятия и характеристики текущего действия всей системы распознавания.

Формирование информационного ответа окружающей средой может производиться, например, как: масштабированием/перемещением текущей области восприятия изображения, передачей данных о работе системы на предыдущих этапах процесса распознавания (которые являются, таким образом, её внутренней памятью), а также сообщением некоторых качественных характеристик осуществлённого воздействия, необходимых для определения значения г(+1.

Формирование подкрепляющих сигналов Г производится на основе эволюционного механизма, где в качестве хромосомы понимаются ассоциированное с конкретным решением задачи распознования множество связей между нейронами ганглия и числовые значения весовых коэффициентов, определяющих силы этих связей. Под конкретной особью в данной работе понимается некий механизм (протокол)

взаимодействия агента с внешней средой согласно правилам, описываемым ассоциированной с ней хромосомой. С точки зрения обучения с подкреплением это понятие совпадает с агентом [2], который взаимодействует с внешней средой.

Для разработки интерполирующей нейронной сети использовалось средство глубокого обучения Са^е [6]. Данный фреймворк применяется для разработки и обучения нейронных сетей свёрточного типа на базе ОРи методом обратного распространения ошибки с использованием пакетного обучения и алгоритма стохастического градиентного спуска, что позволяет существенно ускорить процесс обучения.

В качестве эволюционного метода оптимизации хромосом, определяющего структуру ганглия, был выбран генетический алгоритм [3], основанный на эволюционных процессах и механизмах, имеющих место в живой природе. Выражения для операторов кроссингове-ра и мутации представлены в формулах 1 и 2, соответственно.

С„+1 = Ап +$.(Вп - Ап), (1)

где Сп+1 - потомок в поколении п+1, Ап и Вп -родители в поколении п, £ е (0..1) - случайная величина.

Мп = Ап + Rt (2 .£-1) , (2)

где Мп - мутировавшая хромосома, Ап - мутирующая хромосома, -радиус мутации.

Суть работы эволюционного алгоритма с точки зрения данного исследования может быть описана следующим образом: на начальном этапе определяется некоторое количество особей, для которых структура связей и их значения активируются случайным образом. Затем в процессе работы алгоритма происходит регулярная оценка результатов функционирования особей популяции с точки зрения качества их поведения и отбор некоторого количества для дальнейшего функционирования, а также создания на их основе новых особей, в то время как остальные уничтожаются; после чего процесс продолжается заново. В качестве функции взвешивания хромосом использовалось выражение, описанное в формуле 3.

F = IXb,

(3)

где множество Х1, Х2, ..., Хп е [0..1] означает частные качественные оценки, некоторые из которых определены в разделе «Постановка задачи», а Ь1, Ь2, — , Ьп е 2 являются их коэффициентами, определяющими веса указанных оценок в общей функции взвешивания, которые подбираются эмпирически. Наиболее важной из описанных метрик является абсолютная посимвольная точность, вычисляемая по формуле 4.

л=N

M

(4)

где N е Ж, N > 0 - количество успешно распознанных символов, М е Ж, М > 0, М > N - общее количество символов во всех текстах выборки.

В некоторых экспериментах для стабилизации радиуса мутации был применён принцип отжига, согласно формуле 5.

R = R

Rt=Т:

(5)

где R0 - базовый радиус мутации, t - время.

Для задания всех входных и выходных числовых констант нервного узла, кроме номера класса распознаваемого символа, в данной работе применялось конфигурационное кодирование. Это также позволяет дополнительно минимизировать итоговую сложность нейронной сети. При определении номера класса распознаваемого символа использовалось позиционное кодирование ввиду того, что оно несколько точнее конфигурационного [7], а ошибка базовой подсистемы классификации изображений оказывает значительное влияние на общий результат распознавания.

Результаты экспериментов

В процессе разработки и настройки системы для исследования сформулированной гипотезы была проведена серия из нескольких сотен запусков модели с различными комбинациями параметров эволюционного алгоритма, форм и типов взвешивающих метрик, а также характеристик разрабатываемой нейронной сети. Для проведения экспериментов была использована база «The Street View House Numbers (SVHN) Dataset» [8], содержащая искажённые изображения сверхкороткого текста

Рис. 4. Некоторые изображения из базы SVHN

Рис. 5. Результаты обучения модели:

a) сглаженное значение общей функции взвешивания;

b) точность определения позиции текущего символа;

c) точность определения размеров текущего символа;

d) общая точность определения параметров области, содержащей текущий символ;

e) точность определения количества символов на изображении; /) абсолютная посимвольная точность

длиной от 1-го до 4-х символов. На рис. 4 показаны примеры изображений, которые содержатся в ее обучающей и тестирующей выборках.

На рис. 5 показаны итоговые графики улучшения исследуемых выходных характеристик, полученных в результате функционирования эволюционного процесса настройки системы, характерных для данной серии экспериментов. Значения приведены по наилучшей особи в популяции.

Данные результаты обучения модели получены при следующих параметрах эволюционного процесса и физического окружения: количество особей в популяции - 200-2000, количество итераций обучения - 10 000, время эволюционного обучения - 42 ч., время однократного обучения интерполятора методом обратного распространения ошибки - 4 часа. Эксперименты проводились на вычислительной системе с CPU - Intel Core i7, ОЗУ 12 Гб, GPU - NVIDIA GeForce GT 650M.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

При разных значениях параметров эволюционного процесса и разрабатываемой нейронной сети имела место существенная разница в скорости схождения функций оценки качества различных аспектов поведения

системы распознавания, а также в достигаемых значениях их экстремумов. Однако практически во всех запусках наблюдалось устойчивое улучшение значений указанных функций взвешивания по траекториям, визуально сходным с логарифмическими (см. рис. 5).

Заключение

Как видно на графиках, в результате эволюционного процесса адаптации системы к её среде обитания наблюдается устойчивое последовательное улучшение взвешивающих метрик, при этом абсолютная посимвольная точность, вычисляемая по формуле 5, равная 0.5 (это значит, что обученной к этому моменту системой было успешно распознано 50 % всех представленных символов на подаваемых изображениях), как правило, была достигнута не более чем через 100 эпох работы эволюционного алгоритма,- около 4 часов процесса обучения, что составляет примерно 0.1 от всего времени обучения,- и для тренировочной, и для тестовой выборок, а остальные 0.9 части времени работы ушли на преодоление следующих 0.25 точности для тренировочной выборки.

В различных опытах, даже при одном и том же значении всех параметров системы и эволюционного процесса формирования её структуры наблюдался значительный разброс экстремальных достигаемых значений функции ценности, а также сопутствующих ей параметров, и, например, для абсолютного значения посимвольной точности составил около 20 %.

Максимальная достигнутая посимвольная точность, в описанной серии экспериментов составила около 0.79 для тренировочной и около 0.71 для тестовой выборок.

Таким образом, результаты, полученные в ходе обучения системы, позволяют утверждать о подтверждении выдвинутой гипотезы, а полученный в рамках проведения текущего исследования способ нейроэволюционного подкрепляющего обучения нейронных сетей, вследствие своей универсальности, может быть применён с соответствующими адап-тациями, наравне с проблемой распознавания текста, также к максимально широкому спектру других типов задач искусственного интеллекта.

ЛИТЕРАТУРА

1. Хижняков, Ю. Н. Алгоритмы нечеткого, нейронного и нейро-нечеткого управления в системах реального времени / Ю. Н. Хижняков.- Пермь: ПНИПУ, 2013.- 160с.

2. Саттон, Р. С. Обучение с подкреплением / Р. С. Саттон, Э. Г. Барто - М.: БИНОМ. Лаборатория знаний, 2017.- 399с.

3. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечёткие системы / Д. Рутковская, М. Пилиньский, Л. Рутковский - М .: Горячая линия - Телеком, 2013.- 384с.

4. Бурый, Я. А. Экстраполирующее обучение нейронных сетей. Информатика. Том 16, № 1 (2019) / Я. А. Бурый, Д. И. Самаль - М.: Информатика, 2019.- 86-92с.

5. База изображений THE MNIST DATABASE of handwritten digits - [Электронный ресурс]. - Режим доступа: http:// yann.lecun.com/exdb/mnist/.- Дата доступа: 14.08.2018.

6. Официальный сайт Caffe (GitHub) - [Электронный ресурс].- Режим доступа: http://caffe.berkeleyvision.org. Дата доступа: 14.08.2018.

7. Бурый, Я. А. Применение конфигурационного кодирования входного сигнала в нейронных сетях свёртки для распознавания рукописных символов / Я.А Бурый, Д.А Самаль - М.: БГУИР, BigDATA, 2019.- 366-371с.

8. База изображений The Street View House Numbers (SVHN) Dataset - [Электронный ресурс].- Режим доступа: http:// ufldl.stanford.edu/housenumbers.- Дата доступа: 14.08.2018.

9. Хайкин, С. Нейронные сети. Полный курс / С. Хайкин.- М., СПб., Киев: Вильямс, 2006.- 1104с.

10. Плотников, А. Д. Математическое программирование / А. Д. Плотников - Минск: Новое знание, 2007. - 171с

11. Николенко, С. Глубокое обучение. Погружение в мир нейронных сетей / С. Николенко, А. Кадурин, Е. Архангельская - СПб.: Питер, 2018.- 480с.

REFERENCES

1. Hizhnjakov, J. N. Algorithms of fuzzy, neural and neural-fuzzy control in real-time systems / J.N. Hizhnjakov.- Perm: PNIPU, 2013.- 160p.

2. Sutton, R. S. Reinforcement Learning / R. S. Sutton, A. G Barto.- M.: BINOM. 2017.- 399p.

3. Rutkovskaja, D. Neural networks, genetic algorithms and fuzzy systems / D. Rutkovskaja, M. Pilin'skij, L. Rutkovskij -M.: Gorjachaja linija - Telekom, 2013.- 384p.

4. Bury, Y. Extrapolating training of neural networks. Informatics. Num 16, № 1 (2019) / Y.A. Bury, D. I. Samal - М.: Informatics, 2019.- 86-92p.

5. Images dataset THE MNIST DATABASE of handwritten digits. Access mode: http://yann.lecun.com/exdb/mnist/. Access date: 14.08.2019.

6. Official site Caffe (GitHub). Access mode: http://caffe.berkeleyvision.org. Access date: 14.08.2019.

7. Bury, Y. Application of configuration coding of the input signal in convolution neural networks for recognition of handwritten characters / Y. Buryi, D. Samal - M .: BSUIR, BigDATA, 2019.- 366-371p.

8. The Street View House Numbers (SVHN) Dataset - [Electronic resource].- Access mode: http://ufldl.stanford.edu/house-numbers. Access date: 14.08.2019.

9. Hajkin, S. Neural networks. Full course / S. Hajkin.- M., SPb., Kiev: Vil'jams, 2006.- 1104p.

10. Plotnikov, A. D. Mathematical programming / A. D. Plotnikov - Minsk: Novoe znanie, 2007.- 171p

11. Nikolenko, S. Deep learning. Immersion in the world of neural networks/ S. Nikolenko, A. Kadurin, E. Arhangelskaya -SPb.: Piter Publ., 2018.- 480p.

Поступила После доработки Принята к печати

05.09.2021 01.11.2021 01.12.2021

Y. A. BURY, D.I. SAMAL

NEUROEVOLUTIONARY REINFORCING LEARNING OF NEURAL NETWORKS

Belarusian State University of Informatics and Radioelectronics, Minsk, Republic of Belarus

The article presents the results of combining 4 different types of neural network learning: evolutionary, reinforcing, deep and extrapolating. The last two are used as the primary method for reducing the dimension of the input signal of the system and simplifying the process of its training in terms of computational complexity.

In the presented work, the neural network structure of the control device of the modeled system is formed in the course of the evolutionary process, taking into account the currently known structural and developmental features of self-learning systems that take place in living nature. This method of constructing it makes it possible to bypass the specific limitations of models created on the basis of recombination of already known topologies of neural networks.

Keywords: neural networks, convolution neural network, neuroevolution, evolutionary algorithms, genetic algorithm, image recognition, character recognition, text recognition, neural network training, deep learning, reinforcement learning.

Бурый Ярослав Анатольевич, ассистент кафедры электронных вычислительных машин БГУИР, аспирант кафедры электронных вычислительных машин БГУИР.

Yaraslau A. Bury, Assistant of Electronic Computing Machines Department BSUIR, Post-graduate student of Electronic Computing Machines Department BSUIR.

Email: edidici@tut.by

Самаль Дмитрий Иванович, доцент кафедры программного обеспечения информационных технологий БГУИР, доцент кафедры программной инженерии БГТУ, кандидат технических наук.

Dmitry I. Samal, Associate Professor of the Software for Information Technologies Department BSUIR, Associate Professor of the Software Engineering Department BSTU Ph.D. Email: samal@bsuir.by

i Надоели баннеры? Вы всегда можете отключить рекламу.