Разработка и исследование алгоритма посменного инкрементного обучения нейронной сети
А.А. Орлов1, Е.С. Абрамова1 1 Муромский институт (филиал) ФГБОУ ВО «Владимирский государственный университет, имени Александра Григорьевича и Николая Григорьевича Столетовых», 602264, Россия, г. Муром, улица Орловская, д. 23
Аннотация
В работе показывается актуальность разработки инкрементных методов и алгоритмов обучения нейронной сети. Представлены семейства техник инкрементного обучения. Проведена оценка возможности применения машины экстремального обучения как инкрементного обучения. Эксперименты показывают возможность использования машины экстремального обучения как инкрементного обучения, однако при увеличении числа обучающих примеров нейронная сеть становится непригодна для дальнейшего обучения. Для решения данной проблемы предложен алгоритм инкрементного обучения нейронной сети, основанный на поочередном применении машины экстремального обучения для корректировки весов только выходного слоя сети (состояние функционирования) и метода обратного распространения ошибки (глубокого обучения) для корректировки всех весов сети (состояние сна). Полагается, что в ходе состояния функционирования нейронная сеть выдает результаты или учится на новых задачах, а в состоянии сна оптимизирует свои весовые коэффициенты. Особенностью предложенного алгоритма является его возможность адаптироваться в реальном масштабе времени под изменение внешних условий на этапе функционирования. На примере решения задачи аппроксимации показана эффективность предложенного алгоритма. Представлены результаты аппроксимации после выполнения каждого шага алгоритма. Приведено сравнение значений среднеквадратической ошибки при использовании машины экстремального обучения как инкрементного обучения и разработанного алгоритма посменного инкрементного обучения нейронной сети.
Ключевые слова: методы инкрементного обучения, искусственные нейронные сети, машина экстремального обучения, состояния функционирования и сна.
Цитирование: Орлов, А.А. Разработка и исследование алгоритма посменного инкрементного обучения нейронной сети / А.А. Орлов, Е.С. Абрамова // Компьютерная оптика. - 2023. - Т. 47, № 3. - С. 491-498. - DOI: I0.18287/2412-6179-C0-I203.
Citation: Orlov AA, Abramova ES. Development and research of a neural network alternate incremental learning algorithm. Computer Optics 2023; 47(3): 491-498. DOI: 10.18287/2412-6179-CO-1203.
Введение
В настоящее время актуальным является создание инкрементных методов обучения нейронных сетей в случае, когда данные для обучения поступают последовательно и постоянно дообучают нейронную сеть. Об этом можно говорить исходя из проведенного анализа научной литературы, так как в последние годы интерес к разработке и исследованию инкрементных методов обучения нейронной сети сильно вырос [1 - 3].
В литературе термин «инкрементное обучение» (Incremental Learning) относится к инкрементальному росту, сокращению сети или онлайн-обучению. Также используются другие термины, такие как обучение на протяжении всей жизни, конструктивное обучение и эволюционное обучение, пошаговое и непрерывное обучение [3, 4].
По сравнению с традиционным машинным обучением, для которого требуется заранее подготовленный обучающий набор данных, инкрементное обучение имеет несколько преимуществ: может обучаться
на малом объеме обучающей выборки, может постоянно обучаться, когда система работает, может адаптироваться к изменениям в полученной задаче, требует меньше вычислительных ресурсов.
С ростом требований интеллектуальных систем к методам машинного обучения инкрементное обучение может успешно применяться в областях, где целевые концепции изменяются с течением времени.
Таким образом, при разработке интеллектуальных систем желательно использовать инкрементное обучение, поскольку оно позволяет эффективно использовать вычислительные ресурсы за счет устранения необходимости переобучения при получении новых данных, избежать хранения образов и проблем с конфиденциальностью, поскольку методы учатся генерировать примеры из предыдущих задач, динамически регулировать способность модели к обучению в соответствии с новыми доступными данными.
Большинство методов инкрементного обучения можно сгруппировать в семейства техник с учетом различных точек зрения на решение проблемы ката-
строфического забывания, обладающих схожими характеристиками: методы на основе масок [5, 6], методы расширения архитектуры [4, 7], методы регуляризации [8 - 13], псевдорепетиционные методы [14 - 19].
Рассмотрев разные техники инкрементного обучения, можно заметить, что алгоритмы страдают от плохой гибкости, жестких требований к среде и низкой скорости обучения.
В связи с этим исследования в области разработки методов инкрементного обучения остаются актуальными и продолжают активно выполняться.
Таким образом, актуальность обозначенной проблемы связана с необходимостью проведения исследований в области интеллектуального анализа для решения задач, в которых требуются высокоточные и быстродействующие инкрементные методы обучения искусственных нейронных сетей, работающие в условиях малого объема обучающей выборки, а также адаптирующиеся в реальном времени под изменения внешних условий на этапе функционирования.
Целью данной работы является разработка и исследование высокоэффективного инкрементного алгоритма обучения нейронной сети.
В работе предлагается исследовать процессы поочередного применения машины экстремального обучения для корректировки весов только выходного слоя сети (состояние функционирования) и обратного распространения ошибки (глубокого обучения) для корректировки всех весов сети (состояние сна) с целью решения фундаментальной научной проблемы создания инкрементных методов обучения искусственных нейронных сетей.
Структура работы следующая. В параграфе 1 представлены описание и основная идея машины экстремального обучения. Также показано, что машина экстремального обучения допускает инкрементное обучение. Параграф 2 посвящен разработке алгоритма посменного инкрементного обучения нейронной сети, раскрываются понятия «состояние функционирования» и «состояние сна». В параграфе 3 представлены методика и результаты проведенных экспериментов. Работа завершается заключением и списком литературы.
1. Применение машины экстремального обучения для инкрементного обучения
В 2006 году Гуан-Бинь Хуанг обозначил эффективность нейронных сетей прямого распространения с одним скрытым слоем и метода быстрого обучения, основанного на случайном формировании входных весов, и дал название такому методу как машина для экстремального обучения (extreme learning machine, ELM) [20].
Стоит отметить, что аналогичные предложения использования случайных весов, соединяющих входной и скрытый слои, были сделаны ранее в статьях по радиальным базисным функциям сети (Radial basis function network, RBF) в 1990 г. [21], нейронным сетям
с прямой связью со случайными весами в 1992 г. [22], сетям случайных векторных функциональных связей (Random Vector Functional Link, RVFL) в 1994 г. [23].
На рис. 1 представлена структура нейронной сети, для обучения которой Г.-Б. Хуанг предложил использовать метод ELM.
j/sY- f yi
Xl rf / \\ A ^ У VV/-- \ A
X2 .У\ / f А д / \IV v ^
% Л j * \ У /V ^ J
У'
Входной слой Скрытый слой Выходной слой
Рис. 1. Архитектура машины экстремального обучения
Согласно работе [24], существует два основных этапа обучения нейронной сети машиной экстремального обучения: случайное формирование входных весов для каждого нейрона скрытого слоя и вычисление выходных весов.
Матрица значений на выходе вычисляется по формуле (1):
Y = f (X-V) -W, где f - функция активации,
X = (x1
- матрица-строка значений на входе,
(1)
V =
V1k
Vmk
- матрица вычисляемых весов, соединяющих скрытый и выходной слои,
(
W =
wu
Wu
\
- матрица случайных весов, соединяющих входной и скрытый слои,
У = (у1 У2 ... у/)
- матрица-строка значений на выходе.
Если /(X • V) обозначить через и, то формула примет вид (2):
Y = U • W,
(2)
где
U =
u1k
unk
- матрица выходных значений нейронов скрытого слоя.
На втором этапе веса между скрытыми и выходными слоями вычисляются за один шаг, что приводит к повышению скорости обучения, по сравнению с традиционными алгоритмами обучения искусственных нейронных сетей.
Таким образом, машина экстремального обучения обладает такими преимуществами, как быстрая скорость обучения, хорошая производительность обобщения и простота реализации.
Необходимо оценить возможность применения машины экстремального обучения для инкрементно-го обучения.
Для реализации инкрементного обучения нейронной сети будем применять рекуррентный метод наименьших квадратов (РМНК, Recursive least squares, RLS). Адаптивная коррекция всех весов производится согласно формуле Шермана-Моррисона (3):
Pk+1 = Pk —
Pk ' Uk+1 ' U k+1 ' Pk 1 + Uk+1T • Pt U+1:
(3)
w(k+1) = w(k) + Pk+l -Uk+, • (7k+1T - Uk+T
i/k)
В качестве начальных условий примем, что матрица Ж формируется случайно, а матрица Р - это результат отношения единичной матрицы к коэффициенту регуляризации.
Как видно из формулы, выходные веса рекурсивно обновляются на основе промежуточных результатов в последней итерации и вновь поступивших данных, которые могут быть отброшены после обучения, что приводит к снижению вычислительной сложности. В вычислительной структуре РМНК нет цепочек, приводящих к останову (делению на ноль). Также данный метод не требует повторного обучения всякий раз, когда появляются новые образы обучающей выборки.
Проведем предварительные экспериментальные исследования применения машины экстремального обучения для инкрементного обучения. Экспериментальные исследования выполним с помощью решения задачи аппроксимации функции, т.к. на ее основе, добавляя функциональные блоки, можно решить и другие задачи анализа данных, в частности, прогнозирование и классификацию [25, 26]. Проводить исследования будем на простых моделях данных, отражающих закономерности, присутствующие при решении многих прикладных задач. В качестве математической модели данных возьмем уравнение полинома степени т в каноническом виде, поскольку любая непрерывная на отрезке функция может быть хорошо приближена некоторым полиномом:
f (x) = с0 + c1 x + c2 x2 + ... + cmx
(4)
Для генерации уравнений канонического полинома разных порядков найдем его параметры с помощью полиноминальной регрессии. Пусть значения элементов матрицы-столбца X лежат в промежутке от 1 до п, где п - число точек. Зададим степень полинома на единицу меньше числа точек исходных данных, тогда т = п - 1. Для обеспечения наличия точек экстремума значения элементов матрицы-столбца У будут задаваться по следующему правилу.
Если индекс элемента матрицы нечетный, то значение элемента равно сумме чисел пять и случайного, лежащего в интервале от 0 до 3. Если индекс элемента матрицы четный, то значение элемента равно разности чисел пять и случайного, лежащего в интервале от 0 до 3.
На рис. 2 изображен график зависимости средне-квадратической ошибки для полинома 2-8 степеней и 30 экспериментов. Можно увидеть, что при пяти нейронах скрытого слоя среднеквадратическая ошибка для полинома 2 и 3 степеней и 30 экспериментов лежит в диапазоне от 0 до 0,032. Также можно заметить, что при увеличении степени полинома ошибка растет экспоненциально и для 8 степени полинома составляет 442.
| Средние значения ошибки Нижний предел доверительного интервала Верхний предел доверительного интервала
Степень полинома
Рис. 2. График зависимости среднеквадратической ошибки от степени полинома
Таким образом, эксперименты показывают, что машина экстремального обучения допускает инкре-ментное обучение. При малом числе примеров значение среднеквадратической ошибки почти нулевое. При увеличении примеров значение ошибки сильно увеличивается, т.е. нейронная сеть становится непригодна для обучения.
2. Разработка алгоритма посменного инкрементного обучения нейронной сети
Для того, чтобы нейронная сеть могла продолжать обучаться, предлагается алгоритм, в основе которого лежат следующие принципы.
1. Нейронная сеть может находиться в двух состояниях (в состоянии функционирования и состоя-
нии сна). В состоянии функционирования сеть выдает выходные данные (ответы) на входные данные (запросы) для решения поставленной задачи интеллектуального анализа или дообучается в случае наличия обучающих примеров. Обучение выполняется последовательно по одному примеру или последовательно пакетами примеров.
2. Обучение в состоянии функционирования построено на основе машины экстремального обучения, в котором происходит корректировка весов только выходного слоя нейронов сети.
3. Для реализации инкрементного обучения в машине экстремального обучения применяется ме-моизация матрицы P по формуле (3).
4. В случае переобучения (возникновения больших по модулю значений весовых коэффициентов на выходном слое) сеть переходит в состояние сна.
5. В состоянии сна выполняется передача части значений весов выходного слоя на нижние слои нейронов сети (веса с выходного слоя «растекаются» на нижние слои с помощью метода обратного распространения ошибки).
6. Для обучения сети в состоянии сна используются ответы, которые выдает та же сеть на сгенерированные случайным образом запросы (иначе говоря, сеть заново обучает сама себя, но уже другим методом).
7. Состояния функционирования и сна поочередно сменяют друг друга, длительность и момент смены которых зависят от значений весовых коэффициентов в нейронах сети.
Понятие «сон» нейронной сети, применяемое в данных принципах, уже использовалось в научных работах, однако у авторов отличающиеся представления о данном понятии.
В одной из ранних работ [27] авторы выдвинули гипотезу о функциональной роли сна, включающую процесс «разучивания». Применение процесса «разучивания», аналогичного процессам обучения, но с обратным знаком и начинающегося с шумового входа, повышает производительность сети при доступе к реальным воспоминаниям и минимизации ложных. Система демонстрирует поведение, которое похоже на поведение человека, необходимое для предполагаемой роли «разучивания» во сне с быстрым движением глаз.
Например, в статье [28] за основу была взята нейронная сеть Хопфилда, которую считают приближением принципов работы человеческого мозга. Авторы работы сделали аналог суточного цикла: фазу бодрствования сменяла фаза сна. При этом сам сон, как это происходит и у млекопитающих, подразделялся на фазы «медленного сна» (это глубокий сон без сновидения, когда, как думают, в мозгу происходит консолидация памяти) и «быстрого сна» (в этой фазе, как некоторые считают, мозг избавляется от ненужной информации).
Например, сон может представлять собой удаление слабых нейронных связей [29] или использование методов обучения импульсных нейросетей [30].
В настоящей работе под состоянием сна понимается обучение нейронной сети на псевдопримерах, полученных с помощью нейронной сети из предыдущего состояния с корректировкой всех весов сети. Состояние сна будет делиться на две фазы.
На основании предложенных принципов алгоритм посменного инкрементного обучения нейронной сети будет состоять из следующих шагов:
Шаг 1. Обучение сети в состоянии функционирования (обучение нейронной сети новым задачам с корректировкой весов только выходного слоя сети).
Шаг 1.1. Создание нейронной сети прямого распространения с одним скрытым слоем (рис. 1).
Шаг 1.2. Случайное формирование входных весов для каждого нейрона скрытого слоя для обучения машиной экстремального обучения.
Шаг 1.3. Инкрементное обучение нейронной сети путем вычисления матрицы выходных весов нейронов скрытого слоя W и матрицы P по формуле (3).
Шаг 1.4. Переход в состояние сна. Данный шаг необходим в связи с тем, что если долго обучать нейронную сеть машиной экстремального обучения, то настанет момент, когда ошибка станет стремительно расти, что и было показано в параграфе 1. В результате значения весовых коэффициентов становятся большими, а нейронная сеть будет непригодна для дальнейшего обучения. Шаг 2. Обучение нейронной сети на основе обратного распространения ошибки (первая фаза сна).
Шаг 2.1. Создание нейронной сети для обучения методом обратного распространения ошибки (создается необученная нейронная сеть, в которой случайным образом задаются значения весовых коэффициентов на скрытом слое).
Шаг 2.2. Случайная генерация значений матрицы случайных весов V*, соединяющих входной и скрытый слои или сохранение значений, полученных на шаге 1.2: V* = V.
Шаг 2.3. Формирование псевдопримеров с помощью нейронной сети из состояния функционирования, используя формулу (1).
Шаг 2.4. Обучение нейронной сети методом обратного распространения ошибки. Обучение методом обратного распространения ошибки происходит в два прохода: прямого и обратного. При прямом проходе сигнал, подаваемый на вход нейронной сети, распространяется к выходам сети через все слои. При этом синаптические веса нейронов имеют фиксированные значения. Во время обратного прохода вычисляется сигнал ошибки 5, равный разности фактического и целевого выхода сети. Сигнал ошибки распространяется в обратном направлении, а синап-тические веса корректируются:
V*, Ж*: = Backpropagation [V*, Ж*].
(5)
Шаг 2.5. Переход во вторую фазу состояния сна. Полученные значения весовых коэффициентов Ж являются малыми. Однако данная нейронная сеть, обученная методом обратного распространения ошибки, не допускает инкрементного обучения. Шаг 3. Обучение нейронной сети на основе машины экстремального обучения (вторая фаза сна). Шаг 3.1. Формирование псевдопримеров, полученных из первой фазы состояния сна. Шаг 3.2. Восстановление матрицы Р машиной экстремального обучения по формуле (3). Матрица Р необходима для того, чтобы сохранить знания о задачах состояния функционирования. Также будем использовать ее для расчета значений весовых коэффициентов Ж в машине экстремального обучения в состоянии функционирования на шаге 4. Начальные значения матрицы Ж* берем из первой фазы состояния сна.
Шаг 3.3. Переход в состояние функционирования. Шаг 4. Переход к шагу 1. Нейронная сеть изучает новые знания. В качестве исходных значений матрицы Р взять матрицу, полученную на предыдущем шаге. В состоянии функционирования получаем более обученную нейронную сеть, у которой остались частичные знания о старых задачах.
Цепочку перехода из состояния функционирования в состояние сна и обратно можно повторять любое количество раз, пока в систему поступают новые задачи (новые знания).
3. Экспериментальные исследования разработанного алгоритма
Для проведения экспериментальных исследований разработанного алгоритма в качестве исходных настроек будем использовать следующее.
В соответствии с шагом 1 алгоритма создается нейронная сеть с одним скрытым слоем, которая обучается на основе машины экстремального обучения. На вход подаются пять значений, а количество нейронов скрытого слоя равно семи.
На первом этапе случайно формируются входные веса для каждого нейрона скрытого слоя. Значения весовых коэффициентов расположены в диапазоне от - 0,5 до 0,5. В качестве функции активации используется гиперболический тангенс:
/ (х) =
1 + е-
--1.
(6)
Матрицу значений на выходе вычисляем по формуле (2). Если размер матрицы X =5*1, а размер матрицы V = 1*7, то получаем матрицу и размером 5*7.
Для реализации инкрементного обучения вычисляем матрицы Р и Ж согласно формуле (3).
Начальные значения матрицы Ж берем случайным образом в диапазоне от - 0,5 до 0,5.
В качестве начальных условий принимаем, что матрица Р = I/X, где I - единичная матрица, 1 - коэффициент регуляризации, равный 10 -12 [31].
Получаем начальную матрицу Р, у которой элементы на главной диагонали - это достаточно большие положительные числа, а все остальные элементы - нули.
На рис. 3 представлен результат аппроксимации при заданных условиях шага 1, среднеквадратическая ошибка равна 0,003.
Вход нейронной сети
Рис. 3. Результат аппроксимации после выполнения шага 1 разработанного алгоритма
Для первой фазы состояния сна формируем псевдопримеры с помощью нейронной сети из состояния функционирования. Для этого случайным образом задаем значения матрицы значений на входе X, а значения матрицы на выходе У получаем с помощью обученной нейронной сети состояния функционирования по формуле (1).
Задаем скорость обучения п = 0,1. Сохраняем значения весовых коэффициентов из состояния функционирования: V* = V, Ж* = Ж.
Обучаем нейронную сеть методом обратного распространения ошибки. После обучения получаем новые малые значения весовых коэффициентов по формуле (5).
На рис. 4 представлен результат аппроксимации при заданных условиях шага 2.
Вход нейронной сети
Рис. 4. Результат аппроксимации после выполнения шага 2 разработанного алгоритма
Во второй фазе сна восстанавливаем матрицу Р машиной экстремального обучения. Формируем псевдопримеры с помощью нейронной сети из первой фазы состояния сна. Обучение происходит аналогично шагу 1, однако для формирования начальной матрицы Р возьмем коэффициент регуляризации, равный 10 2 [31].
На рис. 5 представлен результат аппроксимации при заданных условиях шага 3.
Рис. 5. Результат аппроксимации после выполнения шага 3 разработанного алгоритма
На шаге 4 берем начальное значение матрицы Р из второй фазы состояния сна. Обучаем нейронную сеть машиной экстремального обучения.
На рис. 6 представлен результат аппроксимации при заданных условиях шага 4. Под старыми задачами понимаются задачи, полученные на шаге 1. Новые знания - задачи, полученные на шаге 4. Среднеквад-ратическая ошибка равна 0,122.
Вход неГфонной сети
Рис. 6. Результат аппроксимации после выполнения шага 4 разработанного алгоритма
Как можно заметить, среднеквадратическая ошибка на шаге 4 больше, чем на шаге 1. Объясняется это тем, что на шаге 4 происходит аппроксимация большего количества точек и нейронная сеть пытается найти баланс между старыми задачами и новыми знаниями, т.е. нейронная сеть адаптируется под изменение условий на этапе функционирования.
Таким образом, при использовании большего числа примеров в машине экстремального обучения как инкрементного обучения, ошибка начинает расти экспоненциально, как было показано в параграфе 1. Но при использовании предложенного алгоритма посменного инкрементного обучения нейронной сети удается достичь быстродействия (на временных интервалах функционирования) и точности на уровне метода обратного распространения ошибки.
На рис. 7 представлен график зависимости средне-квадратической ошибки от степени полинома для машины экстремального обучения, метода обратного распространения ошибки и разработанного алгоритма.
Значения среднеквадратической ошибки у разработанного алгоритма посменного инкрементного
обучения нейронной сети в сравнении со значениями среднеквадратической ошибки машины экстремального обучения в среднем меньше на 76 %. Например, для степени полинома семь ошибка меньше на 77,96 %.
Степень полинома Рис. 7. График зависимости среднеквадратической ошибки от степени полинома
Заключение
В данной работе был разработан и исследован алгоритм посменного инкрементного обучения нейронной сети. Алгоритм состоит из четырех шагов и основан на применении машины экстремального обучения и глубокого обучения в состояниях функционирования и сна соответственно. Также состояние сна делится на две фазы.
Проведенные экспериментальные исследования подтверждают результативность предложенного алгоритма. Анализируя результаты аппроксимации после выполнения шага 4 разработанного алгоритма, можно увидеть, что нейронная сеть позволяет усваивать новые знания, поступающие постепенно, и сохранять старые знания, полученные от предыдущих задач.
Таким образом, разработанный алгоритм позволяет эффективно использовать вычислительные ресурсы, за счет устранения необходимости переобучения при получении новых знаний, а цепочку перехода из состояния функционирования в состояние сна и обратно можно повторять любое количество раз.
References
[1] Ganguly S, Chatterjee A, Bhoumik D, Majumdar R. An empirical study of incremental learning in neural network with noisy training set. In Book: Das NR, Sarkar S, eds. Computers and devices for communication. Springer Nature Singapore Pte Ltd; 2021: 72-77. DOI: 10.1007/978-981-15-8366-7_11.
[2] Wang JH, Wang HY, Chen YL, Liu CM. A constructive algorithm for unsupervised learning with incremental neural network. J Appl Res Technol 2015; 13: 188-196. DOI: 10.1016/j.jart.2015.06.017.
[3] Abramova ES, Orlov AA, Makarov KV. Possibilities of using neural network incremental learning. Bull South Ural
State Univ Ser Comput Technol Autom Control Radioelectron 2021; 21: 19-27. DOI: 10.14529/ctcr210402.
[4] Sarwar SS, Ankit A, Roy K. Incremental Learning in Deep Convolutional Neural Networks Using Partial Network Sharing. IEEE Access 2020; 8: 4615-4628. DOI: 10.1109/ACCESS.2019.2963056.
[5] Mallya A, Davis D, Lazebnik S. Piggyback: Adapting a single network to multiple tasks by learning to mask weights. In Book: Ferrari V, Hebert M, Sminchisescu C, Weiss Y, eds. Computer Vision - ECCV 2018. Springer Verlag; 2018: 72-88. DOI: 10.1007/978-3-030-01225-0_5.
[6] Mallya A, Lazebnik S. PackNet: Adding multiple tasks to a single network by iterative pruning. 2018 IEEE/CVF Conf Computer Vision and Pattern Recognition 2018: 7765-7773. DOI: 10.1109/CVPR.2018.00810.
[7] Dai X, Yin H, Jha NK. Incremental learning using a grow-and-prune paradigm with efficient neural networks. IEEE Trans Emerg Top Comput 2020. DOI: 10.1109/TETC.2020.3037052.
[8] Zenke F, Poole B, Ganguli S. Continual learning through synaptic intelligence. Proc 34th Int Conf on Machine Learning 2017: 3987-3995.
[9] Xiang Y, Miao Y, Chen J, Xuan Q. Efficient incremental learning using dynamic correction vector. IEEE Access 2020; 8: 23090-23099. DOI: 10.1109/ACCESS.2019.2963461.
[10] Li P, Chen Z, Yang LT, Gao J, Zhang Q, Deen MJ. An incremental deep convolutional computation model for feature learning on industrial big data. IEEE Trans Industr Inform 2019; 15: 1341-1349. DOI: 10.1109/TII.2018.2871084.
[11] Paik I, Oh S, Kwak T, Kim I. Overcoming catastrophic forgetting by neuron-level plasticity control. Proc AAAI Conf on Artificial Intelligence 2020; 34(04): 5339-5346. DOI: 10.1609/aaai.v34i04.5981.
[12] Masse NY, Grant GD, Freedman DJ. Alleviating catastrophic forgetting using contextdependent gating and synaptic stabilization. PNAS 2018; 115(44): E104657-E104675. DOI: 10.1073/pnas.1803839115.
[13] Gaurav A, Abdelzad V, Vernekar S, Czarnecki K, Lee J, Sedwards S. Simple continual learning strategies for safer classifers. CEUR Workshop Proc 2020; 2560: 96-104.
[14] Rebuffi SA, Kolesnikov A, Sperl G, Lampert CH. iCaRL: Incremental classifier and representation learning. IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2017: 5533-5542. DOI: 10.1109/CVPR.2017.587.
[15] Wu Y, Chen Y, Wang L, et al. Large scale incremental learning. IEEE/CVF Conf on Computer Vision and Pattern Recognition (CVPR) 2019: 374-382. DOI: 10.1109/CVPR.2019.00046.
[16] Stojanov S, Mishra S, Thai NA, et al. Incremental object learning from contiguous views. IEEE/CVF Conf on Computer Vision and Pattern Recognition (CVPR) 2019: 8769-8778. DOI: 10.1109/CVPR.2019.00898.
[17] Xiong W, Wang Y, Cheng L. Fisher discriminant analysis random forest for online class incremental learning. IEEE Intl Conf on Parallel & Distributed Processing with Applications, Ubiquitous Computing & Communications, Big Data & Cloud Computing, Social Computing & Networking, Sustainable Computing & Communications
(ISPA/IUCC/BDCloud/SocialCom/SustainCom) 2019: 597-604. DOI: 10.1109/BDCloud.2018.00093.
[18] Tasar O, Tarabalka Y, Alliez P. Incremental learning for semantic segmentation of large-scale remote sensing data. IEEE J Sel Top Appl Earth Obs Remote Sens 2019; 12: 3524-3537. DOI: 10.1109/JSTARS.2019.2925416.
[19] Nakano S, Hattori M. Characteristics of contrastive Hebbian learning with pseudorehearsal for multilayer neural networks on reduction of catastrophic forgetting. Int J Comput Intell Stud 2018; 7: 289. DOI: 10.1504/ijcistudies.2018.10017450.
[20] Huang G-B, Zhu Q-Y, Siew C-K. Extreme learning machine: Theory and applications. Neurocomputing 2006; 70: 489-501. DOI: 10.1016/j.neucom.2005.12.126.
[21] Poggio T, Girosi F. Networks for approximation and learning. Proc IEEE 1990; 78: 1481-1497. DOI: 10.1109/5.58326.
[22] Schmidt WF, Kraaijveld MA, Duin RPW. Feed forward neural networks with random weights. 11th IAPR Int Conf on Pattern Recognition. Vol II. Conference B: Pattern Recognition Methodology and Systems 1992: 1-4. DOI: 10.1109/ICPR.1992.201708.
[23] Pao YH, Park GH, Sobajic DJ. Learning and generalization characteristics of the random vector functional-link net. Neurocomputing 1994; 6: 163-180. DOI: 10.1016/0925-2312(94)90053-1.
[24] Huang G-B, Zhou H, Ding X, Zhang R. Extreme learning machine for regression and multiclass classification. IEEE Trans Syst Man, Cybern Part B Cybern 2012; 42: 513-529. DOI: 10.1109/TSMCB.2011.2168604.
[25] Zainuddin Z, Ong P. Function approximation using artificial neural networks. WSEAS Trans Math 2008; 7: 333-338.
[26] Gopalakrishnan V, Ramaswamy C. Patient opinion mining to analyze drugs satisfaction using supervised learning. J Appl Res Technol 2017; 15: 311-319. DOI: 10.1016/j.jart.2017.02.005.
[27] Hopfield JJ, Feinstein DI, Palmer RG. "Unlearning" has a stabilizing effect in collective memories. Nature 1983; 304: 158-159. DOI: 10.1038/304158a0.
[28] Fachechi A, Agliari E, Barra A. Dreaming neural networks: Forgetting spurious memories and reinforcing pure ones. Neural Networks 2019; 112: 24-40. DOI: 10.1016/j.neunet.2019.01.006.
[29] Yamauchi K, Hayami J. Sleep learning - An incremental learning system inspired by sleep behavior-. IEEE Int Conf on Fuzzy Systems 2006: 1186-1193. DOI: 10.1109/FUZZY.2006.1681860.
[30] Tadros T, Krishnan G, Ramyaa R, Bazhenov M. Biologically inspired sleep algorithm for reducing catastrophic forgetting in neural networks (student abstract). Proc AAAI Conf on Artificial Intelligence 2020; 34(10): 13933-13934. DOI: 10.1609/AAAI.V34I10.7239.
[31] Abramova ES, Orlov AA, Makarov KV. Applying regularization to the neural network extreme learning machine. Optoelectronic devices and devices in image recognition and image processing systems. Recognition -2021 [In Russian]. Sat materials of the XVI Intern sci-tech conf. Kursk: Publisher of Southwest state University; 2021.
Сведения об авторах
Орлов Алексей Александрович, 1976 года рождения, в 1998 году окончил Владимирский государственный университет по специальности «Вычислительные машины, системы, комплексы и сети», работает заведующим кафедрой физики и прикладной математики Муромского института (филиала) ВлГУ. Область научных инте-
ресов: интеллектуальный анализ данных, обработка цифровых сигналов и изображений, системы автоматического управления. E-mail: [email protected] .
Абрамова Елена Сергеевна, 1997 года рождения, является аспирантом Владимирского государственного университета имени Александра Григорьевича и Николая Григорьевича Столетовых. Работает старшим преподавателем кафедры физики и прикладной математики Муромского института (филиала) ВлГУ. Область научных интересов: распознавание образов, машинное обучение, искусственные нейронные сети. E-mail: [email protected] .
ГРНТИ: 28.23.37
Поступила в редакцию 3 августа 2022 г. Окончательный вариант - 29 сентября 2022 г.
Development and research of a neural network alternate incremental learning algorithm
A.A. Orlov1, E.S. Abramova1 1 Murom Institute (branch) of Vladimir State University named after Alexander and Nickolay Stoletovs,
602264, Murom, Russia, Orlovskaya Street 23
Abstract
In this paper, the relevance of developing methods and algorithms for neural network incremental learning is shown. Families of incremental learning techniques are presented. A possibility of using the extreme learning machine for incremental learning is assessed. Experiments show that the extreme learning machine is suitable for incremental learning, but as the number of training examples increases, the neural network becomes unsuitable for further learning. To solve this problem, we propose a neural network incremental learning algorithm that alternately uses the extreme learning machine to correct the only output layer network weights (operation mode) and the backpropagation method (deep learning) to correct all network weights (sleep mode). During the operation mode, the neural network is assumed to produce results or learn from new tasks, optimizing its weights in the sleep mode. The proposed algorithm features the ability for real-time adaption to changing external conditions in the operation mode. The effectiveness of the proposed algorithm is shown by an example of solving the approximation problem. Approximation results after each step of the algorithm are presented. A comparison of the mean square error values when using the extreme learning machine for incremental learning and the developed algorithm of neural network alternate incremental learning is made.
Keywords: incremental learning methods, artificial neural networks, extreme learning machine, functioning and sleeping states.
Citation: Orlov AA, Abramova ES. Development and research of a neural network alternate incremental learning algorithm. Computer Optics 2023; 47(3): 491-498. DOI: 10.18287/2412-6179-C0-1203.
Authors' information
Alexey Alexandrovich Orlov (b. 1976) graduated from Vladimir State University in 1998, majoring in Computing Machines, Systems, Complexes and Networks. Currently he works as the head of Physics and Applied Mathematics department of the Murom Institute (Branch) of the VlSU. Research interests are data mining, digital signal and image processing, automatic control systems. E-mail: [email protected] .
Elena Sergeevna Abramova, (b. 1997), is a postgraduate student of Vladimir State University named after Alexander Grigoryevich and Nikolai Grigoryevich Stoletov. She works as a senior lecturer at Physics and Applied Mathematics department of the Murom Institute (Branch) of the VlSU. Research interests: pattern recognition, machine learning, artificial neural networks. E-mail: [email protected] .
Received August 3, 2022. The final version - September 29, 2022.