Научная статья на тему 'СРАВНЕНИЕ МОДЕЛИРУЮЩЕЙ СПОСОБНОСТИ НЕЙРОННЫХ СЕТЕЙ РАДИАЛЬНО-БАЗИСНЫХ ФУНКЦИЙ И ДВУХСЛОЙНЫХ ПЕРЦЕПТРОНОВ'

СРАВНЕНИЕ МОДЕЛИРУЮЩЕЙ СПОСОБНОСТИ НЕЙРОННЫХ СЕТЕЙ РАДИАЛЬНО-БАЗИСНЫХ ФУНКЦИЙ И ДВУХСЛОЙНЫХ ПЕРЦЕПТРОНОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
147
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ / СЕТЬ РАДИАЛЬНО-БАЗИСНЫХ ФУНКЦИЙ / РБФ-СЕТЬ / ДВУХСЛОЙНЫЙ ПЕРЦЕПТРОН / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / ARTIFICIAL NEURAL NETWORK / RADIAL BASIS FUNCTION NEURAL NETWORK / RBF NETWORK / DOUBLE-LAYER PERCEPTRON / MATHEMATICAL MODEL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Папаев Павел Леонидович, Макляев Илья Васильевич, Дударов Сергей Павлович

Рассмотрены нейронная сеть радиально-базисных функций (РБФ-сеть) и двухслойный перцептрон как методы получения математического описания процессов в химической технологии и смежных отраслях. На основе анализа алгоритмов обучения, времени и вычислительных затрат на обучение, ошибок обучения и тестирования даются рекомендации по использованию рассмотренных архитектур

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Папаев Павел Леонидович, Макляев Илья Васильевич, Дударов Сергей Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF MODELING ABILITY BETWEEN RADIAL BASIS FUNCTION NEURAL NETWORKS AND DOUBLE-LAYER PERCEPTRONS

There was considered the neural radial basis function network (RBF network) and the double-layer perceptron as methods of receiving the mathematical description of processes in chemical technology and adjacent branches. There was given recommendations on considered architectures application basing on analysis of training algorithms, training time, training computational expense, errors on training and testing

Текст научной работы на тему «СРАВНЕНИЕ МОДЕЛИРУЮЩЕЙ СПОСОБНОСТИ НЕЙРОННЫХ СЕТЕЙ РАДИАЛЬНО-БАЗИСНЫХ ФУНКЦИЙ И ДВУХСЛОЙНЫХ ПЕРЦЕПТРОНОВ»

УДК 004.8

Папаев ПЛ., Макляев И.В., Дударов СП.

СРАВНЕНИЕ МОДЕЛИРУЮЩЕЙ СПОСОБНОСТИ НЕЙРОННЫХ СЕТЕЙ РАДИАЛЬНО-БАЗИСНЫХ ФУНКЦИЙ И ДВУХСЛОЙНЫХ ПЕРЦЕПТРОНОВ

Папаев Павел Леонидович, старший преподаватель кафедры информационных компьютерных технологий; Макляев Илья Васильевич, студент 2 курса бакалавриата факультета цифровых технологий и химического инжиниринга;

Дударов Сергей Павлович, к.т.н., доцент кафедры информационных компьютерных технологий, e-mail: dudarov@muctr.ru,

Российский химико-технологический университет имени Д. И. Менделеева, Москва, Россия 125047, Москва, Миусская пл., д. 9

Рассмотрены нейронная сеть радиально-базисных функций (РБФ-сеть) и двухслойный перцептрон как методы получения математического описания процессов в химической технологии и смежных отраслях. На основе анализа алгоритмов обучения, времени и вычислительных затрат на обучение, ошибок обучения и тестирования даются рекомендации по использованию рассмотренных архитектур.

Ключевые слова: искусственная нейронная сеть, сеть радиально-базисных функций, РБФ-сеть, двухслойный перцептрон, математическая модель.

COMPARISON OF MODELING ABILITY BETWEEN RADIAL BASIS FUNCTION NEURAL NETWORKS AND DOUBLE-LAYER PERCEPTRONS

Papaev P.L., Maklyaev I.V., Dudarov S.P.

D. Mendeleev University of Chemical Technology of Russia, Moscow, Russia

There was considered the neural radial basis function network (RBF network) and the double-layer perceptron as methods of receiving the mathematical description of processes in chemical technology and adjacent branches. There was given recommendations on considered architectures application basing on analysis of training algorithms, training time, training computational expense, errors on training and testing.

Keywords: artificial neural network, radial basis function neural network, RBF network, double-layer perceptron, mathematical model.

Задачи моделирования процессов в химической технологии, фармацевтической промышленности, биотехнологии и смежных отраслях традиционно решаются с помощью классических подходов и методов, получивших своё развитие в 60-80 гг. XX века. В последние десятилетия большую популярность приобрело нейросетевое

моделирование. Благодаря большому количеству существующих архитектур искусственных нейронных сетей с помощью них можно решать различные разновидности задач моделирования. В данной работе проводится сравнение моделирующей способности двухслойных перцептронов и нейронных сетей радиально-базисных функций.

Двухслойные перцептроны представляют собой искусственные нейронные сети прямого распространения, имеющие, в общем случае, произвольное количество входных и выходных переменных [1]. В структуре таких сетей всего два слоя нейронов: скрытый и выходной. Количество входов сети соответствует количеству входных переменных математической модели, а количество нейронов выходного слоя и, соответственно, выходов нейронной сети - количеству выходных переменных математической модели. Количество скрытых нейронов может варьироваться разработчиком модели в зависимости от сложности связи входов и выходов, разнообразия и количественного состава примеров

обучающей выборки и, как правило, должно быть больше числа выходных переменных. Двухслойные перцептроны содержат однотипные, обычно одинаково настроенные нейроны с сигмоидной логистической активационной функцией.

Нейронные сети радиально-базисных функций также имеют двухслойную структуру [1], однако нейроны в скрытом и выходном слоях различаются между собой. Скрытый слой - это слой радиально-базисных функций. В качестве активационной функции таких нейронов обычно используется одномерная или многомерная (в зависимости от размерности задачи моделирования) функция Гаусса. Количество скрытых нейронов определяется количеством заданных стационарных узлов интерполирования, а выходы этих нейронов, соответственно, представляют собой меру степени соответствия вектора входных переменных центрам одного из узлов. Нейроны второго (выходного) слоя призваны линейно взвесить выходы нейронов скрытого слоя, что позволяет рассчитать выходы сети для поданной на неё входной комбинации значений переменных.

Обе представленные архитектуры искусственных нейронных сетей неоднократно доказывали свою эффективность при решении различных задач моделирования в ранее проведённых исследованиях [2-4]. В данной работе проводится сравнение

эффективности решения задач моделирования с использованием этих двух альтернативных архитектур.

К основным критериям сравнения двух архитектур нейронных сетей можно отнести: алгоритм обучения, время обучения, время расчёта по обученной нейронной сети, сложность структуры, объём вычислений, ошибки обучения и тестирования, принципы подбора параметров настройки сети. Многие из перечисленных критериев связаны между собой. Проведём последовательное сравнение рассматриваемых архитектур по перечисленным выше критериям.

Обе архитектуры обучаются по принципу обучения с учителем. Он подразумевает наличие обучающего множества, представляющего собой массив сопоставленных друг с другом входных и выходных переменных. В обоих случаях цель обучения нейронной сети - определение таких значений весовых коэффициентов, при которых рассчитанные значения выходных переменных будут наиболее близки к выходным значениям обучающих примеров. В случае двухслойных перцептронов алгоритм обучения заключается в многократном уточнении весов, ход которого зависит от начальной инициализации весовых коэффициентов и порядка предъявления обучающих примеров. В наибольшей степени это проявляется в алгоритме обратного распространения ошибки [1]. В зависимости от сложности структуры нейронной сети и рельефа поверхности функции ошибки для обучения перцептронов могут применяться и другие алгоритмы градиентного, детерминированного и случайного поиска. В нейронных сетях на основе радиально-базисных функций весовые коэффициенты выходного слоя могут быть вычислены однозначно за один расчётный цикл с использованием базовых операций матричной алгебры благодаря линейной связанности с выходными значениями и, как следствие, с погрешностью расчёта для каждого отдельно взятого примера. Указанные отличия в организации алгоритма обучения предопределяют возможность дообучения двухслойных перцептронов при появлении новых обучающих векторов и необходимость обучения с самого начала в аналогичной ситуации для РБФ-сетей.

По времени обучения РБФ-сети и двухслойные перцептроны могут сильно различаться из-за особенностей организации алгоритма подбора весовых коэффициентов. Если для РБФ-сетей это происходит быстро, во многих случаях мгновенно вследствие однократного выполнения расчётного цикла, то для двухслойных перцептронов процесс может растянуться даже на минуты и часы. В последнем случае продолжительность обучения будет очень чувствительна к размерности задачи, структуре сети объёму обучающей выборки.

Длительность обучения двухслойных

перцептронов никак не сказывается на времени их практического использования. Так же, как и для РБФ-

сетей расчёт по уже обученному перцептрону выполняется быстро за однократный проход сигналов от входов к выходам.

По сложности структуры рассматриваемые сети практически не отличаются. Обе они двухслойные с прямым распространением сигналов. В обоих случаях нелинейность обработки входов достигается за счёт применения активационной функции: в РБФ-сетях -функции Гаусса, в перцептронах - сигмоидной логистической функции. Единственное существенное отличие в том, что в двухслойных перцептронах нелинейное преобразование сигналов осуществляется в обоих слоях, а в РБФ-сетях только в скрытом слое. Близость структуры этих двух сетей приводит к минимальной, практически несущественной разнице в объёме вычислений по обученным сетям.

Обе сети одинаково чувствительны к объёму и репрезентативности обучающих данных. Чем больше примеров обучающей выборки, тем меньше должны быть ошибки обучения и тестирования при адекватной сложности структуры сети. Однако если при настройке двухслойных перцептронов учесть репрезентативность данных в обучающей выборке практически не представляется возможным, то для РБФ-сетей это возможно сделать, регулируя плотность узлов интерполирования в скрытом слое.

В качестве одного из основных параметров настройки обеих архитектур нейронных сетей используется параметр насыщения активационной функции - коэффициент при аргументе в экспоненте. Чем он выше, тем более строгая селективность выходного значения наблюдается для значений аргументов. И наоборот, чем ближе параметр насыщения к нулевому значению, тем в меньшей степени учитывается влияние аргумента активационной функции. При подборе параметра насыщения важно найти правильный баланс между его большой и малой величиной, так как слишком большое значение приведёт к минимизации диапазона значений аргумента, влияющих на результат вычисления, а слишком маленькое - к размытости и неопределённости этого диапазона.

Обобщённые результаты сравнения двух архитектур приведены в таблице 1.

Практические результаты сравнения

моделирующей способности РБФ-сетей и двухслойных перцептронов продемонстрированы на рис. 1. Рассматривалась выборка из 88 обучающих примеров, описывающая изменение концентрации молочной кислоты в биореакторе. В качестве нейросетевых моделей рассматривались и сравнивались двухслойный перцептрон с 5 нейронами в скрытом слое и нейронная сеть радиально-базисных функций с 5 скрытыми радиальными элементами. В обоих случаях параметр насыщения активационных функций равнялся 2,0. Тестирование проводилось на 10 примерах для конкретного эксперимента. В результате ошибка тестовой выборки для РБФ-сети составила 10,7%, для перцептрона - 5,97%.

Таблица 1. Сравнение влияния РБФ-сетей и двухслойных перцептронов на ход и результат моделирования

Критерий сравнения Нейронная РБФ-сеть Двухслойный перцептрон

Организация алгоритма обучения Однократный расчёт весовых коэффициентов Многократное повторение цикла обучения

Возможность дообучения Нет Есть

Однозначность результата обучения Есть Нет

Продолжительность обучения Быстро Медленно

Время использования обученной сети Быстро Быстро

Слоёв с нелинейным преобразованием сигналов Один Два

Возможность учёта плотности обучающих данных Есть Нет

0,2 м

О 5 10 15 И эп 35

Продолжительность процесса, н

Рис. 1. Изменение концентрации молочной кислоты в

биореакторе: фактическое (выборка), модель на основе перцептрона, модель на основе РБФ-сети

По результатам проведённого сравнения можно сделать следующие основные выводы:

1. Двухслойные перцептроны требуют более продолжительного обучения и большего расхода вычислительных ресурсов во время процесса обучения;

2. При эквивалентных по сложности структурах двухслойные перцептроны позволяют получить математическое описание с меньшим уровнем ошибки, чем РБФ-сети;

3. РБФ-сети целесообразно применять в качестве инструмента для получения математического

описания функций со сложным рельефом поверхности и неоднородной плотностью значений входных переменных в обучающей выборке.

Список литературы

1. Дударов С. П., Папаев П. Л. Теоретические основы и практическое применение искусственных нейронных сетей. - М.: РХТУ им. Д. И. Менделеева, 2014. - 104 с.

2. Александров А. К., Дударов С. П. Моделирование процесса перемешивания в реакторе и определение его оптимальных конструкционных характеристик с использованием нейронных сетей радиально-базисных функций/ А. К. Александров, С. П. Дударов. - Успехи в химии и химической технологии: сб. науч. тр. Том XXXIII, № 11. - М.: РХТУ им. Д. И. Менделеева, 2019. - с. 12-14.

3. Маркин И. С., Дударов С. П. Программное обеспечение для интерполирования полей загрязнения атмосферы в режиме реального времени с использованием нейронных сетей радиально-базисных функций/ И. С. Маркин, С. П. Дударов. -Успехи в химии и химической технологии: сб. науч. тр. Том XXXII, № 1. - М.: РХТУ им. Д. И. Менделеева, 2018. - с. 12-14.

4. Дударов С. П., Папаев П. Л., Кудряшов А. Н., Карибова Ю. А. Ячеечно-нейросетевые модели в задачах экологической безопасности. -Искусственный интеллект и принятие решений, 2011, № 2. - с. 31-39.

i Надоели баннеры? Вы всегда можете отключить рекламу.