ЭФФЕКТ ВЛИЯНИЯ КОЛИЧЕСТВА НЕЙРОНОВ СЕТИ НА ПАРАМЕТРЫ ЕЕ ОБУЧАЕМОСТИ
Нейронная сеть, обучение, число нейронов, ошибка обучения, ошибка прогноза.
Раздел информатики, специализирующийся на исследовании искусственных нейронных сетей, является динамично развивающейся областью естественнонаучного знания. Актуальность исследований в данном направлении обусловлена рядом причин, среди которых фундаментальный интерес к созданию искусственного интеллекта, а также широкий спектр применения нейросетей. Их разнообразное прикладное значение связано с уникальной способностью нейросетей решать те задачи, которые обычно не поддаются человеческому интеллекту. В частности, речь идет о задачах, характеризующихся очень сложными, но хорошо формализуемыми правилами. Сегодня для нейросетей существуют стандартные типы постановок задач: задачи классификации (категоризации); прогноза; оптимизации и управления, задачи построения функциональной модели, задачи распознавания образов и обработки сигналов.
Теоретические основы развития нейросетевого анализа были заложены еще в 40-х гг. прошлого века У. Маккалохом и У. Питтсом, которые разработали базовые положения теории головного мозга [McCulloch, Pitts, 1943]. Приставка «нейро» отражает два важнейших свойства нейросетей: а) самообучаемость и б) способность соединять отдельные элементы по аналогии со взаимодействием клеток нервной системы (нейронов) посредством специализированных связей (синапсов). Простейшая нейронная сеть состоит из группы формальных (искусственных) нейронов, образующих слой, которые являются упрощенными моделями естественного нейрона. С их биологическим аналогом нейросети роднит также то, что, принимая на вход некоторую сумму данных, они дают на выходе заранее непредопр еде ленный результат. Сравнение его с некоторым желаемым результатом позволяет нейросети обучаться, т. е. итерационно приближаться к заданной цели. Другими словами, процесс обучения нейронной сети заключается в «настраивании» весовых коэффициентов связей (т. е. синапсов) таким образом, чтобы определенному входному сигналу соответствовал определенный выходной сигнал.
В 1969 г. М. Минский и С. Пейперт в книге «Персептроны» (персептрон — это одно из названий искусственного нейрона) математически доказали, что существуют весьма жесткие ограничения на возможности однослойных персептронов [Minsky, Papert, 1969]. В частности, существует требование линейной разделимости классов в задачах классификации. Также было выявлено наличие серьезных трудностей в схеме обучения с учителем, где необходимо явное знание ошибок функционирования каждого нейрона и существует неопределенность понятия «ошибка» ввиду того, что обучение может быть реализовано разными способами. Эта теория получила большую известность в научном сообществе, но приостановила исследования нейронных сетей приблизительно на 15 лет.
Лишь в середине 80-х гг. к нейросетевому моделированию вновь стали относиться с должным вниманием. В это время группа Д. Румельхарта и Д. Хинтона и, независимо, группа В. Охонина и С. Барцева развили алгоритм обратного распрос-
транения ошибки (error back propagation) для обучения многослойной сети [Барцев, Охонин, 1986; Parallel..., 1986]. Под многослойной сетью понимают нейронную сеть, которая состоит из: а) входных узлов-нейронов, образующих входной слой; б) одного или нескольких скрытых слоев вычислительных нейронов и в) одного выходного слоя нейронов. Многочисленные публикации о применении нейросетей на основе этого метода обучения в промышленности подтвердили его эффективность и принципиальную применимость на практике [Pattanayak et al, 2011; Behera, Goyal, 2009].
Дальнейшее развитие нейросетевого компьютеринга связано с введением приоритетного использования ансамблей нейросетей вместо одной хорошо обученной нейронной сети для решения разнообразных задач [Tetko et al, 1995]. Помимо этого, необходимо отметить, что большинство разрабатываемых современных моделей опираются в своей основе на всевозможные модификации формального нейрона. Не менее важным этапом в этой области стал переход к аналоговым (непрерывным) сигналам и различным типам нелинейных переходных функций, которые используются для технической реализации нейросетей. Также многими школами рассматриваются нейросетевые модели, учитывающие нелинейные корреляции между входами.
Однако считается, что на сегодня исчерпывающей теории синтеза логических нейронных сетей с произвольной функцией нет и самые передовые исследования связаны с прикладным применением нейронных сетей в различных областях современной науки, производства, управления [Bartsev et al, 2008; Lin et al, 2011].
Вопрос о необходимых и достаточных свойствах сети для решения того или иного рода задач является целым направлением нейрокомпьютерной науки. Принято считать, что в большинстве случаев в процессе обучения нейросети оптимальный вариант ее параметров получается на основе интуитивного подбора [Горбань, 1990]. Тем не менее большое значение имеет зависимость качества обучения и прогноза нейронной сети от параметров самой сети. Успешность обучения оценивается по таким параметрам, как: а) ошибка обучения нейронной сети, представляющая собой среднеквадратичное отклонение предсказаний сети от эмпирических входных данных, составляющих обучающую выборку; б) ошибка прогноза нейронной сети для тестовых задач, не участвующих в обучении; в) темп обучения. Непосредственно к параметрам нейронной сети относят число нейронов, число итераций при обучении, значение спектральной плотности. Зависимость основных параметров обучаемости нейронной сети от числа нейронов может быть нетривиальной и требует специального исследования для любого класса задач. Знание зависимостей такого рода может помочь в решении важнейшей проблемы нейро-компьютеринга — ускорения процесса обучения нейронных сетей.
В данной работе была поставлена задача исследовать зависимость параметров обучения и прогноза нейронной сети от числа нейронов.
В эксперименте была использована нейросетевая надстройка «Модели», реализующая оперативный синтез с регулируемым уровнем сглаживания эмпирических данных, функционирующая в среде MS Excel. В математическом отношении программа осуществляет нелинейную многомерную регрессию; в качестве интерполирующего используется один из вариантов многомерных представлений в виде интегралов Фурье. При оптимизации используются метод обратного распространения ошибки и метод сопряженных градиентов [Носков и др., 2003].
Нейросети, формируемой в описанной компьютерной среде, предлагалось решить задачу предсказания функции sin (х). Значения этой функции подавались
на единственный вход нейронной сети, и они же являлись эталоном, с которым сеть должна была сравнивать прогнозируемые значения выхода. Выбор задания был обусловлен требованием наиболее простой задачи, которую данная нейросеть способна решить и ход решения которой легче проконтролировать. Обучающая выборка, содержащая последовательность входных данных нейронной сети, использовалась для настройки внутрисетевых связей, т. е. непосредственно процесса обучения.
На предварительном этапе вычислений было установлено, что задача прогнозирования синуса нейронной сетью с одним входом решается удовлетворительно, если
3
обучающая выборка содержит не менее — периода синуса. Размер тестовой выбор-
4
-1
ки, предлагаемой для прогноза неиросети, ограничивался 5 - периода синуса.
2
В ходе проведенного компьютерного эксперимента процесс обучения нейронных сетей запускался при разных значениях числа нейронов с прочими одинаковыми параметрами. По снятым данным выполнено 60 вычислений средних параметров обучаемости нейронной сети, каждое из которых рассчитывалось для семейства нейронных сетей (5—10 нейросетей с совпадающими параметрами). Полученные результаты представляли в нормированном виде. Затем по сгенерированным данным были построены зависимости средней ошибки обучения, средней ошибки прогноза и среднего темпа обучения нейронной сети от числа нейронов, представленные на рис. 1.
0 10 20 30 40 50
число нейронов
Рис. 1. Влияние числа нейронов на ошибку обучения (-°~), ошибку прогноза (—Д—) и темп обучения (—°—) нейронной сети при следующих условиях: значение спектральной плотности - 0.1, число итераций - 1
Кривая среднего темпа обучения, представленная на рис. 1, отражает отсутствие направленного влияния числа нейронов на темп обучения нейронной сети, так как средний темп обучения с ростом числа нейронов сети не демонстрирует явного тренда.
Средние ошибки обучения и прогноза нейронной сети имеют одинаковый порядок и близкие значения, что свидетельствует об удовлетворительном решении нейросетью поставленной задачи прогноза.
Согласно представленным данным (рис. 1), наблюдаются нерегулярные эффекты влияния значения числа нейронов (например, число нейронов N = 5, 8, 17,
30 и т. д.) на средние ошибки обучения и прогноза. При указанных значениях числа нейронов параметры обучаемости нейросети резко ухудшаются по отношению к значениям ошибок слева и справа от них. В ходе эксперимента выявлено, что для большинства значений числа нейронов обучение и прогноз в семействе нейронных сетей характеризуются небольшим разбросом значений ошибок. Однако выделенные значения числа нейронов '(К = 5, 8, 17, 30 и т. д.) отличаются значительной разницей в полученных результатах. Например, 1—2 нейросети решают поставленную задачу гораздо хуже других (абсолютные значения ошибок могут розниться на 7 порядков), а другие 1-2 нейросети решают задачу значительно лучше. Наблюдаемый эффект может быть связан с чувствительностью нейронной сети при небольшом числе итераций к влиянию начальных условий, содержащих случайную компоненту. Итерация — это, по сути, однократный «просмотр» нейронной сетью обучающей выборки, и, таким образом, различные значения начальных условий могут существенно менять картину результатов, благодаря формированию более или менее благоприятных для обучения стартовых значений весовых коэффициентов.
Весомая разница в значениях параметров обучаемости сети для большинства значений числа нейронов и некоторых «резко выделяющихся значений» не позволила проследить по рис. 1 общий характер изменения кривых. Поэтому для выявления наличия общей тенденции к увеличению или уменьшению параметров обучаемости нейронной сети с ростом числа нейронов, был построен график зависимости средних ошибок обучения и прогноза нейросети от числа нейронов без «резко выделяющихся значений», скрадывающих форму зависимостей для большинства данных, представленный на рис. 2.
число нейронов
Рис. 2. Влияние числа нейронов на ошибку обучения (-°-) и ошибку прогноза (—Д—) нейронной сети при следующих условиях: значение спектральной плотности - 0.1, число итераций - 1, без «резко выделяющихся, значений»
Полученная на рис. 2 картина зависимостей свидетельствует, что единой тенденции для средних ошибок обучения и прогноза нейронной сети с увеличением числа нейронов не наблюдается, то есть природа этих кривых при данных условиях остается неопределенной.
Поскольку резкие ухудшения параметров обучения и прогноза нейронной сети при некоторых значениях числа нейронов (рис. 1) могут быть связаны с минималь-
ным числом итераций, были построены зависимости параметров обучаемости от числа нейронов при числе итераций 1000, отображенные на рис. 3.
I
0
3
&
1 &
число нейронов
Рис. 3. Влияние числа нейронов на ошибку обучения (-°~), ошибку прогноза (—Д—) и темп обучения (—°—) нейронной сети при следующих условиях: значение спектральной плотности - 0.1, число итераций - 1000
Из полученных зависимостей следует, что установленный ранее эффект влияния числа нейронов на успешность обучения нейронной сети (рис. 1) сохраняется, но увеличение количества итераций нивелирует степень влияния начальных условий при больших значениях числа нейронов. Сглаживание немонотонности при больших значениях числа нейронов может быть связано с тем, что при достаточном числе итераций нейронная сеть успевает обучиться до своих предельных параметров обучаемости. Других тенденций в поведении параметров обучения и прогноза нейронной сети при изменении числа нейронов не обнаружено.
Таким образом, полученные кривые зависимости параметров обучения и прогноза нейронной сети от числа нейронов характеризуются значительной немонотонностью. Природа наблюдаемого эффекта заложена в самом вычислительном механизме нейронной сети и предположительно отражает сензитивность нейронной сети к начальным условиям. Увеличение числа итераций позволяет уменьшить влияние начальных условий на вид кривых обучения и прогноза при больших значениях числа нейронов. Вероятно, обнаруженный результат связан с тем, что при большем числе «просмотров обучающей выборки» нейронная сеть успевает дообучиться до некоторых предельных значений независимо от начальных конфигураций весовых коэффициентов.
Выявленный эффект влияния количества нейронов на обучаемость нейронной сети может иметь важное практическое и теоретическое значение. В практическом плане будущее использование нейросетей может распространяться на поисковые ситуации, когда не будет возможности обучать нейронную сеть на больших обучающих выборках. Тогда «неожиданные» всплески ухудшения ошибок могут стать критическими для успешности использования нейросетей. В этой связи необходи-
мы дальнейшие исследования зависимости параметров сети от начальных условий ее функционирования.
В теоретическом аспекте установленный эффект может иметь фундаментальное значение. Нейронная сеть является универсальным эвристическим модельным объектом живого и с точки зрения эволюции направлена в сторону увеличения числа нейронов, обнаруженный эффект может демонстрировать механизм исчезновения промежуточных звеньев среди известных нам видов (насекомых, например). Благодаря ухудшению обучаемости при некоторых количествах нейронов и, как следствие, более слабой приспособленности, вид вымирает под действием естественного отбора.
Автор благодарит сотрудников Института биофизики СО РАН С.И. Барцева и A.JL Щемеля за любезное предоставление нейронной сети и ценный вклад при обсуждении результатов.
Библиографический список
1. Барцев С.И., Охонин В.А. Адаптивные сети обработки информации / Препринт ИФ СО АН СССР. Красноярск, 1986. № 59Б. 20 с.
2. Горбань А.Н. Обучение нейронных сетей. М.: Изд. СССР - США СП «ParaGraph», 1990. 160 с. (English Translation: AMSE Transaction, Scientific Siberian. A. 1993. Vol. 6. Neurocomputing. P. 1-134.)
3. Носков M.B., Симонов К.В., Щемель A.JL Нелинейная многопараметрическая регрессия данных наблюдений // Вопросы математического анализа. 2003. Вып. 7. С. 103—120.
4. Bartsev S. I., Degermendzhi A. G., Erokhin D. V. Principle of the worst scenario in the modeling past and future of biosphere dynamics // Ecological modeling, 2008. P. 160-171.
5. Behera B.K., Goyal Y. Artificial Neural Network System for the Design of Airbag Fabrics //Journal of Industrial Textiles, 2009.
6. Lin Ch.-Sh., Chang Ch.-Sh. at al., Application of an Artificial Neural Network to 6. Predict Postinduction Hypotension During General Anesthesia // Medical Decision Making, 2011.
7. McCulloch W.S., W. Pitts // Bull A logical calculus of the ideas immanent in nervous activity. Math. Biophys., 5. 1943. P. 115-133.
8. Minsky М., Papert S. Perceptrons. Cambridge Massachusetts: MIT Press, 1969.
9. Parallel Distributed Processing: Explorations in the Microstructures of Cognition / ed. by D.E. Rumelhart, J.L. McClelland. Cambridge, MA: MIT Press, 1986.
10. Pattanayak A. K., Luximon A. Khandual A. Prediction of drape profile of cotton woven fabrics using artificial neural network and multiple regression method // Textile Research Journal. 2011.
11.Tetko I. V., Livingstone D. J., Luik A. I. Neural network studies. 1. Comparison of overfitting and overtraining // Journal of Chemical Information and Computer Sciences. 1995. Vol. 35, № 5. P. 826-833.