ДИСКРЕТИЗАЦИЯ УРОВНЕЙ ОШИБОК ПРИ ОБУЧЕНИИ НЕЙРОННОЙ СЕТИ
Нейронные сети, обучение, начальные условия.
Проблема обучения в настоящее время представляет интерес для ряда научных дисциплин, таких как педагогика, психология, нейрофизиология, информатика, генетика и т. п. [Гавриков, Хлебопрос, 2009; Резникова, 2005; Холодная, 2002], и это неугасающее внимание обусловлено необходимостью глубже проникнуть в механизм этого жизненно и эволюционно важного процесса. Любые сведения, способные прояснить вопросы возникновения, реализации и распространения феномена обучения, влекут за собой колоссальную возможность не только понимания этого процесса, но и понимания живого вообще.
Биофизический подход основан на изучении искусственных адаптивных систем, таких, например, как нейронные сети. Нейронные сети, воспроизводящие в некоторой степени способность живых организмов к самообучению, являются универсальной эвристической моделью живого [Барцев, Барцева, 2010]. Использование этого подхода в исследовании обучения является не только оправданным, но и представляет собой удачную находку для применения нейрокомпьютинга, так как может позволить сформулировать качественно значимые понятия, сформировать стартовые гипотезы о механизмах обучения и возможных применениях полученных знаний.
Под искусственной адаптивной системой понимается модель, в которой в результате изменения характеристик внешних и внутренних свойств объекта происходит соответствующее изменение структуры и параметров функционирования с целью обеспечения стабильности [Фомин и др., 1981]. Модельный подход, используемый для исследования механизма функционирования такой сложной системы, как мозг, представляется чуть ли не единственно возможным. Поскольку современная наука давно отошла от попыток воспроизвести с помощью нейросетей полноценную нервную деятельность, то они рассматриваются лишь как структуры, воспроизводящие реализацию конкретных функций живого [Горбань, 1993]. Это обстоятельство открывает возможность как бы произвести редукцию проблемы: наше исследование заключается в создании абстрактного процесса обучения абстрактной модели (нейронной сети) и выявлении того общего, что может быть между обучением искусственных и естественных адаптивных систем посредством сравнения.
Сравнительный анализ закономерностей обучения человека и животных был проведен нами в ряде работ, где было показано, что качественно эти процессы поддаются приемлемому описанию с помощью аппарата теории катастроф [Гавриков, Хлебопрос, 2010]. Нами также было выявлено принципиальное сходство между процессом обучения нейронной сети, с одной стороны, и животных и человека — с другой. При некоторых условиях наблюдается эффект резкого выхода на определенный уровень «понимания задачи» нейросетью, сопровождающийся улучшением обучаемости [Нейман, 1964]. Главная неожиданность здесь заключается в том, что обнаруженный эффект не вписывался в первоначально встроенный алгоритм обучения нейросети и может быть интерпретирован как следствие влияния начальных условий и уникальной структуры нейронной сети. Благодаря выявлению данного эффекта родилась гипотеза о существовании механизма обучения, одинаково характерного для любой адаптивной системы. Целью настоящей статьи является исследование одного из феноменов обучения нейронных сетей, а именно обучение одинаковых нейросетей одной и той же задаче при разных начальных условиях характеризуется разнообразием траекторий
обучения. Частотное распределение ошибок обучения в каждый момент времени (номер итерации) может быть равномерным, независимым, а может демонстрировать группировку по нескольким классам. Какой вариант имеет место в реальности?
В эксперименте была использована нейросетевая надстройка «Модели», реализующая оперативный синтез аналитических моделей с регулируемым уровнем сглаживания эмпирических данных, функционирующая в среде MS Excel. В математическом отношении программа осуществляет нелинейную многомерную регрессию. В качестве интерполирующего используется один из вариантов многомерных представлений в виде интегралов Фурье с заменой интегралов конечными суммами. Используемая нейронная сеть по своей структуре может называться двухслойной, так как содержит «основной» слой нелинейных элементов типа A sin (со х+ср) и дополнительный слой линейных элементов.
При оптимизации используется метод быстрого вычисления многомерных градиентов, известный в рамках нейросетевой идеологии под именем back propagation (обратного распространения ошибки), или метод множителей Лагранжа, лежащий также в основе теории оптимального управления. Другой частью алгоритма является метод сопряженных градиентов [Носков и др., 2003].
Среди задаваемых параметров в данной работе используются следующие: количество нейронов, номер итерации, размер обучающей и тестовой выборок, спектр, начальные условия. Нейрон в терминах данной компьютерной среды - это условный элементарный компонент сети, выполняющий функцию преобразователя входных сигналов. Под итерацией понимается дискретное изменение весовых коэффициентов нейронной сети, играющее роль единичного интервала времени в процессе решения задачи. Обучающая выборка содержит последовательность входных данных нейронной сети, используемых для настройки внутрисетевых связей, т. е. непосредственно для процесса обучения. Тестовая выборка — это совокупность данных, имеющих ту же внутреннюю закономерность, что и задачи обучающей выборки, но не включенных в нее. Параметр спектр определяется как максимальный уровень допустимой нелинейности синтезируемой модели, пропорциональный уровню спектральной плотности. Под начальными условиями в данной работе будем понимать первоначальную конфигурацию взаимосвязей нейронов сети, количественно выраженную в виде набора стартовых весовых коэффициентов.
Основными отслеживаемыми параметрами нейронной сети являются ошибка обучения и ошибка прогноза. Ошибка обучения представляет собой среднеквадратичное отклонение предсказаний сети от эмпирических входных данных, составляющих обучающую выборку. Ошибка прогноза — это среднеквадратичное отклонение предсказаний сети для тестовых задач, не участвующих в обучении.
Метод, заложенный в основу алгоритма работы данной нейронной сети, — метод обратного распространения ошибки — исторически создавался авторами с целью понять, как стая птиц принимает решение о смене направления полета. Суть его интуитивно проста: в каждый момент времени (на каждой итерации) оценивается, как каждая пара нейронов повлияла на полученное выходное значение сети, а затем увеличиваются те значения весовых коэффициентов связей между нейронами, которые уменьшали ошибку обучения, и снижается величина связи между теми нейронами, которые не способствовали решению задачи. Помимо биологических предпосылок, этот метод позволил получить нейронную сеть, превосходящую по своей скорости вычислений другие нейронные сети, решающие задачи того же класса.
Нейросети, формируемой в вышеописанной среде, предлагалось решить задачу распознавания функции sin (х). Значения этой функции подавались на единственный вход нейронной сети, и они же являлись эталоном, с которым сеть должна была сравнивать прогнозируемые значения выхода. Из практики известно, что нейросети легко решают подобные задачи. Выбор задания, таким образом, был обусловлен требованием простой задачи, содержащей скрытую закономерность, которую данная нейросеть способна выявить и ход решения которой легче контролировать.
Для исследования влияния начальных условий на параметры траекторий было проведено 200 экспериментов, в которых отслеживалась динамика ошибок обучения нейронной сети с одинаковыми параметрами (количество нейронов — 9, спектр - 0.1, количество итераций - 50) при разных начальных условиях.
В течение эксперимента отслеживались обучаемость нейронной сети и динамика ошибки обучения. Под обучаемостью нейросети здесь понимаются такие количественные значения ошибки обучения и ошибки прогноза, которые соответствуют прогнозным значениям функции sin (х), воспроизводящим форму кривой синуса с приемлемой точностью. По нашему мнению, это соответствуют решению поставленной задачи в рамках данного эксперимента. Результаты всех экспериментов проверялись на отсутствие эффекта переобучения.
Традиционный подход, принятый в нейрокомпьютинге, состоит в том, что обучение нейросети начинается с начальными условиями, заданными случайным образом. По-видимому, основанием такого способа действий служит требование о независимости результата обучения от исходного состояния сети. Другими словами, нейросеть, будучи адаптирующимся «субъектом», должна прийти к наиболее оптимизированному с точки зрения обучения состоянию в любом случае. Поскольку при обучении сеть минимизирует отклонение прогнозных выходных значений от значений обучающей выборки {ошибку обучения), то она с этой точки зрения должна найти глобальный минимум ошибки обучения в пространстве параметров. Этой цели служат, в частности, алгоритмические ухищрения, препятствующие «застреванию» процесса обучения в локальных минимумах.
Если этот подход в целом работает, то тогда действительно относительно все равно, при каких начальных значениях весов сеть начинает процесс обучения. Вместе тем заранее не очевидно, действительно ли это так. Вполне может реализоваться другой сценарий, при котором, во-первых, начальные условия оказывают значительное влияние на последующий ход обучения, которое не может быть полностью устранено в дальнейшем. Во-вторых, траектории обучения (зависимости значения ошибки обучения от номера итерации) при разных начальных условиях могут в определенном смысле «взаимодействовать» друг с другом. Последнее означает, что в некоторый данный момент времени (номер итерации) значения ошибок оказываются распределенными неслучайным образом: они либо «отталкиваются» друг от друга, либо группируются в некоторое количество кластеров. И тот и другой вариант может быть обнаружен известными статистическими методами.
Поскольку в действительности траектории никогда не сосуществуют одновременно, а насчитываются последовательно, то использование термина «взаимодействие» по отношению к траекториям является, разумеется, образным, происходящим из теории пространственного размещения объектов.
Абсолютные значения ошибок по 12-ти траекториям показаны на рис. 1. На нём можно видеть, что в зависимости от начальных условий наблюдается большое разнообразие динамик обучения нейронной сети. Особенно вариабельны стадии первых итераций траекторий, что отражает наибольшее влияние на них начальных условий. Явной особенностью полученной совокупности траекторий является отсутствие какой-ли-бо единой схемы в динамике сетей. Могут быть найдены траектории, исходящие из разных начальных уровней ошибки, но заканчивающие динамику на близких значениях. В то же время траектории, стартующие при близких значениях ошибок, могут заканчивать динамику на уровнях, различающихся на порядки.
Визуальный анализ показывает, что выделяются как минимум два типа динамик. Один из них характеризуется резким падением ошибки на первых итерациях с последующим плавным уменьшением ошибки. Второй же тип содержит явную медленную стадию на первых итерациях, которая затем переходит в быструю стадию с последующим замедлением, как и в первом случае.
Рис.1. Динамики абсолютных ошибок обучения нейронных сетей с одинаковыми параметрами и разными начальными условиями (в логарифмической шкале).
Из 200 траекторий показаны 12, занимающие крайние и средние положения
на первой и 50-й итерациях
Для того чтобы получить более объективную информацию о том, «взаимодействуют» ли траектории, можно воспользоваться известными статистическими подходами. В частности, из теории следует, что невзаимодействующие объекты имеют пространственное распределение, описываемое формулой Пуассона. В нашем случае пространство одномерно: это поперечный срез вдоль оси ошибок совокупности траекторий на уровне какой-либо итерации.
На рис. 2 показана оценка пространственного распределения траекторий на уровне 1-й и 50-й итераций. Очевидно, что траектории не являются независимыми, так как распределение не соответствует пуассоновскому при любом уровне достоверности. Значения критерия х- квадрат составляют для 1-й итерации 569,04, а для 50-й — 514,6 при числе степеней свободы 9.
Подавляющее число траекторий сосредоточено в одном классе (класс 180—200 на рис. 2), небольшое количество классов содержат по 1—2 траектории (класс 0—20), а основную массу составляют пустые классы (класс 0). Это означает, что в среднем траектории имеют групповое размещение, что представляет собой результат работы алгоритма, отвечающего за обучение нейронной сети. Однако, как было сказано выше, значительный интерес представляют характеристики распределения траекторий, с одной стороны, не вошедших в основной класс, а с другой — особенности их размещения как раз в основном, наиболее населенном классе. Последнее актуально в том смысле, что значения ошибок нейросетей, даже попавших в один класс, могут отличаться на несколько порядков.
Частота
100 90 80 70 60 50 40 30 20 10 0
0 0-20 20-40 40-60 60-80 80-100 100-120 120-140 140-160 160-180 180-200
Количество траекторий в классе
Рис. 2. Оценка пространственного распределения, траекторий на уровне 1-й итерации (я) и 50-й итерации (я) по сравнению с пуассоновскимраспределением (и)
197
200
180
160
140
<8 120
СТО о о
га
Ч 00 о
60
40
20
0
1
0,00792 0,02377 0,03961 0,05546 0,0713 0,08715 0,10299 0,11884 0,13468 0,15053
Верхняя граница класса
200 180 160 140 р 120
1 100 X 80
60
40
20
0
Рис. 3. Частотное распределение значений ошибок на уровне 1-й (верх)
и 50-й (низ)итераций
193
3.39Е- 1.02Е- 1,69Е- 2,37Е- 3,05Е- 3,73Е- 4,40Е- 5,08Е- 5.76Е- 6.43Е-
10 09 09 09 09 09 09 09 09 09
Верхняя граница класса
Представление о том, как распределены ошибки на уровне 1-й и 50-й итераций, дает рис. 3. Уже на 1-й итерации (рис. 3, верх) почти все траектории собираются в два смежных класса, за исключением одной траектории, характеризующейся высоким значением ошибки.
На окончательной стадии процесса обучения (рис. 3, низ) подавляющее большинство траекторий остается в одном классе, однако формируется явно обособленная группа траекторий со значениями ошибок выше среднего. Это свидетельствует о том, что в структуре нейросети могут формироваться дискретные уровни значений ошибок, около которых группируются индивидуальные реализации (траектории).
Структура наиболее населенного класса на уровне 50-й итерации показана на рис. 4. В интересах большей наглядности пустые классы между значениями 5,02Е — 11 и 1,01Е — 10 не показаны. Очевидно, что и внутри основной группы траекторий наблюдается выделение некоторого количества дискретных групп, значения ошибок которых заметно отличаются от траекторий в крайних левых классах.
Поскольку динамика обучения нейросети к 50-й итерации характеризуется ничтожным уменьшением ошибки, какого-либо изменения в положении траекторий не следует ожидать. Это означает, в свою очередь, что достигнутое распределение траекторий является устойчивым и отражает внутреннюю структуру пространства параметров. Важной особенностью этой структуры является наличие не одного, а многих, значительно отличающихся друг от друга дискретных уровней, к которым стремятся траектории обучения.
12 12 12 11 11 11 11 11 11 11 11 11 11 10
Верхняя граница класса
Рис. 4. Внутренняя структура наиболее населенного класса траекторий на уровне 50-й итерации (рис. 3, низ). Большая часть пустых классов не показана
Главный уровень, к которому стремятся траектории при большинстве комбинаций начальных весов, характеризуется наименьшим из наблюдающихся значением ошибки. Вместе с тем представляется возможным выделить 2—3 дополнительных дискретных уровня, отличающихся высоким значением ошибки (рис. 4).
Проведенное экспериментальное исследование позволило ответить на вопрос о структуре траекторий обучения нейросети, отличающихся стохастически задаваемыми начальными условиями. По-видимому, процесс обучения искусственных адаптивных систем происходит не непрерывным образом, а по некоторому конечному числу дискретных уровней, которые могли бы быть названы «туннелями» обучаемости.
Форма траекторий обладает определенной общностью, однако скорость снижения ошибки в процессе обучения может быть разной. В частности, наблюдается некоторое количество траекторий, показывающих, что система способна быть более гибкой, избегать застревания в локальных минимумах и быстро — за несколько итераций — снижать ошибку обучения и приближаться к оптимальному решению задачи.
Большой интерес представляет вопрос о возможности перехода между траекториями и причинах таких явлений. Возможно, что такие переходы заложены в самом механизме процесса обучения. Изучение данного явления может быть продуктивным при использовании методов, используемых в науках о нервной деятельности, чтобы определить, насколько глубокой может быть аналогия между динамиками обучения искусственных и живых адаптивных систем.
Библиографический список
1. Барцев С.И., Барцева О.Д. Эвристические нейросетевые модели в биофизике: приложение к проблеме структурно-функционального соответствия: монография. Красноярск: Изд-во СФУ, 2010. 115 с.
2. Барцев С.И., Охонин В.А. Адаптивные сети обработки информации / Препринт ИФ СО АН ССС. Красноярск, 1986. № 59Б. 20 с.
3. Гавриков B.JL, Хлебопрос Р.Г. Две динамические модели научения типа «кошка Торндайка»// Вестник КГПУ им. В.П. Астафьева. 2009. № 2. С. 47—55.
4. Гавриков B.JL, Хлебопрос Р.Г. Континуальность типов научения: динамическое моделирование на основе теории катастроф// Вестник Томского государственного университета. 2010. № 331. С. 163-170.
5. Горбань А.Н. Обучение нейронных сетей. М.: Изд.-во СССР — США СП «ParaGraph», 1990. 160 с. (English Translation: AMSE Transaction, Scientific Siberian. A. 1993. Vol. 6. Neurocomputing. P. 1-134.)
6. Нейман И. Математические основы квантовой механики. М.: Наука, 1964.
7. Носков М.В., Симонов К.В., Щемель A.JI. Нелинейная многопараметрическая регрессия данных наблюдений // Вопросы математического анализа. Красноярск: ИЦП КГТУ, 2003. Вып. 7. С. 103-120.
8. Резникова Ж.И. Интеллект и язык животных и человека. Основы когнитивной этологии: учеб. пособие для вузов. М.: Академкнига, 2005, 518 с.
9. Холодная М.А. Психология интеллекта. Парадоксы исследования. 2-е изд., перераб. и доп. СПб.: Питер, 2002. 272 с.
10. Фомин В.Н., Фрадков A.JL, Якубович В.А. Адаптивное управление динамическими объектами. М.: Наука, 1981.