УДК 519.95
ПОСТРОЕНИЕ МОДЕЛИ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ ВЫБОРА СТРУКТУР ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ
© О.В. Крючин
Ключевые слова: искусственные нейронные сети; информационные процессы; параллельные алгоритмы. В данной работе представлена модель информационных процессов обучения и выбора структур искусственных нейронных сетей. Рассмотрены информационные процессы при использовании алгоритмов обучения, распараллеленных на различных уровнях обучения - вычисления значения невязки, подбора весовых коэффициентов, активационных функций и структуры сети. Описываются схемы и алгоритмы информационных процессов.
ВВЕДЕНИЕ
На современном этапе развития общества, которое характеризуется возрастающей сложностью информационных процессов, с одной стороны, и увеличением их количества - с другой, особую значимость приобретают симуляторы, нашедшие широкое применение в различных областях науки и техники: системах искусственного интеллекта и распознавания образов, представления знаний, математического моделирования в различных сферах, кибернетике. В основу построения симуляторов были положены методы математического программирования, системного анализа, теории экстремальных задач, при этом математические модели, формализующие предметную область, строились на основе применения детерминированного или стохастического подходов с соответствующими системами допущений, что существенно ограничивало область эффективного применения [11].
В настоящее время можно выделить ряд зарубежных (С. Хайкин, С. Осовский) [2-3] и российских (А.И. Галушкин, В.В. Круглов, В.В. Борисов и др.) [46] ученых, которые внесли существенный вклад как в развитие теоретических методов построения и настройки нейросетевых структур, так и в расширение области их применения в различных сферах деятельности, включая и построение симуляторов. В связи с этим симуляторы, построенные на основе применения ней-росетевых структур, целесообразно назвать нейросете-выми (НСС).
Однако при построении и настройке НСС имеет место существенный недостаток, который может свести на нет все преимущества, которые обеспечивает применение нейросетевых структур, суть которого в сложности организации соответствующих информационных процессов, которая обусловливается количеством необходимых вычислений.
Главными недостатками НСС как универсального средства построения моделей для объектов являются значительная сложность алгоритмов выбора структуры сети и существенная размерность вектора переменных целевой функции, минимизируемой при ее обучении.
Эти недостатки приводят к значительным временным затратам в процессе разработки ИНС-модели, что является серьезной проблемой [7-8].
В связи с этим особое значение приобретают вопросы, связанные с повышением эффективности организации информационных процессов и, как следствие, информационных структур, положенных в основу построения НСС.
Одним из наиболее перспективных подходов при решении данных вопросов является повышение эффективности информационных процессов, связанных с обучением НСС и выбором его структуры.
Имеющиеся на данный момент нейросетевые симуляторы можно разделить на две группы: версии для персональных компьютеров и программно-аппаратные решения. К первой группе относятся такие продукты, как JavaNNS (Tuebingen universitet), нейросетевые инструменты Matlab (The MathWorks) и др. Пример реализации второй группы - разработка Nimfa (ВНИИТФ). Имеются также различные универсальные инструменты модификации при помощи распараллеливания, которые, однако, не учитывают специфику построения ИНС-моделей. Примером такого инструмента является T-Система (T-Платформ) [9].
К настоящему времени развитию данного подхода не было уделено должного внимания. В связи с этим тема научного исследования, направленная на повышение эффективности информационных процессов обучения и выбора структур при построении НСС, является актуальной.
Целью данной работы является построение информационной модели выбора структур нейросетевого симулятора и процессов обучения, в т. ч. разработать параллельные алгоритмы построения ИНС-моделей с использованием градиентных и безградиентных методов нелинейного программирования.
ОБЩИЕ ПРИНЦИПЫ ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННОЙ СИСТЕМЫ
Информационные процессы обучения ИНС сводятся к минимизации значения невязки
1 Перевод английской статьи 1943 г. 1836
1 1 / \2 \ N Г~1
N-у ) = 1 XIK- - у,-)2
1=0 1=0 j=0
(1)
где с1,, у^ - ¡-е выходные вектора моделируемого объекта и ИНС; N - количество строк в обучающей выборке, Р - количество выходов объекта (размерность векторов
X и Ю-
Выходные значения ИНС у, рассчитываются по формуле
% = Ffaw, £),
i = 0, Nx-1.
(2)
Здесь ^ - функция вычисления выходных значений ИНС; х[ - входные данные, а ш и ц - управляющие параметры - значения весовых коэффициентов и акти-вационных функций нейронов.
Объединив формулы (1) и (2), можно получить основную формулу информационной модели
• = £Zf="o iJ^Kr F&ï. W,ï0);)Z
(3)
где Е(х) - функция, вычисляющая выходные значения ИНС от входных.
Информационная модель включает в себя процессы различных уровней:
- подбор структуры; как правило, вначале устанавливается минимально-возможное количество нейронов, и затем в процессе обучения добавляются новые; на рис. 1 блоки 3-9;
- подбор значений весовых коэффициентов; на рис. 1 блок 5 [10-18];
- подбор активационных функций нейронов; как правило, полный перебор всех возможных вариантов; на рис. 1 блоки 4-8 [19-22];
- вычисление эффективности информационных процессов обучения и выбора структур НСС; на рис. 1 блок 10;
- определение оптимального числа элементов информационных ресурсов (ИР-элементов); на рис. 1 блок 12.
Особенностью предлагаемой модели является новый способ организации информационных процессов при помощи параллелилизма. Такой способ организации приводит к повышению эффективности информационных процессов, реализованных на всех уровнях обучения НСС, а также при вычислении значения целевой функции.
Для применения распараллеливания были выбраны все перечисленные выше уровни, а также добавлен уровень «вычисления значения целевой функции».
ОПРЕДЕЛЕНИЕ МИНИМАЛЬНОЙ СТРУКТУРЫ
Подбор количества нейронов во входном слое обусловлен размерностью входного вектора х. Подобная ситуация и с выходным слоем, в котором количество нейронов принимается равным размерности ожидаемого вектора d. Серьезной проблемой остается подбор количества скрытых слоев и числа нейронов в каждом из них. Теоретическое решение этой задачи в смысле условия достаточности было предложено математиками, занимающимися аппроксимацией функций нескольких переменных. Следует отметить, что ИНС выступает в роли универсального аппроксиматора обучающих данных (£,d). В процессе обучения подбираются его функциональные коэффициенты. На этапе функционирования при зафиксированных значениях весов производится простой расчет значения аппроксимирующей функции при заданном входном векторе [21-22].
Рис. 1. Модель информационных процессов обучения НСС
1837
е
Определение минимального количества скрытых слоев сети основано на использовании свойств аппроксимирующих функций. Каждая заданная функция может быть выражена линейной комбинацией локальных импульсов, которые имеют ненулевое значение только в ближайшей окрестности текущего значения. Импульсная функция определенной структуры может быть сформирована как суперпозиция двух функций, сдвинутых относительно друг друга. Соответствующим подбором функциональных параметров можно добиться такого импульса, который будет возникать в необходимом месте, а также иметь требуемую ширину и крутизну нарастания.
Возможность обобщения приведенных рассуждений следует из теории Колмогорова. Если ограничиться непрерывной функцией, трансформирующей ¿-мерное множество входных данных в Р-мерный выходной вектор, то можно доказать, что аппроксимация такого типа осуществима при использовании сети с одним скрытым слоем. При Ь входных нейронах будет достаточно использовать для реализации этой функции скрытый слой с 2Ь + 1 нейронами [3].
Существуют некоторые рекомендации относительно необходимой топологии ИНС, позволяющие использовать их для решения задач моделирования.
В основе этих рекомендаций лежит фундаментальная для теории ИНС теорема А.Н. Колмогорова и В.И. Арнольда о представлении непрерывных функций многих переменных в виде суперпозиции непрерывных функций одной переменной и сложения:
МЧ/). (4)
1=0 о
где Р,- и р - некоторые функции одной переменной. Таким образом, из теоремы Колмогорова-Арнольда следует, что для любого алгоритма существует ИНС, которая его реализует [22-23].
ИНФОРМАЦИОННЫЙ ПРОЦЕСС ВЫБОРА СТРУКТУРЫ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА
На рис. 2 изображена блок-схема информационного процесса наращивания многослойного персептрона. Как можно видеть, информационный процесс выбора структуры организован следующим образом [11; 13; 15]:
Добавление нейрона к последнему скрытому слою
Добавление нового скрытого слоя
Рис. 2. Блок-схема информационного процесса выбора структуры многослойного персептрона 1838
1) определение начальной структуры сети;
2) подбор активационных функций и весовых коэффициентов;
3) проверка критерия остановки обучения; если критерий выполняется, то завершение подбора (в качестве критерия могут выступать временные затраты, требуемая точность и т. п.);
4) проверка возможности добавления нового нейрона на последний скрытый слой (в качестве критерия может использоваться максимально допустимое количество нейронов на слое, минимально допустимая разница между текущим и предыдущим значениями невязки и т. п); если нейроны добавлять можно, то добавляется новый и переход к пункту 2;
5) проверка возможности добавления нового слоя; если добавить новый слой возможно, то он добавляется; переход к пункту 2 [24].
ИНФОРМАЦИОННЫЙ ПРОЦЕСС ПОДБОРА СТРУКТУРЫ СЕТИ КАСКАДНОЙ КОРРЕЛЯЦИИ ФАЛЬМАНА И СЕТИ ВОЛЬТЕРРИ
В отличие от многослойного персептрона, где каждый скрытый слой может иметь произвольное количество нейронов, в каскадной сети и сети Вольтерри количество нейронов на каждом из слоев определяется однозначно. В случае каскадной сети каждый скрытый слой содержит только один нейрон, а в структуре Вольтерри количество нейронов на г'-ом слое выражается формулой
N = /Л"*"1, (5)
где N1 - количество слоев. Следовательно, упростив описанный выше информационный процесс выбора структуры (убрав из него подбор числа нейронов в каждом из скрытых слоев), его можно применить для этих типов структур.
ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ ВЫБОРА СТРУКТУРЫ
При повышении эффективности информационных процессов выбора структуры используются п ИР-элементов. Ведущий ИР-элемент формирует структуры и посылает на остальные. Получив структуру ИНС, ИР-элементы начинают подбор весовых коэффициентов (и при необходимости типов активационных функций). После того, как какой-либо ИР-элемент заканчивает обучение, он посылает обученную структуру ведущему, который проверяет необходимость продолжать обучение. Если такая необходимость остается, он формирует новую структуру и вновь посылает ее свободному ненулевому ИР-элементу. Такой процесс продолжается до тех пор, пока не будет подобрана структура, которая удовлетворяет необходимым условиям.
ЗАКЛЮЧЕНИЕ
Таким образом, в рамках данной работы была построена информационная модель выбора структур ней-росетевого симулятора и процессов обучения. Данная модель использует разработанные параллельные алгоритмы построения ИНС-моделей с использованием
градиентных и безградиентных методов нелинейного программирования.
ЛИТЕРАТУРА
1. Мак-Каллок У.С., Питтс В. Логическое исчисление идей, относящихся к нервной активности // Автоматы / под ред. К.Э. Шеннона и Дж. Маккарти. М.: Изд-во иностр. лит., 1956. С. 363-384.
2. Хайкин С. Нейронные сети: полный курс / пер. с англ. 2-е изд. М.: Вильямс, 2006. 1104 с.
3. Осовский C. Нейронные сети для обработки информации / пер. с пол. И.Д. Рудинского. М.: Финансы и статистика, 2004. 344 с.
4. Галушкин А.И. Синтез многослойных систем распознавания образов. М.: Энергия, 1974.
5. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. 1-е изд. М.: Горячая линия-Телеком, 2001. 382 с.
6. Горбань А.Н., Дунин-Барковский В.Л. и др. Нейроинформатика. Новосибирск: Наука, 1998. 296 с.
7. Арзамасцев А.А., Крючин О.В., Азарова П.А., Зенкова Н.А. Универсальный программный комплекс для компьютерного моделирования на основе искусственной нейронной сети с самоорганизацией структуры // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2006. Т. 11. Вып. 4. С. 564570.
8. Арзамасцев А.А. Алгоритм самоорганизации структуры искусственной нейронной сети в процессе ее обучения // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2007. Т. 12. Вып. 1. С. 105-106.
9. Суперкомпьютерная программа «Скиф» Союзного государства. URL: http://skif.pereslavl.ru/skif/index.cgi?module=chap&action-=getpage&data=publications%5Cpub2005%5CGRID-technology%5 CGRID-technology.doc. (дата обращения: 20.03.2014).
10. Крючин О.В. Использование кластерных систем для обучения искусственных нейронных сетей при применении параллельного вычисления значения невязки // Наука и образование в развитии промышленной, социальной и экономической сфер регионов России: 2 Всерос. науч. Зворыкинские чтения: сб. тез. докл. 2 Всерос. межвуз. науч. конф., Муром, 5 февраля 2010 г. Муром: Издат.-полиграф. центр МИ ВлГУ, 2010. 802 с. 1 электрон. опт. диск (CD-ROM).
11. Крючин О.В., Арзамасцев А.А., Королев А.Н., Горбачев С.И., Семенов Н.О. Универсальный симулятор, базирующийся на технологии искуственных нейронных сетей, способный работать на параллельных машинах // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2008. Т. 13. Вып. 5. C. 372-375.
12. Крючин О.В. Параллельный алгоритм полного сканирования обучения искусственных нейронных сетей // В мире научных открытий. Красноярск. 2010. № 6.3 (12). C. 72-79.
13. Крючин О.В. Параллельные алгоритмы обучения искусственных нейронных сетей // Материалы 15 Междунар. конф. по нейроки-бернетике. Т. 2. Симпозиум «Интерфейс ''Мозг-Компьютер''». 3 симпозиум по нейроинформатике и нейрокомпьютерам. Ростов н/Д, 2009. C. 93-97.
14. Крючин О.В., Хлебников В.В. Реализация параллельного алгоритма Монте-Карло для подбора весовых коэффициентов искусственной нейронной сети // Исследовано в России: электронный журнал. 2010. № 024. С. 304-311. URL: http://zhurnal.ape.relarn.ru /articles/2010/024.pdf, свободный. Загл. с экрана.
15. Крючин О.В. Параллельные алгоритмы обучения искусственных нейронных сетей // Информационные технологии и математическое моделирование (ИТММ-2009): материалы 8 Всерос. науч.-практ. конф. с междунар. участием, 12-13 ноября 2009 г. Томск, 2009. Ч. 2. С. 241-244.
16. Крючин О.В. Разработка параллельных градиентных алгоритмов обучения искусственной нейронной сети // Исследовано в России: электронный журнал. 2009. № 096. C. 1208-1221. URL: http://zhurnal.ape.relarn.ru/articles/2009/096.pdf. Загл. с экрана.
17. Крючин О.В. Разработка параллельных эвристических алгоритмов подбора весовых коэффициентов искусственной нейронной сети // Информатика и ее применение. 2010. Т. 4. Вып. 2. C. 53-56.
18. Крючин О.В. Параллельные алгоритмы обучения искусственных нейронных сетей с использованием градиентных методов // Актуальные вопросы современной науки, техники и технологий: материалы 2 Всерос. науч.-практ. (заоч.) конф. М., 2010. C. 81-86.
19. Крючин О.В. Нейросетевой симулятор с автоматическим подбором активационных функций // Информационные технологии. 2010. № 7. С. 47-52.
20. Kryuchin O.V., Arzamastsev A.A., Troitzsch K.G. A parallel algorithm for selecting activation functions of an artificial network, Arbeitsberichte aus dem Fachbereich Informatik. 2011. № 12. Universität Kob-
1839
lenz-Landau. URL: http://www.uni-kob-lenz.de/~fb4reports/ 2011/2011_12_Arbeitsberichte.pdf. (accessed: 20.02.2014).
21. Haykin S. Neural networks, a comprehensive foundation. N. Y.: Mac-millan College Publishing Company, 1994. 842 p.
22. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural Networks. 1989. V. 2. P. 359366.
23. Колмогоров А.И., Фомин С.В. Элементы теории функций и функционального анализа. М.: Физматлит, 2004. 572 с.
24. Универсальный программный комплекс для компьютерного моделирования на основе искусственной нейронной сети с самоорганизацией структуры / А.А. Арзамасцев [и др.] // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2006. Т. 11. Вып. 4. C. 564-570.
Поступила в редакцию 25 марта 2014 г.
Kryuchin O.V. BUILDING A MODEL OF INFORMATION PROCESSES OF CHOICE OF STRUCTURES OF ARTIFICIAL NEURAL NETWORK
In this work the model of training information processes and structure selection of artificial neural networks is presented. Information processes for training algorithms which are paralleled in different training levels are considered. These are the inaccuracy value calculation, the weight calculating, the activation function selecting and the selection of the structure. The schemes and algorithms of information processes are described.
Key words: artificial neural network; information processes; parallel algorithms.
Крючин Олег Владимирович, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, магистрант по направлению подготовки «Прикладная математика и информатика» института математики, физики и информатики, e-mail: [email protected]
Kryuchin Oleg Vladimirovich, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Candidate for Master's Degree of Direction of Preparation of "Applied Mathematics and Informatics" of Mathematics, Physics and Informatics Institute, e-mail: [email protected]
1840