Научная статья на тему 'Структурный синтез многослойных нейронных сетей на основе энтропийного подхода'

Структурный синтез многослойных нейронных сетей на основе энтропийного подхода Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
102
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / ЭНТРОПИЯ / ОБУЧАЮЩАЯ ВЫБОРКА / ПРИНЦИП МИНИМАЛЬНОЙ СЛОЖНОСТИ / РАСПОЗНАВАНИЕ ОБРАЗОВ / ИДЕНТИФИКАЦИЯ СЛОЖНЫХ ОБЪЕКТОВ / NEURAL NETWORKS / ENTROPY / TRAINING SET / PRINCIPLE OF MINIMAL COMPLEXITY / IMAGE RECOGNITION / IDENTIFICATION OF DYNAMIC OBJECTS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васильев Владимир Иванович, Вульфин Алексей Михайлович, Герасимова Ильмира Барыевна, Черняховская Лилия Рашитовна

Предложен формализованный алгоритм синтеза структуры нейросетевых моделей сложных объектов и систем, основанный на теоретико-информационной трактовке понятия сложности нейронной сети (НС) и обучающей выборки, используемой в процессе настройки (обучения) весов синаптических связей НС. Рассмотрены различные варианты постановки задачи синтеза НС-моделей (распознавание образов, прогнозирование временных рядов, идентификация динамических объектов). Приведен пример построения НС-классификатора минимальной сложности на базе многослойного персептрона с одним и двумя скрытыми слоями, иллюстрирующий эффективность предложенного алгоритма структурного синтеза.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Васильев Владимир Иванович, Вульфин Алексей Михайлович, Герасимова Ильмира Барыевна, Черняховская Лилия Рашитовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Structural design of multilayer neural networks on the basis of entropy approach

The formalized algorithm of designing the structure of neural network models of complex objects and systems on the basis of theoretical-information approach to assessment of the complexity of neural network (NN) structure and training set used for adjustment (learning) of NN synaptic connection weights, is offered. The various variants of statement of NN models design (image recognition, prediction of temporal series, identification of dynamic objects) are considered. The example of construction of NN classificator of minimal complexity on the basis of multilayer perceptron with one and two hidden layers, illustrating the effectiveness of proposed algorithm of structural design, is presented.

Текст научной работы на тему «Структурный синтез многослойных нейронных сетей на основе энтропийного подхода»

ISSN 1992-6502 (Print)_

2019. Т. 23, № 2 (84). С. 127-137

Вестник УГАТУ

ISSN 2225-2789 (Online) http://journal.ugatu.ac.ru

УДК 681.322

СТРУКТУРНЫЙ СИНТЕЗ МНОГОСЛОЙНЫХ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ ЭНТРОПИЙНОГО ПОДХОДА

В. И. Васильев1 , А. М. Вульфин2 , И. Б. Герасимова3 , Л. Р. Черняховская4

1 vasilyev@ugatu.ac.ru, 2 vulfin.alexey@gmail.com, 3 tarot_gera@mail.ru, 4 lrchern@yandex.ru ФГБОУ ВО «Уфимский государственный авиационный технический университет» (УГАТУ)

Поступила в редакцию 15.04.2019

Аннотация. Предложен формализованный алгоритм синтеза структуры нейросетевых моделей сложных объектов и систем, основанный на теоретико-информационной трактовке понятия сложности нейронной сети (НС) и обучающей выборки, используемой в процессе настройки (обучения) весов синаптических связей НС. Рассмотрены различные варианты постановки задачи синтеза НС-моделей (распознавание образов, прогнозирование временных рядов, идентификация динамических объектов). Приведен пример построения НС-классификатора минимальной сложности на базе многослойного персептрона с одним и двумя скрытыми слоями, иллюстрирующий эффективность предложенного алгоритма структурного синтеза.

Ключевые слова: нейронные сети; энтропия; обучающая выборка; принцип минимальной сложности; распознавание образов; идентификация сложных объектов.

ВВЕДЕНИЕ

За несколько десятков лет своего существования искусственные нейронные сети (НС) хорошо себя зарекомендовали в различных областях и сегодня являются одним из наиболее интенсивно развивающихся направлений искусственного интеллекта. В числе преимуществ НС обычно указывают их естественный параллелизм, способность к обучению (и самообучению) на множестве обучающих примеров, возможность воспроизведения произвольных нелинейных отображений с любой заданной степенью точности (за что их нередко называют «универсальными аппроксиматора-ми»), поддержка развитыми инструментальными средствами (нейропакетами), потенциально высокая помехо- и отказоустойчивость. Круг задач, решаемых с помощью нейросетевых технологий, также чрезвычайно широк - это задачи аппроксимации

сложных нелинейных зависимостей, автоматической классификации и кластеризации разнотипных объектов (процессов), распознавания образов, идентификации, диагностики и прогнозирования состояния сложных динамических объектов, нейроуправле-ния, принятия решений в условиях неопределенности и многое другое. Одной из центральных и активно обсуждаемых проблем при этом является проблема выбора требуемой (оптимальной, рациональной) структуры НС, адекватной конкретной решаемой задаче. На практике эта проблема обычно решается методом проб и ошибок (trial and error), путем наращивания структуры НС («от простого - к сложному») [1], путем упрощения (редукции) сети («от сложного - к простому») [2] или на основе оптимизации структуры НС с помощью генетических алгоритмов (стратегия эволюционной оптимизации) [3].

Работа поддержана грантом РФФИ № 18-0800638А и № 18-00-00238КОМФИ.

Идея построения управляющих систем на основе принципа минимальной сложности давно известна в теории систем. Один из отцов кибернетики У. Эшби сформулировал и теоретически обосновал этот принцип в виде принципа необходимого разнообразия (Requisite Variety Law) [4], согласно которому мера разнообразия (т.е. уровень сложности) управляющей системы всегда должна соответствовать разнообразию (уровню сложности) управляемого объекта. Применительно к системам управления сложными динамическими объектами данный принцип, обычно называемый принципом минимальной сложности, получил свое развитие в работах В. В. Солодовникова, В. Ф. Бирюкова, В. И. Тумаркина [5], В. И. Васильева, Б. Г. Ильясова, Р. А. Муна-сыпова, Ф. А. Шаймарданова [6, 7], Г. А. Ржевского [8] и др.

Применительно к НС, представляющим собой сложные динамические обучающиеся системы, проблема сложности начала активно обсуждаться в течение последних двух-трех десятков лет. Помимо первых классических работ [9-11], посвященных определению границ достижимой точности аппроксимации произвольных нелинейных функций с помощью многослойных НС, был опубликован ряд работ, в которых развивались фундаментальные основы теории сложности НС.

В работе [12] для оценки структурной сложности НС предложено использовать показатель s-энтропии А. Н. Колмогорова, вычисляемой как

Hs = Ысин ■ log;

Ут

2 ■Ay,

(1)

где Ысин - количество синапсов (весов си-наптических связей) НС; утах - максимальное значение сигнала, снимаемого с синапса; Ду - шаг дискретизации сигналов по уровню, обеспечивающий требуемую точность функционирования сети. Авторы статьи вводят понятие потенциальной сложности НС как потенциального разнообразия класса нелинейных функций (отображений), реализуемых с заданной точностью с помощью НС, а также актуальной сложности НС как сложности реализации конкретной

нелинейной функции с заданной точностью с помощью конкретного прототипа НС.

Общая постановка задачи выбора оптимальной структуры НС обсуждается в [13], где подчеркивается, что требуемое количество нейронов НС зависит прежде всего от 3-х факторов: количества используемых обучающих примеров (т.е. объема обучающей выборки), размерности воспроизводимой функции «вход-выход» и сложности описания этой функции (т.е. от того, насколько гладкой, «удобной» является эта функция).

В работе [14] поставлены три фундаментальных вопроса, важные для понимания сути НС-парадигмы решения задачи аппроксимации (регрессии) произвольной нелинейной функции:

1) как для заданного класса нелинейных функций F = {/1 (X)} построить НС минимальной сложности (понимая при этом под сложностью НС количество нейронов в скрытом слое), которая бы могла воспроизвести любую из этих функций (X) с заданной достаточно малой погрешностью 8* > 0;

2) располагая частичной априорной информацией об аппроксимируемой нелинейной функции fl (X) в виде некоторого набора данных - обучающей выборки

{(*(г),/¿(*(г)))}, г = 1,2,..., Д, как сформировать эту обучающую выборку таким образом, чтобы она содержала минимальное количество примеров, одновременно позволяя воспроизвести функцию (X) с заданной погрешностью 8* > 0 (объем обучающей выборки й при этом выступает в качестве показателя информационной сложности решаемой задачи);

3) как взаимосвязаны между собой информационная сложность и сложность НС и как эта взаимосвязь влияет на конечный результат решения задачи, т.е. на конечную структуру НС, воспроизводящей заданную функцию (X) с погрешностью 8*, а также на процесс ее обучения, т.е. настройки весов ее синаптических связей.

Основное внимание авторы работы [15] уделяют определению качественной зависимости между ошибкой обучения НС и

двумя указанными видами сложности, т.е. поиску ответа на 3-й вопрос, оставляя первые два вопроса в значительной степени открытыми.

Обратимся к решению первой из указанных задач, т.е., задачи определения НС минимальной сложности исходя из наличия заданной обучающей выборки, опираясь прежде всего на положения энтропийного подхода, ставшего достаточно популярным в последнее время [15, 16].

ПОСТАНОВКА ЗАДАЧИ СТРУКТУРНОГО СИНТЕЗА НС

Будем полагать, что исследуемые НС-модели относятся к классу многослойных персептронов, имеющих соответственно один или два скрытых слоя (рис. 1).

б

Рис. 1. Структурные схемы персептронов с одним и двумя скрытыми слоями

Здесь X = (Х1,..., хт)Т и У = (уь ..., уп)Т -входной и выходной векторы НС; т, N и п -количество нейронов во входном, скрытом и выходном слое НС (рис. 1, а); т, и

п - количество нейронов во входном, первом и втором скрытом слое и выходном слое НС (рис. 1, б). Предполагается, что значения переменных X) а = 1,..., т) и у1 (/ = 1,..., п)

нормированы, т.е. принадлежат интервалу [-1, 1]. Для определенности принимаем, что функции активации всех нейронов (кроме нейронов входного слоя) являются однопо-лярными или двухполярными сигмоидаль-ными функциями, также принимающими значения в интервале [-1, 1].

В литературе принято называть сети данного класса «мелкими» (shallow) НС в отличие от «глубоких» (deep) НС, имеющих иерархическую организацию и большее число скрытых слоев, предложенных в последние годы в качестве «панацеи» для обработки больших и сверхбольших объемов информации (изображения, речь) [17]. В то же время, известно, что наличие одного-двух скрытых слоев на практике достаточно для реализации любого нелинейного отображения F: X — Y с любой, сколько угодно малой погрешностью г* [9, 10, 17, 18].

Для обучения НС задается обучающая выборка (табл. 1), которая содержит в себе множество обучающих примеров - пар векторов {(*(r), D(r) )}, (г = 1, 2,..., R), где Х(г) и D(r^ - соответственно входной вектор НС и вектор желаемых выходов НС; г - номер обучающего примера; R - число обучающих примеров (объем обучающей выборки).

Таблица 1

Обучающая выборка

№ обучающе го примера г Входы НС Желаемые выходы НС

Xi ... di d2 ... dn

1 х(1) у(1) л2 ... у(1) лт d™ d21) ... d(1) "л

2 х(2) у(2) л2 ... у(2) лт d(2 d? ... d(2) "л

: : : . : . :

R х(й) r(R) 2 ... г(*) лт d^ ... d(R) "л

Целью обучения НС является настройка весов межнейронных связей, обеспечивающих выполнение условия:

а

г=1 г=1

где у(г) и - соответственно фактическое и желаемое значения /-го выхода НС в г-м обучающем примере, т.е. при подаче на вход сети вектора Х(г); Е - суммарная квад-ратическая ошибка (СКО) обучения НС.

В работе [19] вместо показателя СКО, вычисляемого по формуле (2), рекомендуется использовать значение энтропии ошибки НС по Шеннону

1 п

Н( е) = —Х1св/(е,), (3)

П/=1

где £ = У — Б - вектор ошибки НС; [(е^) -плотность распределения вероятности случайной величины £[ = у± — . Для оценки ) используется аппроксимация

/ (* ) = А (4)

п ■ Ие=1 V п )

где Л - параметр сглаживания стандартного ядра - функции Гаусса С(-). Как и для показателя СКО, глобальный минимум функции энтропии (3) достигается при £1 = е2 = ■■■ =

= £п = 0.

Ряд авторов рекомендует использовать в качестве меры энтропии ошибки НС такие показатели, как энтропию Реньи и кросс-энтропию [19, 20].

Размерность векторов X и У для НС, изображенных на рис. 1, как правило, фиксирована и определяется содержательной постановкой решаемой задачи. Рассмотрим некоторые из возможных вариантов постановки задачи синтеза НС.

1. Задача автоматической классификации (распознавания образов)

Здесь X - вектор измеряемых (или экс-пертно оцениваемых) признаков объекта; У - вектор, указывающий принадлежность входного вектора X одному из М заранее заданных классов. Очевидно, что объем обучающей выборки должен быть не меньше числа распознаваемых образов (объектов), т.е. должно выполняться условие Я > М. Количество выходов НС определя-

ется по формуле: п = [log2 М], где обозначение р] соответствует операции округления числа в скобках до ближайшего большего целого. Область применения указанных моделей (рис. 1) - биометрические системы идентификации личности, НС-системы обнаружения атак, оценка тех или иных опасных ситуаций и аномалий в поведении объекта.

2. Задача прогнозирования многомерных временных рядов

Схема НС-предиктора на базе персептро-на с одним скрытым слоем (рис. 1, а), обеспечивающего прогнозирование «будущих» значений временного ряда, заданного в виде дискретных отсчетов (X(fc)}, (к = 0,1,..., К) на интервале наблюдения [0, К], приведена на рис. 2. Длительность интервала наблюдения при этом определяется как: К = THa6n/At, где Тнабл - время наблюдения; At = const - шаг дискретизации по времени.

не

Рис. 2. Схема НС-предиктора

Здесь Д - оператор временной задержки на один такт; Ь - число таких блоков временных задержек по отношению к входному вектору Х(к). Вектор Х(к) = (Хт(к),Хт(к — 1),..., Хт(к — I) )т в данном случае представляет собой расширенный входной вектор НС, компонентами которого являются значения собственно входного вектора Х(к) в момент времени к, а также «предыстория» этого вектора в предшествовавшие Ь моментов времени, т.е. значения Х(к — 1),...,Х(к — V) в пределах «скользящего» временного окна.

Согласно данной схеме, имеем размерность вектора Х(к) (т.е. число нейронов во входном слое НС), равную т = (Ь + 1) • тх, где тх - размерность вектора Х(к); размерность вектора У (к) равна п = тх.

В качестве желаемых выходных реакций й(г\(1 = 1,2,..., п; г = 1,2,..., И) в обучающей выборке (см. табл. 1) указываются значения компонент вектора Х(к + 1) в будущий (к + 1)-й момент времени. Таким образом, обучающая выборка содержит в данном случае И = К — Ь строк (по числу скользящих временных окон, укладывающихся в промежутке [0, и т + тх = = (Ь + 2) • тх столбцов, куда записываются значения компонент векторов Х(к) и Х(к + 1), начиная с момента времени к = Ь и заканчивая моментом К = К — 1.

3. Задача идентификации многомерного динамического объекта

Целью идентификации является построение НС-модели объекта по результатам наблюдения за его входящими и выходящими переменными на интервале времени [0, К]. Пример построения динамической (рекуррентной) НС Жордана на базе пер-септрона с одним скрытым слоем, решающей данную задачу, представлен на рис. 3.

Рис. 3. Схема рекуррентной НС Жордана

Данная НС-модель реализует нелинейную зависимость «вход-выход», описываемую матричным разностным уравнением

¥(к) = Р(Х(к), У2(к — 1)),

(5)

где У2 (к) - вектор, состоящий из п2 = п — —п1 компонент выходного вектора

У(к) = (У(1)(к), УТ(2)(к) )Т; щ - размерность вектора У1(к). Расширенный входной вектор Х(к) = (Хт(к), У2 (к)) в данном случае несет информацию как о входных сигналах модели, так и о предыдущих значениях («предыстории») координат выходного вектора У(2)(к — 1).

Каждая из И строк обучающей выборки (см. табл. 1) включает в себя т = тх + п2 компонент расширенного входного вектора Х(к) - входы НС, где тх - размерность вектора Х(к), а также п компонент вектора выходов объекта У(к), выступающих в качестве желаемых выходных реакций НС. Общее количество строк обучающей выборки равно И = К — п2, где К = Тнабл/Д1 -длительность интервала наблюдения, т.е. общее количество дискретных отсчетов векторов Х(к) и У (к). Число п2 (размерность вектора У(2)(к)) определяет в данном случае количество элементов временной задержки в обратной связи НС (блок Д) и равно порядку нелинейного разностного уравнения (5).

Для каждой из рассмотренных выше постановок задача структурного синтеза НС сводится в конечном итоге к определению необходимого числа нейронов в скрытом слое (или в скрытых слоях) с учетом объема обучающей выборки и заданного числа нейронов во входном и выходном слое НС.

Ранее в [21] рассматривался детерминированный подход к решению данной задачи, заключающийся в нахождении структуры НС минимальной сложности из условия совместности системы нелинейных алгебраических уравнений

у(г) — а(г) = п(х(г), *)— 4* = 0,

(Ь = 1,2,..., п; г =1,2,..., И),

(6)

в которой в качестве неизвестных выступают веса синаптических связей НС (компоненты вектора Ш). Покажем возможность решения данной задачи на основе энтропийного подхода, с использованием энтропии как меры информационной сложности обучающей выборки и структурной сложности НС.

ТЕОРЕТИКО-ИНФОРМАЦИОННАЯ

ИНТЕРПРЕТАЦИЯ ПРИНЦИПА МИНИМАЛЬНОЙ СЛОЖНОСТИ НС

В основе развиваемого ниже принципа минимальной сложности НС лежит принцип необходимого разнообразия У. Р. Эшби, принимающий применительно к рассматриваемой задаче структурного синтеза НС

следующую трактовку. Пусть X, W и У -три случайных процесса (векторные величины), где X - источник входных данных НС, подчиняющихся некоторому распределению О(Х), выборочные значения которых образуют обучающую выборку; Ш - вектор весов синаптических связей НС, значения которых изначально неизвестны и должны быть найдены в результате обучения НС с использованием данных обучающей выборки; У - вектор выходных переменных НС, зависящих от значений компонент векторов X и Ш (рис. 4).

Рис. 4. Взаимодействие случайных процессов при обучении НС

Тогда, используя для указанных случайных процессов (векторных величин) понятие энтропии Шеннона, можно записать:

H(XW) = Н(Ю\Х);

(7)

(8)

Н(УШ) = Н(У) + Н(Ш\У) =

= Н(Ш) + Н(У\Ш)-,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Н(ИО и Н(У) - энтропии случайных величин W и У; H(XW) и H(YW) - взаимные энтропии объединения соответствующих величин; Н(Х\Ш), Н(Ш\У) и Н(У\Ш) -условные энтропии случайных величин X, Ш и У.

Перепишем выражение (8) в виде: Н(У\Ш) = Н(У) + Н(Ш\У) - Н(Ш)=

= н(у) -1(у\ш), (9)

где 1(Ш, У) = Н(Ш) - Н(Ш\У) - количество информации, полученное в процессе обучения НС. Полагая, что после завершения процесса обучения имеем Н^\У) = 0, можно записать:

Н(У\Ш) = Н(У)тах-Н(Ш).

Поэтому для снижения условной энтропии Н(У^) до нуля необходимо обеспечить выполнение следующего условия, которое выступает в данном случае в роли принципа минимальной сложности НС:

Таким образом, для уменьшения энтропии Н(У^) за счет настройки (обучения) весов НС необходимо, чтобы мера разнообразия (сложность) НС соответствовала мере разнообразия (неопределенности) Н(У), вычисленной относительно возможных значений выходов сети на заданной обучающей выборке.

Будем оценивать Н(У) как энтропию множества случайных величин

Ыг), уР.....уР 1(г = 1,2.....К), где у(г) -

значение /-го выхода НС в г-м эксперименте, т.е. для -й строки обучающей выборки (см. табл. 1). Полагая, что случай-

(г)

ные величины у> являются независимы-

(г)

ми и принимают дискретные значения

(Г) V (г) 1

с вероятностями р>/, где ¿¡р-/ = 1, мож-

1] 7 1]

но записать выражение для энтропии Н(У) в виде

к п

Н(Г) = =

Г=1¿=1

К п

(11)

Г = 1 ¿ = 1 ]Е]

где н(уР)

Н(Ш) = Н(У\

(10)

энтропия случайной величины

(Г)

у> , а суммирование по ) ведется по всем

возможным состояниям / дискретной вели-

(г)

чины У; ; .

Допущение о независимости случайных

(г)

величин у> на практике может не выполняться, однако оно дает верхнюю оценку энтропии Н(У) для «наихудшего случая», когда все эти величины не зависят друг от друга. При необходимости учета взаимосвязи

случайных величин необходимо использовать условные вероятности для различных выходных реакций НС (I = 1, 2,..., п) и различных значений входного вектора Х(г\ (г = 1,2,..., Я), что вследствие учета дополнительной априорной информации об условиях задачи даст меньшее значение энтропии Н(У), поскольку снижает имеющуюся исходную неопределенность [22].

(г)

Полагая, что дискретный характер у> связан с использованием двоичной разряд-

ной сетки, имеющей Бу разрядов (т.е. неизбежным округлением результатов вычислений с точностью до Ду = 2-°у - веса единицы младшего разряда), можно принять условие равновероятности всех 2Ву возможных состояний случайной величины

независимо от номера вы-

хода НС (1) и строки обучающей выборки (г). Это условие также, возможно, является чрезмерно жестким, однако именно в этом случае мы получаем верхнюю (максимально возможную) оценку искомой величины энтропии Н(У)тах [15]. Подставляя р((р = 2-°у в формулу (11), получаем

Н(У\

= Я•п^Бу,

(12)

т.е. энтропия множества выходных переменных НС {у(г)} тем больше, чем выше

значения размерности п выходного вектора, объема обучающей выборки И и разрядности Бу, т.е. желаемой точности представления результатов.

С другой стороны, энтропия H(W) как мера разнообразия (структурной сложности) НС также может быть найдена по формуле

Н(Ш) = ,

(13)

ИЕ1 }Е]

где I - множество номеров синаптических связей НС (межнейронных соединений); / - множество возможных значений весов синаптических связей в двоичной разрядной сетке, имеющей количество разрядов, рав-

гл W • "

ное ¿V; Рц- - вероятность того, что вес г-й синаптической связи принимает у'-е возможное значение.

Но тогда для 3-слойной НС с одним

скрытым слоем (см. рис. 1, а) имеем при р^ =

Н(Ж) = МСИН • Бщ =

= Ы(т + п) • Бш,

где ЫСИн - общее количество настраиваемых синаптических связей НС, т.е. размерность вектора весов Ж; Бш - разрядность представления значений весов НС.

Подставляя (13) и (14) в (10), получаем

Ы(т + п)• Бш = И • п^ Бу .

(14)

Разрешая полученное уравнение относительно искомой величины N - количества нейронов в скрытом слое НС, находим

Я•п^Бу

N = ыг

(15)

(т + п) • Бш

Полагая в частном случае Бу = Бш, т.е. одинаковую разрядность значений выходов НС и весов межнейронных связей, получаем соотношение

N = ——, (15а)

т + п

что совпадает с полученной в [23] оценкой требуемого числа нейронов в скрытом слое НС (ранее аналогичные рекомендации приводились в [23]).

Для НС с 2-я скрытыми слоями (см. рис. 1, б) общее количество настраиваемых синаптических связей (Мсин) подсчи-тывается как

Мсин = + N1^2 + N2•П,

поэтому энтропия H(W) определяется выражением

нт = мс

^ =

= (т^1 + ^^ Ы2 + Ы2^п) • Бш, и условие (10) с учетом (12) принимает вид (т^1 + N^N2 + N2 •п) =

(16)

= Я•п^Бу .

Данное соотношение определяет минимально необходимые значения числа нейронов Ы1 и Ы2 в 1-м и 2-м скрытом слое НС, в зависимости от конкретных исходных данных решаемой задачи (т.е. чисел т, п, И, Бу и Бш).

Задаваясь в (16) значением Ы2 в качестве свободного параметра, можно вычислить величину Ы1 как

п ( Бу

^ = -— (17)

1 т + ЛТ2\ Бш 2) у '

или в частном случае, для Бу = Бш: \п• (Я— N2)

N1 =

т + Ы2

(17а)

что также согласуется с оценкой, полученной в [21], и является доказательством правомерности рассмотренного выше подхода.

ПРИМЕР

Рассмотрим задачу биометрической идентификации человека по фотографии лица. Воспользуемся базой данных AT & T Facedatabase (ORL), которая содержит 10 изображений лиц сорока различных человек. Снимки были получены в разное время с изменением освещения, мимики (открытые / закрытые глаза, улыбаются / не улыбаются) и черт лица (очки / без очков). Все снимки лиц были сделаны на темном однородном фоне анфас. Отберем из каждого класса по 4 случайных изображения. Каждое изображение имеет размер 92 на 112 пикселей и представлено в 255 градациях серого. Векторизация исходных изображений и применение метода главных компонент позволяют перейти в редуцированное пространство признаков с размерностью m = 32 и сохранением 95 % исходной информации.

Допустим, что требуется построить НС-классификатор (устройство распознавания образов), располагая следующими исходными данными:

- количество признаков распознаваемого объекта (размерность входного вектора) m = 32;

- количество классов распознаваемых объектов M = 40;

- выходной вектор НС должен представлять собой двоичный код номера класса, т.е. п = [log2 M] = 6;

- разрядность выходных значений и весов НС одинакова DY = Dw = 8.

Решение задачи: Применяя формулу (15а) для НС с одним скрытым слоем (см. рис. 1, а) и полагая R = 4M = 60, по-

160 6 = [25,3] = 26, т.е. тре-

НС

лучаем: N =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

J 32+6

буемая структура

принимает вид: 32 — 26 — 6 (32 нейрона во входном слое, 26 - в скрытом слое и 6 - в выходном слое), а значения энтропии H(W) и Н(У)тах, выступающие в качестве показателей структурной сложности НС и информационной сложности задачи обучения, соответственно равны 7904 и 7680 бит, т.е. практически совпадают (различие 2,9 %). На рис. 5 представлены кривые процесса обучения НС.

Для структурной схемы НС с 2-я скрытыми слоями (см. рис. 1, б) получаем из формулы (17а): = 20, = 12, т.е. структура НС имеет вид: 32 — 20 — 10 — 6 (32 нейрона во входном слое, 20 - в 1-м скрытом слое, 10 - во 2-м скрытом слое, 6 - в выходном слое). Показатели энтропии: Н(Ш) = Н(У)тах = 8000 бит.

—[4'f [4si'~[4t jrf'j' [¿'-'f - ¡¿wj'_

к. еросЬь

Рис. 5. Огибающая изменений модулей ошибки нейронов в процессе обучения НС

Количество синаптических связей, т.е. количество настраиваемых весов (Мсин) в 1-м и во 2-м случае, также практически совпадает: Мсин1 = 988; Мсин2 = 1000, т.е. оба варианта НС обладают одинаковыми возможностями, удовлетворяя принципу минимальной сложности (рис. 6-7).

Рис. 6. Графики изменения абсолютных значений ошибок нейронов в процессе обучения НС

Рис. 7. Графики изменения абсолютных значений ошибок нейронов в процессе обучения НС

Отметим, что применение данного подхода допускает следующую наглядную интерпретацию процесса обучения НС (рис. 8).

Рис. 8. Изменение энтропии в процессе обучения НС

Как показано на данном рисунке, в процессе обучения НС происходит уменьшение энтропии выходных реакций сети H(Y\W) за счет получения извне (так называемые «указания учителя») дополнительной информации I(W, Y) о целях и фактических результатах обучения. Таким образом, в процессе настройки весов НС она аккумулирует определенный объем знаний, направленный на снижение априорной неопределенности, присущей началу процесса обучения. Уровень априорной неопределенности определяется в данном случае величиной энтропии H(Y)max, а способность НС к усвоению необходимых знаний - величиной энтропии весов ее межнейронных (синаптических) связей H(W).

ЗАКЛЮЧЕНИЕ

В данной статье решается задача определения структуры НС-моделей минимальной сложности, адекватных располагаемому объему обучающей выборки и специфике решаемых с их помощью прикладных задач. Рассмотрены различные варианты постановки прикладных задач (распознавание образов, прогнозирование временных рядов, идентификация динамических объектов). Показано, что все эти задачи могут быть решены с позиций единого подхода, базирующегося на использовании принципа минимальной сложности, вытекающего из закона необходимого разнообразия У. Эшби. В качестве соответствующих показателей сложности в работе приняты характеристики энтропии по Шеннону для структурной организации НС (структурная сложность) и состава обучающей выборки (информационная сложность).

Рассмотрены особенности решения задачи структурного синтеза для многослойных НС с одним и двумя скрытыми слоями, получены расчетные соотношения для выбора необходимого количества нейронов в скрытом слое. Приведен иллюстративный пример, демонстрирующий работоспособность и эффективность предложенного подхода.

СПИСОК ЛИТЕРАТУРЫ

1. Yu H. Network Complexity Analysis of Multilayer Feedforward Artificial Neural Networks. - In: Schumann J., Lin Y. (Eds.), Applications of Neural Networks in High Assurance Systems, SCI 268, Springer - Verlag, Berlin, Heidelberg, 2010, pp. 41-55.

2. Осовский С. Нейронные сети для обработки информации: пер. с польск. М.: Финансы и статистика, 2002. 344 с. [ S. Osovskij, Neural networks for information processing, (in Russian). Мoscow: Finansy i statistika, 2002. ]

3. Рутковский Л. Методы и технологии искусственного интеллекта: пер. с польск. М.: Горячая линия-Телеком,

2010. 520 с. [ L. Rutkovsky, Methods and Technologies of Artificial Intelligence, (in Russian). Мoscow: Gorjachaja linija-Telekom, 2010. ]

4. Эшби У. Р. Введение в кибернетику: пер. с англ. -2-е изд. М.: Ком-Книга, 2005. 432 с. [ W. R. Ashby, An Introduction to Cybernetics, (in Russian). Мoscow: Kom-Kniga, 2005. ]

5. Солодовников В. В., Бирюков В. Ф. Тумаркин В. И.

Принцип сложности в теории управления. М.: Наука, 1977. 341 с. [ V. V. Solodovnikov, V. F. Birjukov, V. I. Tumarkin, The Complexity Principle in Control Theory, (in Russian). Мoscow: Nauka , 1977. ]

6. Васильев В. И., Шаймарданов Ф. А. Синтез многосвязных автоматических систем методом порядкового отображения. М.: Наука, 1983. 126 с. [ V. I. Vasilyev, F. A. Shajmardanov, Synthesis of multivariable automatic systems by the method of ordinal mapping, (in Russian). Мoscow: Nauka, 1983. ]

7. Васильев В. И., Ильясов Б. Г., Мунасыпов Р. А. Развитие структурных методов исследования сложных динамических систем // Автоматика и телемеханика. 2013. № 3. С. 192-213. [ V. I. Vasilyev, B. G. Ilyasov, R. A. Munasypov, "The development of structural methods for the study of complex dynamic systems,"(in Russian), in Avtomatika i telemehanika. No. 3, pp. 192-213, 2013. ]

8. Rzevski G. A. Practical Methodology for Managing Complexity // Emergence: Complexity & Organization // International Transdisciplinary Journal of Complex Social Systems.

2011. Vol. 13, No. 1-2. Pp. 38-56.

9. Funahashi K. On the approximate realization of continuous mappings by neural networks // Neural Networks. 1989. Vol. 2. Рp. 183-192.

10. Hornik K. M., Stinchombe M., White H. Multilayer feedforward networks are universal approximators // Neural Networks. 1989. Vol. 2. Pp. 359-366.

11. Pinkus A. Approximation theory of the MLP model in neural networks // Acta Numerrica. 1999. Vol. 8. pp. 143-195.

12. Барцев С. И., Барцева О. Д. Исследование изменений сложности эволюционирующих систем на примере абстрактных модельных объектов [Электронный ресурс]. URL: http://www.sbras.ru/Lyapunov-90 (дата обращения 10.04.2019) [ S. I. Barcev, O. D. Barceva. (2019, Apr. 10). The study of changes in the complexity of evolving systems on the example of abstract model objects [Online], (in Russian). Available: http://www.sbras.ru/Lyapunov-90 ]

13. Gomez I., Franco L., Jerez J. Neural Network Architecture Selection: Can Function Complexity Help? / Neural Process Lett., 2009. 30. pp. 71-87.

14. Kon M. A., Plaskota L. Complexity of Predictive Neural Networks. In: Unifying Themes in Complex Systems. Chapter 18. 2006. Springer - Verlag. pp. 181-191.

15. Куренков Н. И., Ананьев С. Н. Энтропийный подход к решению задачи классификации многомерных данных // Информационные технологии. 2006. № 8. С. 50-55. [ N. I. Kurenkov, S. N. Ananiev, "Entropy Approach to Solution of a Classification Problems of Multidimensional Data Sets data", (in Russian), in Informacionnye tehnologii, no. 8, pp. 50-55, 2006. ]

16. Silva L., J.M. de Sa, Alexandre L. A. Neural network classification using Shannon's entropy // Proc. of the 13th European Symposium on Artificial Neural Networks, Bruges, Belgium. April 27-29. 2005.

17. Bianchini M., Scarselli F. On the Complexity of Neural Network Classifiers: A Comparison Between Shallow and Deep Architectures // IEEE Transactions on Neural Networks and Learning Systems. August 2014. Vol. 25, No. 8. pp. 1553-1565.

18. Kurkova V. Complexity of Shallow Networks Representing Finite Mapping. In: Artificial Intelligence and Soft Computing // Proceedings of the 14th International Conference ICAISC. 2015. pp. 39-48.

19. Erdogmus D., Principe J. C. Entropy minimization algorithm for multilayer perceptrons // Proceedings of International Joint Conference on Neural Net-works (IJCNN'01). 2001. Vol. 4. pp. 3003-3008.

20. Применение теоретико-информационного подхода для обучения многослойного персептрона в задаче распознавания фонем / О. А. Морозов и др. // Вестник Нижегородского университета им. Н. И. Лобачевского. 2010. № 5 (2). С. 354-357. [ O. A. Morozov, et. al., "Application of theoretic information approach to multilayer perceptron learning in the phoneme recognition problem," (in Russian), in Vestnik Nizhegorodskogo universiteta im. N. I. Loba-chevskogo. 2010, No. 5 (2), pp. 354-357. ]

21. Vasilyev V. Structural Design of Shallow Neural Networks on the Basis of Minimal Complexity Principle // Proceedings of the 24th Mediterranean Conference on Control and Automation (MED'16), Athens, Greece. 2016. pp. 12121217.

22. Фунтиков В. А., Надеев Д. Н., Иванов А. И. Оценка энтропии множества датчиков с учетом коррелированно-сти их данных // Датчики и системы. 2011. № 11. С. 3-6. [ V. A. Funtikov, D. N. Nadeev, A. I. Ivanov, "Estimation of sensors entropy taking into account their data correlation," (in Russian), in Datchiki isistemy. 2011, no. 11, pp. 3-6. ]

23. К вопросу моделирования и управления непрерывными технологическими процессами с помощью нейронных сетей / В. В. Кафаров и др. // Теор. основы хим. технологии. 1995. Т. 29, № 2. С. 205-212. [ V. V. Kafarov,et. al., "On the issue of modeling and control of continuous techno-

logical processes using neural networks", (in Russian), in Teor. osnovy him. Tehnologii. Т. 29, no. 2, pp. 205-212, 1995. ]

ОБ АВТОРАХ

ВАСИЛЬЕВ Владимир Иванович, проф. каф. ВТиЗИ УГАТУ. Дипл. инж. по пром. электронике (УАИ, 1970). Д-р техн. наук по сист. анализу и автоматич. управлению (ЦИАМ, 1990). Иссл. в обл. интеллектуальных систем управления и защиты информации.

ВУЛЬФИН Алексей Михайлович, доцент каф. ВТиЗИ УГАТУ. Дипл. инженера-программиста (УГНТУ, 2008). Канд. техн. наук по системному анализу, управлению и обработке информации (УГАТУ, 2012). Иссл. в обл. интеллектуального анализа данных и моделирования сложных технических систем.

ГЕРАСИМОВА Ильмира Барыевна, доц. каф. автоматизированных систем управления. Дипл. инж.-сист. (УАИ, 1985). Д-р техн. наук по упр. в соц. и экон. системах (УГАТУ, 2011). Иссл. в обл. сист. анализа, упр. науч.-образ. системами.

ЧЕРНЯХОВСКАЯ Лилия Рашитовна, проф. каф. технической кибернетики. Дипл. инж. эл. техники (УАИ, 1970). Д-р техн. наук по сист. анализу, упр. и обр. информ. (УГАТУ, 2004). Иссл. в обл. сист. анализа, интеллект. инф. систем, систем искусств. интеллекта.

METADATA

Title: Structural design of multilayer neural networks on the

basis of entropy approach Authors: V. V. Vasilyev 1, A. M. Vulfin 2, I. B. Gerasimova 3,

L. R. Chernyakhovskaya 4 Affiliation:

Ufa State Aviation Technical University (UGATU), Russia. Email: 1 vasilyev@ugatu.ac.ru, 2 vulfin.alexey@gmail.com,

3 tarot_gera@mail.ru, 4 lrchern@yandex.ru Language: Russian.

Source: Vestnik UGATU (scientific journal of Ufa State Aviation Technical University), vol. 23, no. 2 (84), pp. 127-137, 2019. ISSN 2225-2789 (Online), ISSN 1992-6502 (Print). Abstract: The formalized algorithm of designing the structure of neural network models of complex objects and systems on the basis of theoretical-information approach to assessment of the complexity of neural network (NN) structure and training set used for adjustment (learning) of NN synaptic connection weights, is offered. The various variants of statement of NN models design (image recognition, prediction of temporal series, identification of dynamic objects) are considered. The example of construction of NN classificator of minimal complexity on the basis of multilayer perceptron with one and two hidden layers, illustrating the effectiveness of proposed algorithm of structural design, is presented. Key words: neural networks; entropy; training set; principle of minimal complexity; image recognition; identification of dynamic objects.

About authors:

VASILYEV, Vladimir Ivanovich, Prof., Dept. of Computer Engineering and Information Security. Dipl. Engineer in Industrial Electronics (USATU, 1970), Dr. of Tech. Sci. (CIAM,

1990). Invest. in intelligent systems of control and information security.

VULFIN, Alexey Mikhailovich, Ass.-prof., Dept. of computing equipment and information protection, software engineer dipl. (UGNTU, 2008). Cand. of tech. sci., systems analyst, councils recommend measure and information processing (USATU, 2012).

GERASIMOVA, Ilmira Barievna, Prof., Dept. of Automated Systems. Dipl. System Engin. (UAI, 1985). Dr. of Tech. Sci. on Control in Social and Econ. Systems (USATU, 2011). Investigations in syst. analysis and control in sci.-edu. systems.

CHERNYAKHOVSKAYA, Liliya Rashitovna, Prof., Dept. of Technical Cybernetics. Dipl. Electronics Engineer (Ufa Aviation Univ., 1970). Cand. of Tech. Sci. (USATU, 1977), Dr. of Tech. Sci. (USATU, 2004).

i Надоели баннеры? Вы всегда можете отключить рекламу.