Научная статья на тему 'Конструктивный подход построения нейроструктурных моделей на основе блочного псевдообращения'

Конструктивный подход построения нейроструктурных моделей на основе блочного псевдообращения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
156
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОСТРУКТУРНОЕ МОДЕЛИРОВАНИЕ / КОНСТРУКТИВНЫЙ ПОДХОД / БЛОЧНОЕ ПСЕВДООБРАЩЕНИЕ / NEUROSTRUCTURAL MODELING / CONSTRUCTIVE APPROACH / BLOCK PSEUDO-INVERSION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сараев П. В.

Статья посвящена исследованию методов конструктивного построения нейроструктурных моделей на основе блочного псевдообращения матриц. Рассматриваются две возможности наращивания структуры модели добавление нового нейроноподобного элемента в последний скрытый слой и формирование нового скрытого слоя. Показана зависимость изменений вектора весов от изменений добавляемых весов, а также связь с изменением весов предыдущей модели

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сараев П. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONSTRUCTIVE APPROACH TO NEUROSTRUCTURAL MODELS BUILDING BASED ON BLOCK PSEUDO-INVERSION

The article is devoted to investigation of neurostructural models building constructive methods based on block matrices pseudo-inversion. Two ways of model structure construction are described. The first way is addition of new neuro-like ele-ment to the last hidden layer. The second way is creation of new hidden layer. Dependence of existing and new weights cor-rection, correlation with previous model weights correction are stated

Текст научной работы на тему «Конструктивный подход построения нейроструктурных моделей на основе блочного псевдообращения»

УДК 519.85

КОНСТРУКТИВНЫЙ ПОДХОД ПОСТРОЕНИЯ НЕЙРОСТРУКТУРНЫХ МОДЕЛЕЙ НА

ОСНОВЕ БЛОЧНОГО ПСЕВДООБРАЩЕНИЯ

П.В. Сараев

Статья посвящена исследованию методов конструктивного построения нейроструктурных моделей на основе блочного псевдообращения матриц. Рассматриваются две возможности наращивания структуры модели - добавление нового нейроноподобного элемента в последний скрытый слой и формирование нового скрытого слоя. Показана зависимость изменений вектора весов от изменений добавляемых весов, а также связь с изменением весов предыдущей модели

Ключевые слова: нейроструктурное моделирование, конструктивный подход, блочное псевдообращение

Нейроструктурные модели (НСМ) - класс математических моделей, составленный из множества связанных между собой нейроноподобных элементов (НПЭ), расширяющий класс нейросетевых моделей [7]. Кроме нейронных сетей прямого распространения (НСПР) НСМ содержат нейронные сети с неклассическими функциями активации, нечеткие модели Та-каги-Суджено с дифференцируемыми операциями логического вывода, нейро-нечеткие модели типа ANFIS. Актуальной является задача разработки и исследования алгоритмов определения оптимальной структуры НСМ на основе учета их характерной суперпозиционной линейно-нелинейной по параметрам структуры. В качестве основы таких алгоритмов может быть использован аппарат блочного матричного псевдообращения.

Задача построения НСМ оптимальной структуры - задача структурной идентификации. Это означает необходимость определения количества скрытых слов, количества НПЭ в скрытом слое, а также функций активации НПЭ. Задача построения оптимальной структуры для НСМ является частично решенной, так как задана архитектура модели, т.е. общий алгоритм построения и функционирования.

Возможны три стратегии выбора структуры НСМ аналогично НСПР:

• Генерация набора независимых моделей, и дальнейший выбор лучшей из них.

• Контрастирование, заключающееся в оценке значимости НПЭ и удалении наименее значимых весов или НПЭ.

• Конструктивный подход, заключающийся в последовательном наращивании количества слоев и/или НПЭ в скрытых слоях, начиная с сети минимальной структуры.

Контрастивный подход опирается на одну из двух идей [8]: применение техники регуляризации; удаление незначащих связей. При применении техники регуляризации при обучении минимизируется модифицированный функционал качества обучения:

J (ч) + (ч),

где Ес(^) - штраф за сложность структуры НСМ, X - параметр регуляризации, определяющий относительную значимость слагаемых. Это выражение представляет собой функцию из теории регуляризации Тихонова. В качестве штрафа за сложность структуры НСМ могут использоваться подходы, представленные в [6].

Второй способ контрастирования заключается в первоначальном обучении НСМ избыточно большой структуры, дальнейшим оцениванием значимости весов и удалением незначащих весов. В качестве теоретической основы оценки значимости весов выступает анализ локального поведения функции в окрестности текущей точки на основе формулы Тейлора. При 0 *

замене w на w оценка изменения веса г на изменение значения мгновенного функционала качества ДQ = Q(w*) - Q(w0) для примера у приближенно вычисляется как

%(J, Л =

3Q

dw,.

I * 0 I

• w, - w.

Сараев Павел Викторович - ЛГТУ, канд. техн. наук, доцент, e-mail: psaraev@yandex.ru

где %(/, j) - показатель чувствительности к замене w0 на wt для примера j. Чувствительность веса на всех примерах вычисляется как

к

х(0 = Xx(i> j).

j=i

На основе оценок %(i) вычисляется номер веса

i * = arg min x(i),

i=l

после чего производится обучение НСМ без веса i . Если при этом качество модели не сильно

ухудшилось, вес i* удаляется. Подобная процедура выполняется итерационно [4, 5]. Другими методами, основанными на анализе изменения значения функционала, являются методы Ле-Куна OBD и Д. Шторка OBS [6].

Суть конструктивного подхода состоит в начальном выборе НСМ минимальной структуры и дальнейшем последовательном наращивании структуры путем добавления НПЭ в скрытые слои или создании новых слоев. Теоретически это позволяет построить сеть с достаточно небольшим количеством слоев. На практике это вызывает сложности.

Одним специальным методом конструктивного обучения является подход, основанный на применении сетей каскадной корреляции (СКК), предложенных Фальманом [6], которые также относятся к классу НСМ. Алгоритм для СКК Фальмана гарантирует монотонное увеличение значений коэффициента корреляции при добавлении новых НПЭ, хотя глобальность решения при этом не обеспечивается. Данная процедура приводит к изменению весов только выходного слоя.

Процесс конструирования НСМ может быть формализован как задача поиска в пространстве состояний [10, 11]. Для этого необходимо определить четыре элемента: пространство состояний, начальное состояние, критерий, стратегию поиска. Пространство состояний описывается множеством кортежей S = {5}={(^, C, T,W)},

где N - количество скрытых НПЭ; C - ориентированный граф, задающий связи между входными, скрытыми и выходными НПЭ; Г - множество функциональных зависимостей скрытых НПЭ; W - параметры, соответствующие Г. Таким образом, S определяет множество функций, реализуемых НСМ.

Начальным состоянием является НСМ без скрытых НПЭ, т.е. линейная по параметрам модель. В отличие от конструктивного подхода в контрастивном подходе начальное состояние однозначно не определено. В качестве критерия останова может использоваться подход, когда ошибка обучения при добавлении НПЭ увеличивается незначительно.

Сутью конструктивных алгоритмов является стратегия поиска, т.е. алгоритм добавления новых НПЭ и обучение новой НСМ. Пусть V -множество вершин, соответствующих НСМ; E - множество дуг, связывающих НПЭ. Стратегия поиска включает:

1. Изменение (Fj, E) на (V2,E).

2. Обучение НСМ, определяемой (v2 , E ) .

Обычно V с V , Е с Е . Чаще всего V = V +1, т.е. происходит добавление одного НПЭ. Фактически это задача определения отображения переходов состояний А .•£ ^ £.

В отличие от других задач поиска в пространстве состояний ограничения на А не накладываются, это может быть случайный переход в новое состояние, отображение может одно- и многозначным. Наиболее гибким является подход, при котором отображение является многозначным, т.е. на следующем шаге имеется несколько кандидатов структур. Как правило, на следующем шаге все равно должна остаться только одна структура НСМ.

Обучение НСМ при наращивании структуры может быть осуществлено путем независимого обучения новой НСМ, путем обучения весов вновь добавленных НПЭ, путем обучения новых весов с перерасчетом значений весов ранее имевшихся параметров. Идеология конструктивного подхода подразумевает, что обучение только новых весов непродуктивна (теряется смысл построения НСМ минимально возможной структуры), поэтому обычно корректируются и ранее добавленные веса.

Хотя в [6] указано, что методы наращивания сети при большой размерности входного вектора имеют «относительно низкую эффективность» и «не являются серьезной альтернативой методам редукции сети», с этим можно не согласиться. Конструктивный подход представляется наиболее рациональным по следующим причинам [11]:

1. Однозначно определяется начальная структура НСМ.

2. С помощью конструктивных алгоритмов производится обучение НСМ сначала для моделей небольших размеров.

3. Среди всех структур НСМ, решающих поставленную задачу, будет построена НСМ меньших размеров, чем при применении алгоритмов контрастирования.

4. Отсутствуют ошибки и вычислительная сложность в связи с тем, что нет необходимости вычислять вторые производные функционала качества для матрицы Гессе.

При наращивании структуры НСМ наиболее рациональным подходом является не пересчет всех параметров заново, а использование ранее найденных весов для последующего обучения. Такую возможность предоставляет аппарат псевдообращения. В основе процедур пересчета весовых коэффициентов при добавлении новых весов лежит известная формула ре-

куррентного псевдообращения блочных матриц - формула Клайна:

~Л+ (I - БЬ)

Ь

[Л Б]+ =

где Ь = С+ + (I - СС+ )КБТ (Л+ )ТЛ+ (I - БС+);

С = (I - ЛЛ+ )Б ; К = (I+МТМ)-1;

М = Л+Б(I - С +С).

Применение рекуррентного псевдообращения матриц Якоби, возникающих при обучении НСМ, совместно с итерационными методами нелинейной оптимизации приводит к блочным рекуррентно-итерационным процедурам (БРИП) при конструировании НСМ и связано с суперпозиционным характером НСМ. Вначале БРИП применялись к задачам пошаговой регрессии, связанным с добавлением новых параметров в регрессионную модель ф(к,х) [1], в [2] БРИП получили дальнейшее. При этом добавление новых параметров К производилось на основе суперпозиционного расширения исходной модели до 9(К, к, х) в смысле 9(м>,м>,х) = у(К, ф(к, х)).

Можно выделить два основных способа наращивания структуры НСМ аналогично наращиванию НСПР [3]:

1. Добавление НПЭ в последний скрытый слой из М слоев.

2. Добавление нового слоя, состоящего из одного НПЭ, перед выходным слоем.

Рассмотрим первый вариант. Новый НПЭ приводит к появлению аддитивной добавки

у(М>, W, х) = 14-^^+0М-1,?+1; +

ММ - 2

+ I- К(М-2,{+{)у(М-2<)

где Кє Я

1=1

->+2

вектор, составленный из весов

добавленного НПЭ с учетом фиктивного единичного входа НПЭ и веса от добавленного НПЭ к выходному; у(М-2,,) - выход і-го НПЭ (М-2)-го слоя. Это означает необходимость определения весов К и корректировки ранее найденных весов w НСМ. Добавленная функция будет зависеть от части вектора весов w предыдущей НСМ - весов НПЭ скрытых слоев, находящихся c 1-го по (М-2)-й. Новая модель реализует функцию

Упк(К, к, х) = у(к, х) + у(К, к, х) или в более простом виде:

Упк(^ К) = У(к) + у(4, к). (1)

При использовании алгоритма Гаусса-Ньютона с псевдообращением для оптимизации

в обучении НСМ шаг итерационного процесса может быть представлен в виде

К+ К с + Ак

=

4+ 4 с А4

[к с ^ с ]Т -

веса на текущей итерации,

где

[к+ ]Т - веса на следующей итерации,

[Ак А#]т - корректирующий вектор, определяемый по формуле Ам>

АV

Х (Упек(К, 4) - У),

где у - вектор указаний учителя, упе„(к, V) -вектор выходов НСМ на примерах обучающего множества.

Благодаря тому, что вводится аддитивная добавка, корректировка весов может быть представлена в форме

А4 = Ь( УпК ^ к) - у) =

= Ь(у(м>с) + у( м?с,кс) - у);

Ак = (УІУп^(^ 4с))+ (! -

- ^УпКК, )Ь)УШк(Wo, 4с) - у)-Учитывая (1), получаем

Ак = (Ку( к)+уКу( к , к)) (у( к)+

+ У(кс, М!с) - у-УТкУ( 4с)Аи>)

Эта формула показывает, как зависит пересчет вектора весов w в зависимости от весов добавленного НПЭ. При данном подходе имеется возможность оценки влияния вектора поправки весов добавленного НПЭ А# на корректировочный вектор Ак .

Если НПЭ добавляется в двухслойную НСМ стандартной структуры (М=2), то добавляемая модель не зависит от вектора w: у(М>, К, х) = у( й, х) .

Аналогичная связь будет иметь место и при добавлении новых элементов в НСМ типа сетей каскадной корреляции Фальмана, в которых добавляемые НПЭ явно не зависят от существующих в модели весов. Тогда

и

Vі у (к , й ) = Vі у(к )

К У пвкУ О’ с/ с/

Ак = (у1у(кс))(у(кс) +

+ У(Кс,4с) -у ^Ту(4с)Ай) =

= (Ак)у -(у1у(кс)} Х :(у(К,4 с) - VTwУ( 4с)Ан>)

для

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где (Ак) - приращение, полученное

корректировки весов исходной НСМ без учета добавленного НПЭ. Это соотношение показывает связь приращения вектора полученной

НСМ в зависимости от приращения этого вектора в старой НСМ и приращения весов добавленного НПЭ. Матрицы Якоби в указанных формулах вычисляются на основе метода, аналогичного процедуре обратного распространения ошибки.

Рассмотрим случай, когда перед выходным добавляется новый скрытый слой, состоящий из одного НПЭ. Такой способ наращивания структуры сети реализуется суперпозицией функций

УпКw, К х) = Ко + КМу( W, х)) или в более простом виде:

Упк(W, = К0 + К1ст(у(. (2)

Заметим:

^кУпк( Кс,Кс) = Кс)

где Ок - диагональная матрица порядка К, составленная из производных функций активации <У (у(к, у 'Сi))), 7=1, ..., к, на главной диагонали. Кроме того,

VW У^ЛЯ) = ¥(4) -

матрица выходов НПЭ последнего скрытого слоя новой НСМ, построенная на данных обучающего множества. Таким образом,

Ак = (К-

-Х¥(Кс)Ь)(Упк(Кс,К с) - =

= (?1у(кс)) В++ К 1+(К о +

+а(у(к,х^) - у - Т(к )Ак4).

В полученной формуле псевдообратные от скалярной величины і^1 и диагональной матрицы Вк легко вычисляются.

Полученные формулы пересчета весов при конструировании НСМ могут быть эффективно применены при выборе оптимальных функций активации НПЭ, в том числе при построении моделей динамических систем. При таком подходе при добавлении новых НПЭ функция активации определена не сразу, а выбирается из некоторого конечного множества доступных

функций, т.е. efi . Та функция, которая приведет к наиболее значительному уменьшению ошибки моделирования, будет выбрана для добавленного НПЭ. При прогнозировании временных рядов целесообразно включать во множество fi периодическую функцию, например синус, для возможности определения цикличностей.

Работа поддержана РФФИ, грант № 11-07-97504-р_центр_а.

Литература

1. Блюмин С.Л., Погодаев А.К. Блочные рекуррентно-итерационные процедуры решения нелинейной задачи о наименьших квадратах //Журнал вычислительной математики и математической физики. 1992. Том 32, №8. С. 1180-1186.

2. Блюмин С.Л., Погодаев А.К. Суперпозиционная регрессия //Журнал вычислительной математики и мате-магической физики. 1995. Том 35, №10. С. 1576-1581.

3. Блюмин С.Л., Сараев П.В. Рекуррентноитерационные процедуры для адаптивного конструирования нейронных сетей // Нейроинформатика и ее приложения: Материалы IX Всероссийского семинара. Красноярск: ИПЦ КГТУ, 2001. С. 20-21.

4. Горбань А. Н., Россиев Д. А. Нейронные сети на персональном компьютере // Новосибирск: Наука. Сиб. издат. фирма РАН, 1996. 276 с.

5. Горбань А. Н. и др. Нейроинформатика // Новосибирск: Наука. Сибирское предприятие РАН, 1998. 296 с.

6. Осовский С. Нейронные сети для обработки информации // М.: Финансы и статистика, 2002. 344 с.

7. Сараев П.В. Развитие нейросетевого моделирования сложных систем на основе нейроструктурного подхода // Вести ВУЗов Черноземья, 2012. N 2(28). С.30-35.

8. Хайкин С. Нейронные сети: полный курс // М.: Издательский дом «Вильямс», 2006. 1104 с.

9. Kwok T.Y., Yeung D.Y. A Theoretically Sound Learning Algorithm for Constructive Neural Networks // Proceedings of the IEEE International Symposium on Speech, Image Processing and Neural Networks. Hong Kong, 1994. P. 389-392.

10. Kwok T.Y., Yeung D.Y. A Constructive neural networks: Some practical considerations // Proceedings of the IEEE International Conference on Neural Networks (ICNN). Orlando, Florida, USA, 1994. P. 198-203.

11. Kwok T.Y., Yeung D.Y. Constructive Algorithms for Structure Learning in Feedforward Neural Networks for Regression Problems // IEEE Transactions on Neural Networks, 1997. N 8(3). P. 630-645.

Липецкий государственный технический университет

CONSTRUCTIVE APPROACH TO NEUROSTRUCTURAL MODELS BUILDING BASED ON

BLOCK PSEUDO-INVERSION

P.V. Saraev

The article is devoted to investigation of neurostructural models building constructive methods based on block matrices pseudo-inversion. Two ways of model structure construction are described. The first way is addition of new neuro-like element to the last hidden layer. The second way is creation of new hidden layer. Dependence of existing and new weights correction, correlation with previous model weights correction are stated

Key words: neurostructural modeling, constructive approach, block pseudo-inversion

i Надоели баннеры? Вы всегда можете отключить рекламу.