Нечеткий контроллер с правилами самомодификации

Ключко Владимир Игнатьевич; Шумков Евгений Александрович; Карнизьян Роман Оганесович

УДК 004.032.26 UDC 004.032.26

НЕЧЕТКИЙ КОНТРОЛЛЕР С ПРАВИЛАМИ FUZZY CONTROLLER WITH

САМОМОДИФИКАЦИИ SELF-MODIFICATION RULES

Ключко Владимир Игнатьевич д.т.н., профессор

Шумков Евгений Александрович к.т.н.

Kluchko Vladimir Ignatievich Dr.Sci.Tech., professor

Shumkov Eugene Alexandrovich Cand.Tech.Sci.

Карнизьян Роман Оганесович аспирант

Кубанский Государственный Технологический Университет, Краснодар, Россия

В статье предложена нейро-нечеткая реализация нейросетевой топологии «Внутренний учитель»

Ключевые слова: ГИБРИДНАЯ НЕЙРОИЕЧЕТКАЯ СЕТЬ, НЕЙРОННАЯ СЕТЬ, ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ, ПОЛИТИКА САМООБУЧЕНИЯ, А№Т8, АДАПТИВНЫЙ КРИТИК

Kamizian Roman Oganesovish postgraduate student

Kuban State Technological University, Krasnodar, Russia

The article proposes the implementation of neuro-fuzzy neural network topology of "Internal Teacher"

Keywords: HYBRID NEURAL-NETWORK, NEURAL NETWORK, REINFORCEMENT LEARNING, ANFIS, SELF-LEARNING POLICY, ADAPTIVE CRITIC

Введение

В настоящее время стали популярны реализации систем управления объектами на базе топологий с подкреплением [2], в частности все большее развитие получают адаптивные критики [8,9], а также системы с различными реализациями Q - обучения [11]. При этом существует большое количество топологий на все случаи жизни, как адаптивных критиков, так и систем на базе Q -обучения, в частности приведем следующий список: DHP, GDHP, ADHPD, ADGDHP, GIF ACL, FACL, Q - Хемминг, Dyna - Q, Q - Kohonen network, CMLP, HQ и т.д.[6, 8,9,10,11,12]. Каждая из топологий имеет свою область применения и нет ни одной универсальной [2,6]. Также у каждой топологии имеется свои достоинства и недостатки. Одной из попыток создать универсальную топологию для создания систем управления на основе обучения с подкреплением, является разработка нейросетевой топологии "Внутренний учитель" [2,3,6]. Рассмотрим дальнейшее развитие данной топологии.

Классическая топология «Внутренний учитель»

Для топологии «Внутренний учитель» используются две основные компоненты - Решатель и Учитель. Подобную функциональную схему можно найти еще в работе 1971 года [1]. Предложенная в [3] топология «Внутренний учитель» состоит из нескольких структурных компонент (см. Рисунок 1). Управляющая компонента системы - «Решатель». Она получает вектор состояния объекта и среды и формирует на выходе управляющий вектор. Вектор состояния среды формируется сенсорной компонентой. Вектор управляющего воздействия отрабатывает моторная компонента. Наиболее важная часть системы - «Учитель», компонента обучения. Компонента обучения оценивает состояние среды на предмет изменения характера воздействия на объект, и если это имеет место быть, то Учитель вмешивается в управление, перенастраивая правила управления или же вообще изменяя их. При этом Учитель в режиме первоначального обучения формирует специального вида управляющие воздействия, позволяющие быстро и полно изучить среду. Таким способом система управления (далее СУ) на базе данной топологии меняет стратегию управления. На вход Учитель получает данные обратной связи от внешней среды и историю управления объекта управления.

В качестве компоненты обратной связи используется коэффициент эффективности X (далее КЭ1):

где 1 - номер кванта времени (итерации, одного законченного цикла

управления), для которого вычисляется коэффициент; ^ - безразмерный показатель

полезной деятельности, произведенной объектом; - безразмерный показатель затраченных ресурсов.

КЭ записан в обобщенном виде и вычисляется по вектору состояния среды и состояния объекта управления. Для использования описываемой топологии в конкретных применениях КЭ должен записываться в частном виде. КЭ

1 По сути - модифицированное подкрепление.

http ://ej. kub agro. ru/2013 /0 9/pdf/8 5. p df

обрабатывается и вычисляется в компоненте обратной связи (БКЭ - блок коэффициента эффективности на Рисунке 1).

СУ должна максимизировать коэффициент эффективности, реализуя цели управления. КЭ используется для выявления изменения стратегии поведения улучшившего или ухудшившего обшую оценку работы. КЭ является основным источником информации для построения эффективной схемы самообучения. При этом КЭ вычисляется на основе обработки сведений о внешней среде, объекте, и о характере взаимодействия объекта со средой.

Также для СУ на базе «Внутреннего учителя» вводятся адаптационные параметры - АП (один или несколько), регулируя которые можно добиться изменения работы Решателя. АП либо непосредственно входят в вектор подаваемый на вход Решателя, либо влияют на изменение обучающей выборки для Решателя.

В общем случае количество правил самообучения Учителя определяется по формуле:

^ = 3т(КЭ)+т(АП)

1{ЁГ) т (М)

где - глубина временного погружения по КЭ и - глубина

временного погружения по АП, то есть за сколько предыдущих временных

итераций учитывать КЭ и АП.

Правила самообучения2 учителя изменяют адаптационные параметры и

сформулированы следующим образом:

• если снизилось значение КЭ, то изменяем АП в противоположном направлении от предыдущих изменений;

• если значение КЭ выросло, то продолжаем изменять АП в направлении от предыдущих изменений;

• если значение не изменилось, то в зависимости от КЭ, либо оставляем текущие правила (если КЭ устраивает), либо хаотически изменяем применяемое правило.

2 Обычно трактуются, как «политика самообучения» (англ. self-modifying policies - SMP).

http://ej.kubagro.ru/2013/09/pdf/85.pdf

Рисунок 1. Топология "Внутренний учитель"

Подробно со стандартной топологии «Внутренний учитель» ознакомится в работах [2,6], а также в патенте РФ G 06 F 9/00 № 2266558.

Нейро-нечеткая топология «Внутренний учитель»

Предложим нейро-нечеткую реализацию компоненты Учитель. Пусть характеристики работы системы - коэффициент эффективности и адаптационный параметр рассматриваются, как нечеткие переменные с лингвистическими значениями: снизился, неизменился и увеличился3. Тогда нечеткие правила работы

Учителя будут следующими (для т )= 2 и т )= 1 ):

ЕСЛИ = снизился И EY{t-\) = сшзшся ц АЇ (г-1) = сшзился^ ХО ^ ^ =

увеличить

ЕСЛИ = снизился И EY{t-\) = не измешлся ц ЛЇ (t -1) = снизился, ТО ^ ^

3 Ничто не мешает увеличить количество лингвистических значений, например, использовать такие: сильно снизился, снизился, не изменился, увеличился, сильно увеличился.

Научный журнал КубГАУ, №93(09), 2013 года = увеличить

ЕСЛИ = снизился И ЁУ^-Х) = увеличился И ^ = снизился, ТО ^ =

снизить

и т.д. (в данном случае 27 правил).

Функции формы для правил можно задавать несколькими способами, но предпочтительней использовать трапециевидную или гауссовую функции принадл ежно сти.

Пусть ТСЕП = 2 и ) = 1 Входными переменными будут значения ,

ЕУ^-Х) И А1 1) Выходом компоненты Учитель будет переменная ^ ^ .

Обозначим через - ^ - функцию формы для выражения = снизился,

- для = сни3ился, _ дЛЯ А1 (г -1) = снизился Аналогично введем

функцию М : ДЛЯ = не изменился, ^2 дЛЯ ЕУ^-Х) = не изменился и Мъ

для ^ (?-1) = не изменился. Также введем функцию Н : ^' для = увеличился,

для ЕУ^-Х) = увеличился и Нз ДЛЯ ^ (*-1) = увеличился.

Для выхода введем функции ^4 = снизился, = не изменился, =

увеличился. Система нечеткого вывода по Цукамото будет следующая. Для четких

значений , Е¥({-1) и А1 (I - 1) определим релевантность правил а :

СС| — + 1^2 Ьъ

СХ 2 ~ ^\ 2 ^3

(Хд — + Н 2 +

СХ 27 ~^\ Н 2 ^ ^ Ъ

Выходы по каждому правил определяются с помощью обратных функций принадлежности правых частей правил:

Г2=Н-\а2)

¥3=Г4\а 3)

^27 — ^4 27 )

Тогда общий выход системы нечетких правил будет

27

Евд

Уо=^Т1-----

2=1

Реализуем приведенные правила самообучения Учителя с помощью нейро -нечеткой топологии А№18 [7]. Схема приведена на Рисунке 2.

Слой 1 предназначен для вычисления степени на узлах, с которыми заданные входы удовлетворяют функциям принадлежности, ассоциированных с этими узлами.

Слой 2 предназначен для вычисления силы правил для каждого узла. При этом

выход верхнего нейрона равен а' Л^2 л^з ^ второго сверху а2 - А лМ2 л^з и т д Все узлы обозначены как Т 5 так как можно выбрать любую Т -норму для моделирования логического И [7].

Слой 3 предназначен для нормализации силы правил:

/Зг. = !(ах + а2 + .. +а21)

кэт

агкм;

Ьі , Ьіуі

т N Н41(Ь1)

\У2

КЭ(М)> • у >: . Л.

• т N Н<Ьі)

• /\: У*

827 Ь27 Ь2?У27

т N Н4(Ь1)

правило 27

У°

Рисунок 2. Учитель на базе А№18

Слой 4 вычисляет произведение нормализованной силы правил и индивидуального выхода соответствующего правила:

/з^/з^ю

(32¥2=Р2Н-\а2)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р21^21 ~ $21^4 {а2т)

Слой 5 вычисляет выход сети (на единственном нейроне):

У О ~ /^2^2 +••• + Р27^27

Следующим шагом является обучение созданной сети. Дл обучения

гибридной сети А№18 используют алгоритм обратного распространения ошибки [7]. Обычно число правил жестко задается сверху. Пусть будет N правил и будем использовать нечеткий вывод по Цукамото (ТБикато1:о). При этом обучение разбивается на следующие этапы:

1. назначить начальные значения весов и параметров;

2. на вход А№18 подать входные сигналы г из обучающей выборки.

При этом 1 выбирается случайным образом;

3. рассчитать выходные значения во всех слоях;

4. рассчитать ошибку на выходе А№18 как

(после некоторого числа итераций необходимо считать также ошибку по пакетному способу и если ошибка меньше заданной, то остановить обучение);

5. модифицировать параметры функций формы по формулам: для выходных переменных

64(* + 1) = 64 (*)-<;(-—)

дЪ4

с4{1 + \) = с4{1)-^{—)

дс4

И Т.Д..

Для обучения можно использовать также алгоритм КРгор [4].

Заключение

Таким образом, используя нечеткую логику можно реализовать мягкое (нечеткое) управление на базе топологии «Внутренний учитель». Использование нечеткой логики в данном случае позволяет для некритических задач повысить адаптационные свойства СУ. Предложенная топология сочетает в себе преимущества, как нейронных, так и нечетких систем. Возможность использования нечеткой логики в топологии «Внутренний учитель» также говорит об универсальности топологии.

Литература

1. Мкртчян С. О. Нейроны и нейронные сети. - М.: Энергия, 1971. - 232 с.

2. Стасевич В.П. Анализ и адаптивное управление в недетерминированных средах на основе

самообучения. 2007. 170 с.

3. Стасевич В.П., Воротников С.А. Использование нейросетевых структур для управления динамическими объектами в недетерминированной среде // Экстремальная робототехника: Материалы XII Научно-технической конференции. - Санкт-Петербург: СПбГТУ, 2002.

4. Хайкин С. Нейронные сети: полный курс. 2-е изд.: Пер. с. англ. - М.: Издательский дом «Вильямс», 2006 - 1104 с.

5. Шумков Е.А. Обучение и самообучение в адаптивных системах управления / Е.А.Шумков, В.П. Стасевич, В.Н. Зуева / / Известия вузов Северо-Кавказский регион. Технические науки. Новочеркасск, 2006. - №2. - с. 84 - 86.

6. Шумков Е.А. Система поддержки принятия решений предприятия на основе нейросетевых технологий. 2004. 158 с.

7. Ярушкина Н.Г. Основы теории нечетких и гибридных систем: Учеб. Пособие. - М.: Финансы и статистика. 2004. 320 с.

8. Balakrishnan S.N. and Biega V. "Adaptive Critic Based Neural Networks for Control," in Proc. Am. Contr. Conf., Seattle, WA, June 1995, pp. 335-339.

9. Prokhorov D., Wanch D. Adaptive critic designs. IEEE transactions on Neural Networks, September 1997, pp. 997-1007.

10. Sutton R.S., Reinforcement Learning. Boston: MA: Kluwer Academic, 1996.

11. Watkins C., Dayan P. Q - learning. // Machine Learning, vol. 8, pp. 279 - 292. 1992.

12. Wiering M, Schmidhuber J. HQ - learning. Adaptive behavior, 6(2):219 - 246, 1998.

References

1. Mkrtchjan S. O. Nejrony i nejronnye seti. - M.: Jenergija, 1971. - 232 s.

2. Stasevich V.P. Analiz i adaptivnoe upravlenie v nedeterminirovannyh sredah na osnove samoobuchenija. 2007. 170 s.

3. Stasevich V.P., Vorotnikov S.A. Ispol'zovanie nejrosetevyh struktur dlja upravlenija dinamicheskimi ob#ektami v nedeterminirovannoj srede // Jekstremal'naja robototehnika: Materialy XII Nauchno-tehnicheskoj konferencii. - Sankt-Peterburg: SPbGTU, 2002.

4. Hajkin S. Nejronnye seti: polnyj kurs. 2-e izd.: Per. s. angl. - M.: Izdatel'skij dom «Vil'jams», 2006- 1104 s.

5. Shumkov E.A. Obuchenie i samoobuchenie v adaptivnyh sistemah upravlenija / E.A.Shumkov, V.P. Stasevich, V.N. Zueva / / Izvestija vuzov Severo-Kavkazskij region. Tehnicheskie nauki. Novocherkassk, 2006. - №2. - s. 84 - 86.

6. Shumkov E.A. Sistema podderzhki prinjatija reshenij predprijatija na osnove nejrosetevyh tehnologij. 2004. 158 s.

7. Jarushkina N.G. Osnovy teorii nechetkih i gibridnyh sistem: Ucheb. Posobie. - M.: Finansy i statistika. 2004. 320 s.

8. Balakrishnan S.N. and Biega V. "Adaptive Critic Based Neural Networks for Control," in Proc. Am. Contr. Conf., Seattle, WA, June 1995, pp. 335-339.

9. Prokhorov D., Wanch D. Adaptive critic designs. IEEE transactions on Neural Networks,

September 1997, pp. 997-1007.

10. Sutton R.S., Reinforcement Learning. Boston: MA: Kluwer Academic, 1996.

11. Watkins C., Dayan P. Q - learning. // Machine Learning, vol. 8, pp. 279 - 292. 1992.

12. Wiering M, Schmidhuber J. HQ - learning. Adaptive behavior, 6(2):219 - 246, 1998.

Нечеткий контроллер с правилами самомодификации Текст научной статьи по специальности «Компьютерные и информационные науки»

FUZZY CONTROLLER WITH SELF-MODIFICATION RULES

Текст научной работы на тему «Нечеткий контроллер с правилами самомодификации»