НЕЙРОМОРФНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ

Станкевич Лев Александрович

СЕКЦИЯ «НЕЙРОННЫЕ И НЕЙРОМОРФНЫЕ СИСТЕМЫ»

Председатель — Станкевич Лев Александрович,

канд. техн. наук, доцент, ЦНИИ РТК; доцент Высшей школы автоматизации и робототехники, Санкт-Петербургский политехнический университет Петра Великого

Ученый секретарь — Журавская Анжелика, старший преподаватель Высшей школы компьютерных технологий и информационных систем, Санкт-Петербургский политехнический

университет Петра Великого

УДК 004.4

doi:10.18720/SPBPU/2/id24-165

Станкевич Лев Александрович,

доцент, канд. техн. наук

НЕЙРОМОРФНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ

Россия, Санкт-Петербург, Санкт-Петербургский политехнический университет Петра Великого, stankevich_lev@inbox.ru

Аннотация. Работа посвящена проблемам разработки нейроморфных систем управления. Рассматриваются системы, в которых реализуются функции классификации пространственно-временных состояний окружения объекта, прогнозирование их развития, а также управления этим объектом. Показано, что существующие классификаторы пространственно-временных паттернов могут обеспечить точность 60-80 % при 4-х классах состояний. Предложен новый тип классификатора нейроморфного типа на нейро-нечетких сетях, который показал точность классификации состояний, достаточную для управления объектами в динамических средах. Приведен пример применения классификатора для управления мобильным роботом.

Ключевые слова: пространственно-временные паттерны, восприятие информации, управление поведением, нейроморфные системы, нейро-нечеткие сети, классификация, прогнозирование.

Lev A. Stankevich,

Candidate of Technical Sciences (PhD), Associate Professor NEUROMORPHIC CONTROL SYSTEMS

Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia, stankevich_lev@inbox.ru

Abstract. The work is devoted to the problems of developing neuromorphic control systems. We consider systems that implement the functions of classifying the spatiotemporal states of an object's environment, predicting their development, as well as

controlling this object. It is shown that existing classifiers of spatiotemporal patterns can provide an accuracy of 60-80 % for 4 classes of states. A new type of classifier of the neuromorphic type on neuro-fuzzy networks has been proposed, which has shown that the accuracy of state classification is sufficient for controlling objects in dynamic environments. An example of using a classifier to control a mobile robot is given.

Keywords: spatiotemporal patterns, information perception, behavior control, neuromorphic systems, neuro-fuzzy networks, classification, forecasting.

Введение

В настоящее время существует большое разнообразие технических устройств, таких как бытовые приборы, роботы-манипуляторы, мобильные роботы, беспилотные аппараты. Такие устройства могут управляться человеком-оператором напрямую с помощью команд на исполнение отдельных действий. Возможно также супервизорное управление, когда оператор только формирует задание, которое устройство выполняет автономно.

В любом случае человек или система управления должны воспринимать и оценивать состояние окружения, которое используется для последующего принятия решений. При этом можно различать статическое и динамическое состояние. В первом случае окружение не меняется в течение периода управления, а во втором — оно может изменяться. В случае динамических состояний окружения управление может быть реализовано с использованием функций классификации и прогнозирования развития состояний, а также управления по этим состояниям. Эти функции формируются путем обучения и позволяют формировать сложные поведения устройства с учетом прогнозов. Системы, в которых эти функции реализуются нейроморфными средствами, можно назвать нейроморфными системами управления [1].

Реализация функций классификации и прогнозирования в нейро-морфных системах предполагается на модулях, обучаемых в реальном времени и отображающих в ассоциативной форме накопленные знания, которые используются для принятий решений путем ассоциативного вывода [2]. Такие модули строятся с использованием нейросетевых или нейрологических средств. Опробованы также нейроморфные варианты модулей на спайковых нейронных сетях [3, 4]. По мнению автора, для целей управления наиболее подходящим являются модули на нейро-нечетких сетях. Разные варианты таких сетей используются при решении различных задач управления устройствами [5-7].

Нейроморфные модули позволяют решать задачи классификации пространственно-временных паттернов, определяющих пространственное состояние окружения и его развитие во времени и эффективно реализовать сложное поведение устройств в динамических средах.

Целью этой работы является разработка нейроморфной системы управления устройствами на базе модулей, построенных на нейро-нечетких сетях. Далее рассмотрены принципы управления устройствами

по состоянию окружения. Показано, что функции классификации и прогнозирования могут быть реализованы на модулях, основанных на обучаемой кластерной нечеткой модели. Приведен пример управления мобильным роботом по состоянию окружения при обходе динамических препятствий.

1. Управление устройствами по состояниям

При управлении устройствами напрямую оператор наблюдает окружение сам или воспринимает его через сенсоры, т. е. регистрирует окружение и классифицирует его состояние. В соответствии с этим мозг вырабатывает команды управления, реализуемые, например, через пульты или джойстики. В случае супервизорного управления система, получившая задание от оператора, например, с помощью технического зрения воспринимает окружение, классифицирует его и формирует сигналы управления так, чтобы устройство выполняло целенаправленные действия по заданному оператором сценарию.

В динамической среде состояние окружения изменяется во времени, и для управления устройствами необходимо не только классифицировать текущие состояния, но и прогнозировать их возможные изменения во времени [8]. Динамическое состояние окружения определяется по пространственно-временному паттерну (ПВП), интегрирующему пространственные паттерны (ПП), формируемые по сигналам сенсоров в определенном временном интервале в нескольких точках окружения. В этом случае наиболее эффективным является управление устройством, основанное на реализации функций классификации ПВП состояния окружения и прогнозирования изменений этого состояния во времени, а также управления с учетом результатов реализации этих функций.

На рисунке 1 показано, что управление по состояниям окружения может быть реализован несколькими модулями.

Обучение Состояние окружения Обучение мира

Рис. 1. Функциональная схема управления объектом (ОУ) по состоянию окружения

Основным является модуль, реализующий функцию классификации ПВП. Этот модуль получает информацию от модуля, реализующего преобразование сигналов сенсоров в последовательность ПП. Результат ра-

боты модуля классификации, в свою очередь, используются модулем, реализующим отображение состояния окружения, соответствующего текущей ситуации. Обычно в состоянии окружения сохраняются ситуации в предыдущие моменты времени, чтобы можно было решать с помощью функции прогнозирования, как будет изменяться состояние окружения со временем.

2. Нейро-нечеткая реализация функций управления

В данной работе предлагается реализовать функции классификации и прогнозирования на биоподобных компонентах ассоциативного типа, которые в этой работе названы нейроморфными модулями (НМ). Они способны накапливать и использовать знания для реализации некоторых функций в нейро-нечетком базисе. В качестве основы для реализации таких модулей выбрана обучаемая нечеткая модель [7].

Заметим, что обучаемая нечеткая модель исходно не была предназначена для классификации временных последовательностей. Этот недостаток устраняется в предлагаемом варианте классификатора с предварительным преобразованием набора входных сигналов в ПП состояний с привязкой их ко времени. Так формируется ПВП состояния, который подается на входы классификатора.

Схема классификатора ПВП с одним НМ представлена на рис.2. Основные функции компонентов классификатора: (1) преобразование непрерывных входных сигналов в ПП, привязанных ко времени; (2) ассоциативное преобразование ПВП набора входных ПП на модели активатора НМ; (3) кластеризация решений после обучения; (4) формирование оценки и класса ПВП.

Индекс класса

Рис. 2. Функциональная схема классификатора ПВП

Далее описаны основные функции компонентов классификатора.

Преобразование входных сигналов имеет целью выделение каждого входного сигнала на заданном отрезке времени и формирование для этого отрезка времени входного ПВП. Этот отрезок делится на п сегментов с определённым интервалом времени, зависящим от задачи, в котором формируется ПП для каждого из п сегментов. Простейший способ — усреднить регистрируемые значения в сегменте для входных сигналов.

Ассоциативное преобразование каждого входного ПВП производится активатором на нейро-нечеткой сети, который выполняет нелинейное преобразование множества входов в один выход. Это преобразование имеет общий вид

где п — число входов; т — число примеров; Wi — весовой коэффициент при г-м терме; к — номер терма, значение которого явилось определяющим в операции объединения.

Более конкретно, каждый многомерный терм, соответствующий примеру г из т примеров, отображен набором степеней принадлежности {^^(х),] = 1,... , п}, который обрабатывается нечетко-логической операцией пересечения (определяется минимальное значение из набора). Полученное значение &(\х) корректируется весом (умножается на значение Wi, которое было сформировано при настройке отображения). Откорректированные значения У^ = Wi ^/^(х), _/ = 1,. , т обрабатываются нечетко-логической операцией объединения (определяется максимальное значение из набора), в результате которой получается значение у.

Можно использовать стандартную треугольную функцию принадлежности, но при этом возможно образование провалов между примерами и, как следствие, к значительному ухудшению результатов. Для решения данной проблемы можно использовать подход, когда связываются соседние термы так, что нижняя и верхняя граница терма зависит от центров соседних термов. Тогда функцию принадлежности можно представить в следующем виде:

где к — номер терма верхней границы, / — номер терма нижней границы.

Обучение модели производится процедурой нормализации. Имея некоторую тренировочную выборку инициализируем центры

термов хг и веса термов уг. После этого необходимо объединить термы. Для этого используется процедура, нормализации. Обучение в такой модели осуществляется путем настройки весовых коэффициентов термов и параметров функций принадлежности, определяющих их границы и центр. Нормализация производится в два этапа. Сначала для каждого из примеров формируется многомерный терм, вершина которого находиться в точке задания примера. Границы термов задаются в виде многомерных прямоугольников в пространстве входов системы. На первом этапе

границы всех прямоугольников совпадают с границами области задания входных параметров. Второй этап заключается в нормализации границ термов таким образом, чтобы корректно отрабатывались все примеры.

При инициализации проводится обнуление значений /у, Су, ку, и, Wi при известном числе входных переменных п и примеров т. Далее производится инициализация настроечных параметров следующими значениями:

/у = -да, ку = -да, Су = х, Wj = у для i = 1,... , т.

После задания всех примеров осуществляется коррекция границ термов, целью которой является учет взаимных ограничений, накладываемых термами друг на друга.

Коррекция границ термов реализуется выполнением следующих процедур:

- процедура вычисления функции обработки входной информации

Тгат(х\,...,хп);

- процедура вычисления 1пй(х\,...хП) — номера примера, давшего максимальный выход в нечетко-логической операции объединения при реализации процедуры Тгат(х\,...,хп) для каждого примера из набора (х^у; ¿=1,..., т};

- процедура коррекция параметров функций принадлежности при вводе каждого примера.

В результате конкретизируется ассоциативное отображение требуемой функции, т. е. получается набор параметров функций принадлежности термов, соответствующих примерам, и весовых коэффициентов /у, ку, Су, Wj для ¿=1,... , т и j = 1,., п.

Кластеризация. Уменьшить количество примеров, запомненных в модели, можно путем их кластеризации. Используется агломеративная процедура кластеризации, которая завершается, когда расстояние между получившимися кластерами уменьшится до заданного значения.

Формирование оценки ПВП и индекса класса. На входы НМ подается набор ПП с привязкой каждого ПП к моменту времени и, а на выходе НМ формируется текущее значение выходного параметра y¿. Далее производится оценка близости этого значения к заданному значению в кластере примеров, по которым обучался НМ. Если эта оценка выше заданного значения, формируется индекс класса ПВП.

3. Пример управления мобильным роботом

Для определения возможности управления перемещением мобильного робота по рассмотренной схеме был проведен эксперимент, где использована система управления по состояниям окружения, построенная на НМ в соответствии со схемой, приведенной на рисунке \. При этом используются только два информационных канала на входе

системы и 4 НМ, которые построены по схеме, представленной на рисунке 2. Каждый НМ обучается оцениванию степени распознавания одного из 4-х ПВП состояния окружения, находится ПВП состояния с максимальной степенью распознавания и по нему формируется индекс класса команды управления. Эта команда далее используется в блоке управления робота для реализации его перемещения на один шаг по выбранному направлению.

В эксперименте по управлению движением робота в динамической среде рассматривалась ситуация, когда робот движется по заданной траектории, и справа от него появился человек, движущийся наперерез. Требуется избежать столкновения с ним, используя информацию об изменении его положения во время движения. Для принятия решений о возможных движениях робота были определены 4 состояния окружения: (1) при движении в заданном направлении ожидается столкновение и нужно остановиться; (2) при движении в заданном направлении столкновение не ожидается и можно идти вперед; (3) чтобы пройти перед препятствием требуется повернуть влево; (4) чтобы обойти препятствие сзади требуется повернуть вправо. При известной скорости движения робота уг в заданном направлении ПВП каждого состояния определялся по двум параметрам, получаемым в каждый момент времени от сенсорной системы: углу направления а на препятствие по отношению к заданному направлению и скорости движения препятствия у0. Настройка НМ на распознавание каждого ПВП производилась путем обучения с подкреплением [9]. Для получения примеров, соответствующих каждому из состояний производилось моделирование движений робота и препятствия при случайном изменении регистрируемых параметров препятствия во времени. Полученные наборы примеров, в которых не было столкновений, далее использовались для обучения НМ распознаванию соответствующих ПВП. На рисунке 3 отображены решения по управлению роботом с целью избегания столкновением с движущимся человеком.

Обход слева

Обход справа

Рис. 3. Схема обхода динамического препятствия

Эксперимент по управлению моделью мобильного робота проводился в среде Gazebo [10] использовался специальный программный модуль, преобразующий распознанные ПВП состояний в команды управления: Стоп, Вперед, Обход слева, Обход справа.

Правильные решения достигались в 84 случаях при 100 попытках управления при изменении скоростей движения человека до 1,2 м/сек.

Заключение

Разработка и применение систем управления по состоянию окружения в настоящее время актуальна, прежде всего, в области робототехники. С целью повышения эффективности управления в таких системах предлагается использовать нейро-нечеткие модули на обучаемой кластерной модели, которые позволяют эффективно решать задачу классификации пространственно-временных образов, с прогнозированием изменений состояние окружения объекта управления. Это дает возможность управлять передвижением роботов в динамических средах при существенных изменениях состояния окружения во времени.

Благодарности

Исследование выполнено за счет гранта Российского научного фонда № 23-21-00287, https://rscf.ru/project/23-21-00287.

Список литературы

1. Бахшиев А.В., Станкевич Л.А. Нейросетевые системы управления и обработки информации // Робототехника и техническая кибернетика. - Изд-во ЦНИИ РТК, 2014. - № 2 (3). - С. 40-44.

2. Smolyakov I., Stankevich L. Development of spiking neural networks based on neuron model using neuro-fuzzy basis // Programme of the 2nd International Conference "Cyber Physical Systems and Control", CPS&C'2021. 29 June - 2 July 2021, St. Petersburg, Russia.

3. Maas W. Networks of spiking neurons: The third generation of neural network models // Trans. Soc. Comput. Simul. Int. - 1997. - Vol. 14, no. 4. - Pp. 1659-1671.

4. Gerstner W., Kistler W.M. Spiking neuron models: Single neurons, populations, plasticity. - Cambridge: Cambridge Univ. Press, 2002.

5. Jang J.-Sh.R., Sun Ch.-Ts., Mizutani E. Neuro-fuzzy and soft computing: a computational approach to learning and machine intelligence. - 1st edn. - Englewool Cliffs, NJ, USA: Prentice Hall, 1997. - ISBN 0-13-261066-3; ISBN 978-0-13-261066-7.

6. Bodyanskiy Ye., Zaychenko Yu., Hamidov G., Kulishova N. Multilayer GMDH-neuro-fuzzy network based on extended neo-fuzzy neurons and its application in online facial expression recognition // System research and information technologies. - 2020. -December 7, 2020. - Pp. 66-78. - DOI: 10.20535/SRIT.2308-8893.2020.3.05.

7. Станкевич Л.А. Когнитивные системы и роботы. Монография. - СПб.: Изд-во Политехнического университета, 2019. - 631 с.

8. Natschlager T., Ruf B. Spatial and temporal pattern analysis via spiking neurons // Network Computation in Neural Systems. - Bristol, England, UK, 1998. - Vol. 9(3). -Pp. 319-332. - DOI: 10.1088/0954-898X/9/3/003.

9. Sutton R.S., Barto A.G. Reinforcement learning: an Introduction. - Cambridge, MA, USA: MIT Press, 2018.

10. Ackerman E. Latest version of Gazebo simulator makes it easier than ever to not build a robot // IEEE Spectrum. 2016-02-04. - IEEE, 2016. - URL: https://spectrum.ieee.org/latest-version-of-gazebo-simulator (date of access: 15.12.2023).

НЕЙРОМОРФНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Станкевич Лев Александрович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Станкевич Лев Александрович

NEUROMORPHIC CONTROL SYSTEMS

Текст научной работы на тему «НЕЙРОМОРФНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ»