Научная статья на тему 'РАСПОЗНАВАНИЕ ПАТТЕРНОВ ДВИГАТЕЛЬНОЙ АКТИВНОСТИ НЕЙРОННОЙ СЕТЬЮ ПО НЕПРЕРЫВНЫМ ДАННЫМ ОПТИЧЕСКОЙ ТОМОГРАФИИ FNIRS'

РАСПОЗНАВАНИЕ ПАТТЕРНОВ ДВИГАТЕЛЬНОЙ АКТИВНОСТИ НЕЙРОННОЙ СЕТЬЮ ПО НЕПРЕРЫВНЫМ ДАННЫМ ОПТИЧЕСКОЙ ТОМОГРАФИИ FNIRS Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
141
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕРФЕЙС МОЗГ-КОМПЬЮТЕР / ОСТАТОЧНАЯ НЕЙРОННАЯ СЕТЬ / ОПТИЧЕСКАЯ ТОМОГРАФИЯ / РЕКУРРЕНТНАЯ НЕЙРОННАЯ СЕТЬ / СВЕРТОЧНАЯ НЕЙРОННАЯ СЕТЬ / НЕЙРОННАЯ СЕТЬ С ДЛИННОЙ КРАТКОСРОЧНОЙ ПАМЯТЬЮ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Асадуллаев Рустам Геннадьевич, Афонин Андрей Николаевич, Щетинина Екатерина Сергеевна

Статья посвящена разработке и апробации архитектуры нейронной сети для классификации паттернов двигательной активности по входным данным с оптического томографа. Целью данной работы является создание нейронной сети, способной осуществлять поиск паттернов двигательной активности в непрерывно поступающем сигнале с оборудования. В работе были проанализированы три типа архитектур нейронных сетей NN_LSTM, NN_ConvLST, NN_ResNet, каждая из которых представляет оригинальный подход для поиска логики в данных временных рядов. Подготовлен набор нейрофизиологических данных, полученных с оптического томографа, на основании которого проводилась апробация и качественная оценка нейронных сетей. Для этого был разработан план проведения эксперимента с учетом специфики физических основ получаемого сигнала, в частности запаздывание и инерция окси- и деокси- гемоглобина в крови. Построенный тайминг эксперимента позволяет однозначно идентифицировать события во время проведения эксперимента с целью выявления факта выполнения целевых команд испытуемым. Проведено обучение моделей нейронных сетей на двух целевых классах (сжать и разжать кисть руки). В результате показано, что модель NN_ResNet, адаптированная для обработки временных рядов, дает наилучший результат точности. Следующим этапом стало обучение моделей на трех классах (добавился класс иной двигательной активности). В результате достигнута наилучшая точность для модели NN_ResNet (accuracy 91 %). Таким образом, получена модель нейронной сети глубокого обучения, способная идентифицировать двигательные паттерны мозговой активности по данным fNIRS, в которых записан сторонний сигнал помимо целевых команд.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Асадуллаев Рустам Геннадьевич, Афонин Андрей Николаевич, Щетинина Екатерина Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RECOGNITION OF PATTERNS OF MOTOR ACTIVITY BY A NEURAL NETWORK BASED ON CONTINUOUS OPTICAL TOMOGRAPHY FNIRS DATA

The article is devoted to the development and testing of the architecture of a neural network for the classification of patterns of motor activity according to the input data from an optical tomograph. The aim of this work is to create a neural network capable of searching for patterns of motor activity in a continuously arriving signal from equipment. The work analyzed three types of neural network architectures NN_LSTM, NN_ConvLST, NN_ResNet, each of which represents an original approach for finding logic in time series data. The dataset of neurophysiological signals obtained from an optical tomograph was prepared for approbation and qualitative assessment of neural networks were carried out. The plan of the experiment was developed taking into account the specifics of the physical foundations of the received signal, for example, the lag and inertia of oxy- and deoxy-hemoglobin in the blood. The experiment timing allows to unambiguously identify events during the experiment in order to identify the fact of the execution of target commands by the experiment subject. The training of neural network models was carried out in two target classes (compress and unclench the hand). The next stage was the training of models in three classes (a class of other motor activity was added). As a result, the best accuracy was achieved for the NN_ResNet model (accuracy 91%). In this way, obtained the deep learning neural network model capable of identifying motor patterns of brain activity according to fNIRS-data, in which an external signal is recorded in addition to target commands.

Текст научной работы на тему «РАСПОЗНАВАНИЕ ПАТТЕРНОВ ДВИГАТЕЛЬНОЙ АКТИВНОСТИ НЕЙРОННОЙ СЕТЬЮ ПО НЕПРЕРЫВНЫМ ДАННЫМ ОПТИЧЕСКОЙ ТОМОГРАФИИ FNIRS»

КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ _COMPUTER SIMULATION HISTORY_

УДК 004.048

DOI 10.52575/2687-0932-2021-48-4-735-746

Распознавание паттернов двигательной активности нейронной сетью по непрерывным данным оптической томографии fNIRS

Асадуллаев Р.Г., Афонин А.Н., Щетинина Е.С.

Белгородский государственный национальный исследовательский университет, Россия, 308015, г. Белгород, ул. Победы, 85 E-mail: asadullaev@bsu.edu.ru, afonin@bsu.edu.ru, 1198621@bsu.edu.ru

Аннотация. Статья посвящена разработке и апробации архитектуры нейронной сети для классификации паттернов двигательной активности по входным данным с оптического томографа. Целью данной работы является создание нейронной сети, способной осуществлять поиск паттернов двигательной активности в непрерывно поступающем сигнале с оборудования. В работе были проанализированы три типа архитектур нейронных сетей NN_LSTM, NN_ConvLST, NN_ResNet, каждая из которых представляет оригинальный подход для поиска логики в данных временных рядов. Подготовлен набор нейрофизиологических данных, полученных с оптического томографа, на основании которого проводилась апробация и качественная оценка нейронных сетей. Для этого был разработан план проведения эксперимента с учетом специфики физических основ получаемого сигнала, в частности запаздывание и инерция окси- и деокси- гемоглобина в крови. Построенный тайминг эксперимента позволяет однозначно идентифицировать события во время проведения эксперимента с целью выявления факта выполнения целевых команд испытуемым. Проведено обучение моделей нейронных сетей на двух целевых классах (сжать и разжать кисть руки). В результате показано, что модель NN_ResNet, адаптированная для обработки временных рядов, дает наилучший результат точности. Следующим этапом стало обучение моделей на трех классах (добавился класс иной двигательной активности). В результате достигнута наилучшая точность для модели NN_ResNet (accuracy 91 %). Таким образом, получена модель нейронной сети глубокого обучения, способная идентифицировать двигательные паттерны мозговой активности по данным fNIRS, в которых записан сторонний сигнал помимо целевых команд.

Ключевые слова: интерфейс мозг-компьютер, остаточная нейронная сеть, оптическая томография, рекуррентная нейронная сеть, сверточная нейронная сеть, нейронная сеть с длинной краткосрочной памятью.

Благодарности: работа выполнена при финансовой поддержке РФФИ в рамках научного проекта № 20-08-01178.

Для цитирования: Асадуллаев Р.Г., Афонин А.Н., Щетинина Е.С. 2021. Распознавание паттернов двигательной активности нейронной сетью по непрерывным данным оптической томографии fNIRS. Экономика. Информатика, 48 (4): 735-746. DOI: 10.52575/2687-0932-2021-48-4-735-746.

Recognition of patterns of motor activity by a neural network based on continuous optical tomography fNIRS data

Rustam G. Asalullaev, Andrey N. Afonin, Ekaterina S. Shchetinina

Belgorod National Research University, 85 Pobeda St, Belgorod, 308015, Russia E-mail: asadullaev@bsu.edu.ru, afonin@bsu.edu.ru, 1198621@bsu.edu.ru

Abstract. The article is devoted to the development and testing of the architecture of a neural network for the classification of patterns of motor activity according to the input data from an optical tomograph. The

aim of this work is to create a neural network capable of searching for patterns of motor activity in a continuously arriving signal from equipment. The work analyzed three types of neural network architectures NN_LSTM, NN_ConvLST, NN_ResNet, each of which represents an original approach for finding logic in time series data. The dataset of neurophysiological signals obtained from an optical tomograph was prepared for approbation and qualitative assessment of neural networks were carried out. The plan of the experiment was developed taking into account the specifics of the physical foundations of the received signal, for example, the lag and inertia of oxy- and deoxy-hemoglobin in the blood. The experiment timing allows to unambiguously identify events during the experiment in order to identify the fact of the execution of target commands by the experiment subject. The training of neural network models was carried out in two target classes (compress and unclench the hand). The next stage was the training of models in three classes (a class of other motor activity was added). As a result, the best accuracy was achieved for the NN_ResNet model (accuracy 91%). In this way, obtained the deep learning neural network model capable of identifying motor patterns of brain activity according to fNIRS-data, in which an external signal is recorded in addition to target commands.

Keywords: brain-computer interface, residual neural network, optical tomography, recurrent neural network, convolutional neural network, long short-term memory neural network.

Acknowledgements: research is supported by the RFBR grant 20-08-01178.

For citation: Asadullaev R.G., Afonin A.N., Shchetinina E.S. 2021. Recognition of patterns of motor activity by a neural network based on continuous optical tomography fNIRS data. Economics. Information technologies, 48 (4): 735-746 (in Russian). DOI: 10.52575/2687-0932-2021-48-4-735-746.

Введение

Интерфейс мозг-компьютер (Brain-Computer Interface (BCI)) - автоматизированная система, позволяющая управлять компьютеризированными внешними устройствами, используя данные мозговой активности человека (нейробиоуправление).

Модели BCI, использующие метод получения данных ЭЭГ, характеризуются высокой скоростью работы и используются в задачах нейробиоуправления, однако используются не так часто по сравнению с другими методами сбора данных. Зачастую данные ЭЭГ слишком зашумлены из-за неустойчивости системы сбора данных [Y. Tomita et al., 2014]. Модели BCI, использующие данные фМРТ, имеют лучшие результаты классификации паттернов выполнения движения. Однако они требуют значительных технических и материальных ресурсов для сбора и обработки данных, а также оборудование является жестко лабораторным [Wang, WuReal, 2018]. Системы BCI, основанные на методе сбора данных мозговой активности fNIRS, отличаются более высокими темпами сбора и классификации полученных данных, более низкой стоимостью их получения по сравнению с фМРТ, более высоким качеством полученных «сырых» данных по сравнению с ЭЭГ и не требуют громоздкого лабораторного оборудования. Модели BCI, основанные на данных fNIRS, могут использоваться в режиме реального времени, что позволит поднять их спрос и использовать в повседневной жизни.

Разрабатываются модели BCI, работающие с использованием нескольких методов сбора данных мозговой активности (например, ЭЭГ и fNIRS) [Naseer, Hong, 2015]. Такие модели носят название двухконтурных моделей. Сущность заключается в том, что по одному контуру BCI регистрирует факт совершения какого-либо движения или действия человека, а по другому контуру BCI получает прошедший классификацию паттерн движения. Подобные модели BCI являются более эффективными и точными, однако имеют большую стоимость и требования к аппаратным ресурсам, по сравнению с одноконтурными моделями. В некоторых исследованиях строились BCI на двойной и тройной гибридной обработке данных. В данных исследованиях были собраны и проанализированы данные ЭЭГ и fNIRS, при этом данные fNIRS проходили классификацию дважды по различным контурам [Sung C. Jun. 2018].

Подходы построения интерфейса мозг-компьютер, основанные на совмещении различных видов мозговой активности, к примеру, fNIRS-томографии и ЭЭГ и других

комбинаций, отличаются сложной технической реализацией, а также большими затратами ресурсов. Для практической реализации BCI требуются подходы, обеспечивающее достаточное качество работы с минимально допустимым числом элементной и программной базы.

Разрабатываемые средства настоящего исследования ориентированы для построения BCI управления бионическими протезами. В частности, управления бионическими протезами кисти руки. Результатом работы fNIRS являются исходные сигналы, представляющие собой многомерные временные ряды. В настоящее время все большую обоснованную популярность при обработке многоканальных временных рядов получают нейронные сети глубокого обучения. Специфика нейронных сетей позволяет интегрировать слои различного назначения с целью формирования гибких архитектур для решения специфических задач. Таким примером может служить архитектура для обработки временных рядов с предварительным извлечением признаков, включающая слои CNN и LSTM. Такие сети способны не только хорошо формировать признаки входных данных, но и находить зависимости данных во времени, что позволяет более точно классифицировать временные ряды.

В исследовании оцениваются временные ряды данных с учетом пространственной и временной логики изменения fNIRS-сигнала. Основной задачей исследования является проверка возможности применения нейронных сетей для классификации паттернов по непрерывному сигналу, поступающему с оборудования fNIRS, который включает широкий спектр возможных сигналов, отличающихся от целевых.

Методы исследования и план эксперимента

В настоящем исследовании применялся оптический томограф NIRSport Model 88 производства NIRx Medical Technologies (Germany). Данная модель NIRS-томографа использует 16 датчиков (оптодов) (8 излучателей и 8 детекторов). Датчики крепятся к специальной шапке по международной системе «10-20» или «10-10». Частота регистрации данных составляет 7,8Гц.

Инфракрасная спектроскопия измеряет концентрацию гемоглобина в поверхностном слое коры головного мозга не более 3 см вглубь, когда расстояние между датчиками составляет 3 см. Для регистрации и обработки fNIRS-сигналов разработаны специализированные программные продукты от компании NIRx [NIRx fNIRS Technology & Service Overview, 2015]:

- Программное обеспечение Aurora fNIRS для сбора данных NIRSport 2;

- Программное обеспечение Turbo-Satori для анализа fNIRS данных в реальном времени;

- Программное обеспечение NIRStar 15.2 для сбора данных fNIRS;

- Программное обеспечение nirsLAB для анализа fNIRS данных.

В данном исследовании использовано программное обеспечение «NIRStar», разработанное как многоплатформенная инструментальная среда управления fNIRS-томографом (рис. 1). «NIRStar» предоставляет возможность управления и отображения данных в режиме реального времени.

Рис. 1. Интерфейс программы «NIRStar» Fig. 1. Program interface «NIRStar»

Устройства fNIRS состоят из двух видов оптодов: источников света и детекторов света. Каналы определяются как пары источник-детектор, а расположение каналов определяется как средняя точка между источником и детектором.

Информация о расположении каналов и набор пар источник-детектор хранится в файле с расширением «^г». Исходные данные хранятся в файлах типа «№К$-date_number.wl1» и «№ГО^- date_number.wl2», что соответствует двум разным длинам волн.

Каждый файл представляет собой двумерный массив размером CountFrame х 64, где 64 -количество каналов, а CountFrame - количество регистрируемых фреймов по каждому каналу (7^гате=1с.). Канал данных является парой источник-детектор. Количество каналов равняется произведению числа источников света на число детекторов света. Временной интервал равняется длительности эксперимента.

Впоследствии из сырых данных удаляются каналы, которые имеют слишком большую длину между источником и детектором света.

Для сбора данных в настоящем исследовании применялась схема «10-20» с дистанцией между оптодами 3 см (рис. 2). Оптоды располагались в области двусторонней моторной коры, отвечающей за планирование, контроль и выполнение произвольных движений.

Рис. 2. Процесс монтажа оптодов fNIRS Fig. 2. Installation process for fNIRS-optodes

Разработан план проведения эксперимента в лабораторных условиях для сбора данных f№IRS. Собранные данные формируют репрезентативную выборку для обучения модели искусственного интеллекта на предмет распознавания паттернов мозговой активации с учетом специфики регистрируемых сигналов.

Необходимые условия выполнения эксперимента:

- эксперимент должен проводиться в комнате, без проникновения прямых солнечных

лучей;

- эксперимент должен проводиться в звукоизолированной комнате;

- эксперимент должен проводиться в присутствии участника и исследователя, без присутствия посторонних людей в комнате проведения эксперимента;

- обязательным условием для начала проведения эксперимента является заранее проведенная калибровка лабораторного оборудования для участника эксперимента;

- участнику эксперимента до начала эксперимента должны быть предоставлены план и тайминг сроки эксперимента.

В рамках эксперимента выполняются две команды:

- одновременное сжатие всех пальцев правой руки в кулак;

- одновременное разжатие всех пальцев правой руки.

Тайминг и количество выполнений заданных команд:

1. В начале эксперимента испытуемому дается 1 минута на расслабление для снижения числа сердечных сокращений и давления.

2. Затем выполняется 15 циклов, состоящих из следующей последовательности действий:

- Выполняется сжатие кисти руки. Кисть руки в сжатом виде удерживается в течение

20 сек.

- Выполняется разжатие кисти руки. Кисть руки в разжатом виде удерживается в течение 30 сек.

Требование к выполнению команд сжатие и разжатие кисти руки:

- Выполнять команды следует в спокойном ритме, то есть в течение 1-2 сек.

- После выполнения команды следует расслабиться. После сжатия кисти руки необходимо оставить руку в сжатом виде, но при этом не продолжать удерживать ее в этом состоянии с применением усилия (максимально расслабить мышцы руки).

Материалы

Предварительная обработка и формирование набора данных fNIRS

Разработка собственного программного кода предварительной обработки данных fNIRS обосновывается минимизацией требований к конечному устройству обработки сигнала в составе BCI и соответственно удешевлением технологии. В ходе обработки данных было произведено два преобразования «сырых» данных fNIRS: сначала - преобразование сырых данных в оптическую плотность, далее - преобразование из оптической плотности в концентрацию оксигемоглобина (HbO) и дезоксигемоглобина (HbR).

Оптическая плотность - мера ослабления света прозрачными объектами или отражения света непрозрачными объектами, вычисляемая как десятичный логарифм отношения потока излучения, падающего на объект, к потоку излучения, прошедшего через него.

Концентрация оксигемоглобина и дезоксигемоглобина была вычислена с помощью модифицированного закона Бугера - Ламберта - Бера (Бера - Ламберта). Модифицированный закон Бера - Ламберта - это эмпирическое описание распространения света в толстых тканях, широко используемое в fNIRS [Гагарин, 1988.], которое рассчитывается по формуле:

/(/) = 10ек*1, (1)

где I(l) - интенсивность света, прошедшего слой вещества толщиной l, Io - интенсивность света на входе в вещество, кх- показатель поглощения.

При этом используется «коэффициент дифференциальной длины пути», который дает отношение средней длины пути фотона к расстоянию до детектора источника.

Концентрация оксигемоглобина и дезоксигемоглобина фильтруется с помощью полосового фильтра. Верхняя и нижняя частота среза равняются 0.9 Гц и 0.05 Гц соответственно. Фильтрация применяется с целью исключить из данных посторонние факторы, такие как: сердцебиение, волны Майера и дыхание. Однако в работе [Ma T et.al., 2021] авторы демонстрируют, что при обучении нейронных сетей лучше не применять фильтрацию.

Для решения задачи формирования набора нейрофизиологических данных fNIRS для обучения моделей машинного обучения был написан ряд функций при помощи инструментов языка программирования Python (рис. 3).

Begin

Input Data

1 г

Transpose Data

1 г

Concatenate Data

1 г

Crop Data

1 г

Reshape Noise Data

Make Data Set

Expansion Data Set

Make Lables

1 r

Make NoiseSet

Concatenate DataSet and NoiseSet

Mix Data

С

Print Data End

J

Рис. 3. Блок-схема алгоритма формирования набора нейрофизиологических данных Fig. 3. Block diagram of the algorithm for generating a set of neurophysiological data

Блок-схема выполняет следующие функции:

- Удаление данных, не содержащих полезный сигнал;

- Разделение данных всего эксперимента на команды-составляющие, соответствующие командам «сжатие» и «разжатие»;

- Нарезка полезного сигнала, соответствующего выполнению одной команды, на интервалы заданного размера с перекрытием;

- Формирование набора данных «шум»;

- Перемешивание данных с метками команд в наборе данных.

Настоящий алгоритм описывается с позиции подготовки данных для обучения нейронной сети. Однако данный алгоритм с незначительными изменениями может быть модифицирован для работы в конечном устройстве.

Разработанный алгоритм состоит из следующих процессов:

1. Input Data. Загрузка и запись в массивы «сырых» данных файлов типа «NIRS-date_number.wl1» и «NIRS-date_number.wl2» с целевыми командами. Данные содержат информацию о динамике содержания оксигемоглобина и дезоксигемоглобина в крови человека во время совершения целевого движения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Transpose Data. Транспонирование загруженных данных для формирования конечного массива всего набора данных.

3. Concatenate Data. Соединение начальных транспонированных массивов и формирование единого массива размером 128 x CountFrame, где CountFrame - количество регистрируемых фреймов по каждому каналу ^^Frame^a).

Для формирования набора данных необходимо разбить концентрацию оксигемоглобина и дезоксигемоглобина на протяжении всего эксперимента по маркерам событий. Маркеры указывают на начало команды сжатия или разжатия кисти. Из общего массива данных формируются 2 отдельных массива, содержащих концентрацию

оксигемоглобина и дезоксигемоглобина, согласно маркерам событий. Затем создается массив концентрации общего гемоглобина (HbT) по формуле: HbT = HbO + HbR.

4. Crop Data. Удаление нецелевых экспериментальных данных. Удаление происходит исходя из длины входного массива, при этом обрезаются данные, не содержащие полезной информации, а именно первые 60 секунд концентрации респондента на проведении эксперимента, а также шум, снятый после окончания эксперимента, зафиксированный томографом. Для формирования датасета необходимо разбить концентрацию оксигемоглобина и дезоксигемоглобина на протяжении всего эксперимента по маркерам событий. Маркеры указывают на начало команды сжатия или разжатия кисти. Так, для формирования датасета берутся данные с 0 по 4 секунду каждого маркера события.

5. Reshape Noise Data. Аналогично процессу Crop Data function формируется единый массив нецелевых команд (шум).

6. Make Data Set. Формирует из единого потока начальных обрезанных данных два набора команд, которые были записаны в соответствии с планом эксперимента.

7. Expansion Data Set. Аугментация данных, заключающаяся в искусственном увеличении количества полезной информации и удаления из массивов данных, не содержащих целевых команд. Формирует новый массив данных, который содержит отдельные экземпляры данных с заданной длиной сигнала (измеряется в фреймах или количествах точек сигнала) и заданным размером перекрытия данных в процессе формирования выборок экземпляров данных из одной команды.

8. Make Lables. Сформированные данные объединяются в общий массив и проводится процедура присвоения каждому примеру класса команды с соответствующей меткой.

9. Make NoiseSet. Формирование данных нецелевых движений и шумов (набор данных включает в себя двадцатиминутный эксперимент, который содержит произвольные движения ногами на протяжении всего временного отрезка) для расширения валидности набора данных и формирования у нейронной сети способности отличать целевые паттерны от прочего сигнала.

10. Concatenate DataSet and NoiseSet. Объединение полученных наборов данных с целевыми и нецелевыми командами (шумами).

11. Mix Data. Полученные массивы команд и меток перемешиваются между собой в случайном порядке.

Исходный набор данных представляет собой 17 экспериментов с командами на сжатие и разжатие кисти правой руки, длительностью 20 и 30 секунд соответственно. В течение эксперимента последовательно выполняются 15 циклов сжатия и разжатия кисти.

Итоговый набор данных содержит в 2435 экземпляров сигнала, из которых: 765 экземпляров сжатие кисти, 765 экземпляров разжатия кисти и 905 экземпляров сигнала шум, включая хаотичные движения ног. Данные случайным образом разбили на выборку для обучения модели (1830 экземпляров данных) и выборку для тестирования точности (605 экземпляров данных) обученной модели машинного обучения.

Для нормализации данных был использован метод нормализации с нулевым средним (Z-нормализация), который пересчитывает каждое значение по формуле:

= std ' ()

где X* - обработанные данные соответствуют стандартному нормальному распределению, х -текущее значение данных, ц - среднее значение всех данных выборки во временном измерении, std - стандартное отклонение. Нормализация применяется ко всему набору данных.

Проектирование архитектуры нейронной сети

Реализация нейронных сетей проводилась при помощи tensorflow версии 2.5.0 [TensorFlow, 2020]. Процесс разработки и обучения нейронных сетей реализовывался в облачном сервисе Google Colaboratory [Colaboratory, 2021]

Для решения задачи классификации были построены и обучены 3 архитектуры нейронных сетей:

1. Архитектура рекуррентной нейронной сети (NN_LSTM), основными вычислительными элементами которой являются слои длинной краткосрочной памяти (Long Short-Term Memory (LSTM)). LSTM - это модификация рекуррентной нейронной сети с обратной связью, которая может использовать долгосрочную память [Hochreiter, Schmidhuber, 1997]. Сети LSTM хорошо подходят для классификации, обработки и прогнозирования данных временных рядов. Архитектура разработанной рекуррентной модели включает в себя 2 слоя LSTM с функцией активации tanh, полносвязный слой, слой «Dropout» и слой «Softmax», который выводит оценки вероятности для каждого класса. Разработанная архитектура позволяет оценивать тенденцию в многомерном временном ряду fNIRS данных и по отличительным паттернам поведения ряда во времени производить классификацию.

2. Архитектура нейронной сети со сверточно-рекуррентными слоями convLSTM (NN_ConvLSTM) [Wang, WuReal, 2018]. Применение слоев convLSTM вместо чистых LSTM позволяет выявить временные и пространственные признаки временного ряда. Операция свертки позволяет сжать признаковое пространство входного временного ряда, то есть выбрать наиболее информативные данные из исходного временного ряда. Затем полученные данные подаются на слой LSTM, который ищет паттерны во времени в сжатом признаковом пространстве.

3. Архитектура нейронной сети Resnet (NN_ResNet) [He et.al., 2015]. Это известная архитектура нейронной сети, основанная на остаточных блоках, которая хорошо себя зарекомендовала в задачах компьютерного зрения. Представляет собой глубокую нейронную сеть с 11 уровнями, в которой первые девять слоев представляют собой сверточные слои с методом пакетной нормализации и функцией активации ReLU, а последние два уровня включают в себя слой «Global Average Pooling» и слой «Softmax». Данная архитектура была адаптирована для обработки временных последовательностей посредством замены 2D сверток на 1D свертки.

С целью сравнения результатов для трех моделей были использованы общие параметры: размер входного пакета данных - 64, скорость обучения - 0.0001, количество эпох обучения - 20, оптимизатор - Adam, функция ошибки - категориальная кросс-энтропия. В ходе исследования были использованы метрики, по которым оценивалось качество работы моделей. Нами были выбраны метрики Accuracy, Precision, Recall и F1-score. Также для каждой модели была построена матрица ошибок.

Результаты и их обсуждение

В процессе обучения моделей нейронных сетей было реализовано два подхода:

1 подход. Обучение моделей на наборе данных, который включает только два целевых класса (сжатие и разжатие кисти руки) без сигналов, содержащих иные метки. Это позволило оценить точность работы моделей в идеальных условиях и сравнить модели с точки зрения качества классификации.

2 подход. Обучение моделей на полном наборе данных, включающем как целевые классы (сжатие и разжатие кисти руки), так и фоновые записи. Это позволило оценить работоспособность моделей в реальных условиях, когда на вход модели непрерывно поступают данные и ей необходимо выявить паттерны среди различных вариаций данных.

В процессе реализации 1 -го подхода были получены метрики качества на тестовых данных для двух классов (табл. 1).

Исходя из результатов, представленных в таблице 1, и рисунка 4, можно сделать вывод о том, что модель NN_ResNet показала наилучший результат по метрикам Accuracy и F1-score среди представленных моделей. При этом метрика Recall для команды «Сжать кисть» в сущности не изменяется, в отличии от команды «Разжать кисть».

Таблица 1 Table 1

Метрики качества моделей Model quality metrics

Модель NN Выполняемая команда Precision Recall F1-score Accuracy

NN LSTM Сжать кисть 0.67 0.85 0.75 71 %

Разжать кисть 0.79 0.58 0.67

NN convLSTM Сжать кисть 0.72 0.87 0.79 76 %

Разжать кисть 0.83 0.66 0.73

NN ResNet Сжать кисть 0.80 0.86 0.83 91 %

Разжать кисть 0.85 0.78 0.81

На рисунке 4 представлены матрицы ошибок (рис. 4).

abc Рис. 4. Матрица ошибок: a - NN_LSTM; b - NN_convLSTM; c - NN_ResNet Fig. 4. Confusion matrix: a - NN_LSTM; b - NN_convLSTM; c - NN_ResNet

В дальнейшем, для подтверждения гипотезы о том, что модель нейронной сети NN_ResNet показывает наилучший результат для поставленной задачи, был проведен ряд экспериментов по обучению представленных моделей на тестовых данных для 3 классов, реализующих 2 подход. Были получены метрики качества, представленные в таблице 2.

Таблица 2 Table 2

Метрики качества моделей Model quality metrics

Модель NN Выполняемая команда Precision Recall F1-score Accuracy

NN LSTM Сжать кисть 0.56 0.74 0.64 85 %

Разжать кисть 0.82 0.42 0.56

Произвольные 0.96 1.00 0.98

движения

NN convLSTM Сжать кисть 0.41 0.42 0.41 78 %

Разжать кисть 0.50 0.51 0.50

Произвольные 0.95 0.94 0.94

движения

NN ResNet Сжать кисть 0.80 0.85 0.83 91 %

Разжать кисть 0.93 0.80 0.86

Произвольные 0.98 1.00 0.99

движения

На рисунке 5 представлены матрицы ошибок.

Confusion Matrix Confusion Matrix Confusion Matrix

abc Рис. 5. Матрица ошибок: а - NN_LSTM; b - NN_convLSTM; c - NN_ResNet Fig. 5. Confusion matrix: а - NN_LSTM; b - NN_convLSTM; c - NN_ResNet

Проведя анализ полученных результатов, был сделан вывод о том, что с появлением дополнительного класса «Произвольные движения» в тестовой выборке метрика «Accuracy» также показала наилучший результат для модели NN_ResNet, равный метрике подхода 1. Однако появление третьего класса повлияло на метрику «Accuracy» других моделей. Так, модель нейронной сети NN_LSTM оказалась наиболее восприимчива к появлению новых данных, в отличие от гибридной модели NN_convLSTM. Метрики «Precision», «Recall» и «F1 -score» для подхода 2 с появлением дополнительного класса показали неудовлетворительные результаты, менее 60 %, в распознавании основных классов «Сжать кисть» и «Разжать кисть» моделями NN_LSTM и NN_ConvLSTM.

Вывод

Проведен анализ трех архитектур нейронных сетей на предмет возможности поиска паттернов двигательной активности. Было показано, что нейронная сеть NN_ResNet, адаптированная для анализа временных рядов, дает лучшую точность (accuracy 91 %) в сравнении со специализированными архитектурными решениями, в основе которых лежат рекуррентные слои. NN_ResNet показала устойчивость решения при добавлении к данным примеров, относящихся к фоновой записи и движениям ногами. Результаты работы демонстрируют практическую возможность реализации процесса распознавания паттернов движений кисти руки нейронной сетью глубокого обучения по данным fNIRS. Повышение точности возможно за счет сбора набора данных для обучения большего размера и введения в план эксперимента дополнительных возмущающих воздействий, однако это не являлось целью этого исследования и будет реализовано в последующих работах.

В настоящем исследовании собраны данные активности головного мозга с 1 человека. То есть в работе демонстрируется возможность индивидуального поиска паттернов. В дальнейшем планируется сбор данных с группы испытуемых и оценка возможности нейронной сети поиска паттернов по групповым данным. Это позволит оценить возможность выявления общих закономерностей для оценки паттернов движений. С другой стороны, расширенный набор данных позволит применить технологию трансферного обучения (transfer learning) для предварительного обучения нейронной сети на общих данных с последующим дообучением на индивидуальном наборе данных конкретного индивида.

Список литературы

1. Гагарин А.П. 1988. Бугера - Ламберта - Бера закон. В кн.: Физическая энциклопедия (в 5 т.). М., Советская энциклопедия: 232-233.

2. Добро пожаловать в Colaboratory! 2021. URL: https://colab.research.google.com/?utm_ source=scs-index (дата обращения 13.10.2021).

3. He K., Zhang X., Ren S., Sun J. 2015. Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), DOI: 10.1109/cvpr.2016.90: 12p.

4. Ma T, Chen W, Li X, Xia Y, Zhu X, He S. 2021. fNIRS Signal Classification Based on Deep Learning in Rock-Paper-Scissors Imagery Task. Applied Sciences, 11(11): 18p.

5. Naseer N., Hong K-S. 2015. fNIRS-based brain-computer interfaces: a review. Frontiers in Human Neuroscience, 9: 15p.

6. NIRx fNIRS Technology & Service Overview. 2015. URL: https://nirx.net (дата обращения 13.10.2021).

7. S. Hochreiter; J. Schmidhuber. 1997. Long short-term memory. Neural Computation, 9(8): 17351780.

8. Shi X., Chen Z., Wang H., Yeung D.-Y., Wong W., Woo W. 2015. Convolutional LSTM Network: a machine learning approach for precipitation nowcasting. NIPS'15: Proceedings of the 28th International Conference on Neural Information Processing Systems, 1: 802-810.

9. Sung C. Jun. 2018. A Ternary Hybrid EEG-NIRS Brain-Computer Interface for the Classification of Brain Activation Patterns during Mental Arithmetic, Motor Imagery, and Idle State. Frontiers in Neuroinformatics, 12A(5): 9p.

10. TensorFlow Federated: машинное обучение на децентрализованных данных. 2020. URL: https://www.tensorflow.org/federated (дата обращения 14.10.2021).

11. Tomita Y., Vialatte F. B., Dreyfus G., Mitsukura Y., Bakardjian H., Cichocki A. 2014. Bimodal BCI using simultaneously NIRS and EEG. IEEE Trans. Biomed Eng., 61: 1274-1284.

12.Wang Y., WuReal D. 2018. Real-time fMRI-based Brain Computer Interface: A Review. IEEE. Computer Science, 1: 10p.

References

1. Gagarin A. P. 1988. Booger - Lambert - Bera law. In.: Physical encyclopedia (in vol.5). M., Soviet encyclopedia: 232—233.

2. Welcome to Colaboratory! 2021. URL: https://colab.research.google.com/?utm_source=scs-index (дата обращения 13.10.2021).

3. He K., Zhang X., Ren S., Sun J. 2015. Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), DOI: 10.1109/cvpr.2016.90: 12p.

4. Ma T, Chen W, Li X, Xia Y, Zhu X, He S. 2021. fNIRS Signal Classification Based on Deep Learning in Rock-Paper-Scissors Imagery Task. Applied Sciences, 11(11): 18p.

5. Naseer N., Hong K-S. 2015. fNIRS-based brain-computer interfaces: a review. Frontiers in Human Neuroscience, 9: 15p.

6. NIRx fNIRS Technology & Service Overview. 2015. URL: https://nirx.net (дата обращения 13.10.2021).

7. S. Hochreiter; J. Schmidhuber. 1997. Long short-term memory. Neural Computation, 9(8): 17351780.

8. Shi X., Chen Z., Wang H., Yeung D.-Y., Wong W., Woo W. 2015. Convolutional LSTM Network: a machine learning approach for precipitation nowcasting. NIPS'15: Proceedings of the 28th International Conference on Neural Information Processing Systems, 1: 802-810.

9. Sung C. Jun. 2018. A Ternary Hybrid EEG-NIRS Brain-Computer Interface for the Classification of Brain Activation Patterns during Mental Arithmetic, Motor Imagery, and Idle State. Frontiers in Neuroinformatics, 12A(5): 9p.

10. TensorFlow Federated: Machine Learning on Decentralized Data. 2020. URL: https://www.tensorflow.org/federated (дата обращения 14.10.2021).

11. Tomita Y., Vialatte F. B., Dreyfus G., Mitsukura Y., Bakardjian H., Cichocki A. 2014. Bimodal BCI using simultaneously NIRS and EEG. IEEE Trans. Biomed Eng., 61: 1274-1284.

12.Wang Y., WuReal D. 2018. Real-time fMRI-based Brain Computer Interface: A Review. IEEE. Computer Science, 1: 10p.

Конфликт интересов: о потенциальном конфликте интересов не сообщалось. Conflict of interest: no potential conflict of interest related to this article was reported.

ИНФОРМАЦИЯ ОБ АВТОРАХ

Асадуллаев Рустам Геннадьевич, кандидат технических наук, доцент кафедры прикладной информатики и информационных технологий Белгородского государственного национального исследовательского университета, г. Белгород, Россия

INFORMATION ABOUT THE AUTHORS

Rustam R. Asadullaev, Candidate of Technical Sciences, Associate Professor of the Department of Applied Informatics and Information Technologies, Belgorod National Research University, Belgorod, Russia

Афонин Андрей Николаевич, доктор технических наук, доцент кафедры информационных и робототехнических систем Белгородского государственного национального исследовательского университета, г. Белгород, Россия

Andrey N. Afonin, Doctor of Technical Sciences, Associate Professor of the Department of Information and Robotic Systems, Belgorod National Research University, Belgorod, Russia

Щетинина Екатерина Сергеевна, магистрант 2 года обучения кафедры прикладной информатики и информационных технологий Белгородского государственного национального исследовательского университета, г. Белгород, Россия

Ekaterina S. Shchetinina, 2-year undergraduate student of the Department of Applied Informatics and Information Technologies, Belgorod National Research University, Belgorod, Russia

i Надоели баннеры? Вы всегда можете отключить рекламу.