УДК 62
Технические науки
Тронов Кирилл Александрович, студент-магистр, Калужский филиал ФГБОУ ВО «Московский государственный технический университет имени Н.Э.
Баумана (национальный исследовательский университет)» Белов Юрий Сергеевич, к.ф. -м.н., доцент, Калужский филиал ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»
НЕЙРОННЫЕ СЕТИ MULTI-CONV LSTM ДЛЯ РАСПОЗНАВАНИЯ АКТИВНОСТИ ЧЕЛОВЕКА НА ОСНОВЕ ДАТЧИКОВ СМАРТФОНА
Аннотация: В последние годы распознавание человеческой деятельности привлекает большое внимание благодаря своему широкому применению, которое отчасти обеспечивается за счет широкого распространения смартфонов, оснащенных стандартным набором датчиков. Нейронная сеть Multi-convLSTM позволяет эффективно решать задачу распознавания благодаря сочетанию сверточных сетей, предоставляющих возможность автоматического и адаптивного извлечения релевантных и надежных характеристик и LSTM, позволяющих извлекать внутренние временные особенности из зависимости сигналов временных рядов.
Ключевые слова: распознавание активности человека, lstm, рекуррентные нейронные сети, рнс.
Annotation: In recent years, recognition of human activity has received a lot of attention due to its widespread use, which is partly provided by widespread adoption of smartphones equipped with a standard set of sensors. The Multi-convLSTM neural network allows you to effectively solve the recognition problem thanks to a combination of convolutional networks that provide the ability to automatically and adaptively extract relevant and reliable characteristics and LSTMs
that allow you to extract internal temporal features from the dependence of time series signals.
Keywords: recognition of human activity, lstm, recurrent neural networks, rnn.
Введение. В современных реалиях распознавание активности человека является довольно востребованной задачей. Наиболее подходящим устройством для данной задачи является смартфон за счет широкого распространения и оснащенности стандартным набором датчиков, позволяющим провести позиционирование, однако сам алгоритм распознавания сложнее, чем при наличии фиксированных датчиков запястья, талии и ног. Нейронная сеть Multi-convLSTM позволяет эффективно решать данную задачу благодаря сочетанию сверточных и рекуррентных нейронных сетей, а задача обнаружения признаков решается глубоким обучением [1]. В данной статье предлагается глубокая сетевая структура на основе MconvLSTM для распознавания человеческой активности в реальном времени, с особым подходом к расширению данных и методом построения сети.
Предложенный метод. Рекуррентная нейронная сеть (РНС) осуществляет самообратную связь, задерживая активацию значений ячеек, что позволяет изучать особенности временных рядов данных. Однако признаки, находящиеся на большом расстоянии друг от друга, не могут быть скоррелированы с помощью RNN в последовательности на большом расстоянии. LSTM (Long Short Term Memory сети) эффективно решает эту проблему. LSTM преобразует нейроны в четыре сетевых блока, которые управляются фильтрами состояния: запись, чтение и сброс. Сверточные нейронные сети (CNN) обычно используются для извлечения пространственных особенностей из входных сенсорных данных. Одномерное ядро свертки используется для фильтрации выбросов и извлечения признаков.
(а) (б) (в)
Рис.1 Модели, использованные в данной работе. Слева направо: (а) Полностью подключенная сеть с прямой связью (б) Скрытые слои сети ЬБТМ, содержащие ячейки ЬБТМ (в) сверточные сети, содержащие слои сверток, объединения и уплощения
Проблему распознавания человеческой деятельности можно рассматривать как проблема распознавания образов, а предопределенный набор действий А выражается как:
л={а ^,
где т - тип набора активности. В то же время, информация о времени работы датчика Б выражается как:
Данные собираются трехкоординатным датчиком, где к - размер датчика, а ёП ЭД представляет собой к-мерные данные, считанные в момент времени 1 Постройте модель Б и информацию о временной последовательности Б, чтобы определить типы человеческой деятельности, а именно:
л = {а] >;.! = ^(5), Ае А(4)
На рис. 2 показана система распознавания человеческой активности на основе модели МсопуЬБТМ. Собранные сенсорные данные подвергаются предварительной обработке. Затем соответствующие модули СопуЬБТМ строятся в соответствии с количеством сенсорных данных, где каждый модуль
содержит три сверточных слоя и три блока LSTM, вывод каждого модуля ConvLSTM параллельно помещается в полное соединение, и, наконец, определяется категория через Softmax.
Рис.2 Иллюстрация распознавания активности на основе сенсоров с использованием
подходов MconvLSTM
Инерциальный измерительный блок (IMU) в смартфоне включает акселерометр и гироскоп. Комбинированное измерение нескольких датчиков позволяет получить более точный эффект классификации по сравнению с одним датчиком [2]. Датчик разделен на три оси у, z) для сбора данных. Для входных данных S стандартизируется один сигнал:
Г1
СУ _ с? * с?
°к ~ Л/^ °к ^к
где k - тип датчика, а S - входные данные датчика. Стандартизированные данные помещаются во вновь построенную последовательность. По мере увеличения размерности все расширенные последовательности будут помещены в новую последовательность [3]. Сенсорный модуль MconvLSTM включает три типа структур, а именно: входной слой, несколько слоев свертки и слои LSTM [4]. Входной слой вводит данные датчика в модель в скользящем окне. Сверточный слой используется для извлечения пространственных
признаков. Активация или выход сверточного соединения вычисляется следующим образом:
м
С •1 * +ъ)
Ш=1
где l - количество слоев, а - функция активации, - т-е ядро свертки с признаком х - входная единица длины К, выведенная из предыдущего слоя, Ъ1 смещение ]-го признака. Для повышения скорости сходимости сети входной
вектор Ъ1 помещается в слой стандартизации после слоя свертки [5]:
и'- =
' ^ Б2 + Б
где цс ие соответственно представляют среднее и стандартное отклонение входного вектора, и затем помещаются в слой объединения для понижающей выборки после нормализации. Слой объединения извлекает особенности из т1;], и затем используется тахроо1т§ для вывода максимального значения входного вектора следующим образом:
Р, 'т = тах(п1*т +г)
геЯ
где Я - размер объединения, а Т - размер скользящего шага. Несколько сверточных слоев, стандартных слоев и слоев объединения образуют структуру нейронной решетки. Эта структура сети извлекает признаки через слои, и более сложные признаки могут быть извлечены по мере углубления слоя сети. После построения многослойной сверточной сети она будет введена в блок LSTM, который обновляет статус временных характеристик. Наконец, вывод последовательности признаков одного датчика объединяется. В качестве входных данных для слоя LSTM:
и; •т+и^т „+ъ)
где Ъ1 представляет собой смещение блока, х' - входной вектор для блока ^ а ю -весовой коэффициент каждого блока. Способ построения сети с одной
последовательностью легко игнорирует неоднородность различных сенсорных данных. Модуль сети convLSTM создается на основе количества типов датчиков, что позволяет увеличить их количество. После вывода модуля convLSTM, он параллельно строится на полностью подключённый слой:
Наконец, классификатор Softmax объединяет и идентифицирует категории деятельности и выводит результаты классификации. Классификация следующая:
Р(ц | к) = агвшах(еХрк—^-±Ь-))
]Г ехр(к-)
П=1
где п - конечная выходная категория, N - общее количество категорий активности, L - количество слоев. Для того чтобы ускорить обучение сети и снизить стоимость вычислений, используется оптимизатор Адама для обновления весов:
щ = Д * тм + (1 — Д Ч=Рг* + (1 -Д№2
-ат;
— /
щ=щ-1+■
где в - скорость экспоненциального затухания, а - скорость обучения, а W матрица весов.
Ввод Свертка2 СверткаЗ Ь5ТМ1 Ь5ТМ2 ЬЭТМЗ
Слой1 вертка СлойЗ Слой4 Слой5 Слойб Слой7
Слои2
Рис.3 Структура сети MconvLSTM
Заключение. В данной статье был предложен метод расширения данных и построения сети MconvLSTM на основе входных данных от нескольких датчиков, с использованием акселерометра и гироскопа смартфона для эффективного распознавания человеческой активности. Данную эффективность обеспечивает сочетание сверточных сетей, предоставляющих возможность автоматического и адаптивного извлечения релевантных и надежных характеристик и LSTM, позволяющих извлекать внутренние временные особенности из зависимости сигналов временных рядов.
Библиографический список:
1. Chen K , Zhang D , Yao L , et al. Deep Learning for Sensor-based Human Activity Recognition: Overview, Challenges and Opportunities[J]. 2020.
2. Ростовцев B.C. Искусственные нейронные сети. Учебник - Санкт-Петербург: Лань, 2021. - 216c.
3. Wang J , Chen Y , Hao S , et al. Deep Learning for Sensor-based Activity Recognition: A Survey[J]. PatternRecognitionLetters, 2018.
4. Liu J, Shahroudy A , Xu D , et al. Spatio-Temporal LSTM with Trust Gates for 3D Human Action Recognition[J]. 2016.
5. Николенко С.И., Кадурин А. А. Глубокое обучение. Погружение в мир нейронных сетей - Санкт-Петербург: Питер, 2020. - 480с.