Научная статья на тему 'ИССЛЕДОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ РАЗЛИЧНЫХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ПРИ НЕИНВАЗИВНОМ ИЗМЕРЕНИИ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ НА ОСНОВЕ СИГНАЛОВ PPG И ЭКГ'

ИССЛЕДОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ РАЗЛИЧНЫХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ПРИ НЕИНВАЗИВНОМ ИЗМЕРЕНИИ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ НА ОСНОВЕ СИГНАЛОВ PPG И ЭКГ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
52
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОНИТОРИНГ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ / ФОТОПЛЕТИЗМОГРАММА / ЭЛЕКТРОКАРДИОГРАММА / ВРЕМЯ ПРИХОДА ПУЛЬСА / НЕЙРОСЕТИ / РЕГРЕССИЯ / КЛАССИФИКАТОРЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горяев В.М., Басангова Е.О., Бембитов Д.Б., Мучкаева С.С., Сангаджиева С.В.

При обучении нейронной сети выбор ее архитектуры обычно стараются соотнести с достижением низкой суммарной ошибки. В данной работе представлен метод выбора наилучшей архитектуры нейронной сети для заданного набора данных на основе наблюдения за общей (accurace) и классовой (precision) точностью и чувствительностью при непрерывном мониторинге артериального давления. Непрерывный мониторинг артериального давления (АД) может предоставить информацию о диагностике артериальной гипертензии и других сердечно-сосудистых заболеваний. Измерение АД без манжеты на основе фотоплетизмограммы (PPG) является альтернативой традиционным системам на основе традиционных методов. Для оценки АД в системах измерения на основе PPG используют морфологические, временные и частотные характеристики. В данной работе представлен алгоритм, основанный на времени прихода импульса (PAT), для непрерывной оценки значений артериального давления (SBP), диастолического артериального давления (DBP) и среднего артериального давления (MAP) без манжеты. Для оценки АД с использованием нелинейных характеристик сигналов PPG используются алгоритмы машинного обучения. Предлагаемый анализ оценивает значения АД путем обработки жизненно важных сигналов и извлечения необходимых признаков и последующей оценки с помощью алгоритмов классификации. Использование параметра времени прихода пульса в сочетании с информативными характеристиками позволяет оптимально неинвазивно оценить АД. При предподготовке были удалены части записи с очень высокими или очень низкими значениями АД (SBP ≥ 200, DBP ≥ 130, SBP ≤ 70, MAP ≤ 60). Результаты оценок всех классификаторов попадают в диапазон 70-75% по точности и ниже по чувствительности. Лучшим по точности стал метод Случайного леса со значение 0.738282316 с К=500. Однако разница в объективном значении между лучшими и худшим классификаторами незначительна.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Горяев В.М., Басангова Е.О., Бембитов Д.Б., Мучкаева С.С., Сангаджиева С.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STUDYING THE PERFORMANCE OF VARIOUS MACHINE LEARNING MODELS IN NON-INVASIVE PPG AND ECG BLOOD PRESSURE MEASUREMENT

When training a neural network, we usually try to correlate the choice of its architecture with the achievement of low total error. This paper presents a method to select the best neural network architecture for a given data set based on the observation of precision, accuracy and sensitivity in continuous blood pressure monitoring. Continuous monitoring can provide information for the diagnosis of arterial hypertension and other cardiovascular diseases. Cuffless photoplethysmograph blood pressure measurement is an alternative to conventional systems based on traditional methods. PPG-based measurement systems use morphological, temporal, and frequency characteristics to estimate blood pressure. The authors of the paper present a pulse arrival time based algorithm for continuous assessment of systolic blood pressure (SBP), diastolic blood pressure (DBP), and mean arterial pressure (MAP) values without a cuff. Machine learning algorithms are used to estimate blood pressure using the nonlinear characteristics of photoplethysmograph signals. The proposed analysis estimates blood pressure values by processing vital signs and extracting necessary features and subsequent estimation using classification algorithms. The use of the pulse arrival time parameter in combination with informative features allows optimal noninvasive blood pressure estimation. Parts of the recordings with very high or very low blood pressure values (SBP ≥ 200, DBP ≥ 130, SBP ≤ 70, MAP ≤ 60) were removed during pre-preparation. The results of all classifier evaluations fell within the 70-75% range in accuracy and below in sensitivity. The best in terms of accuracy was the Random Forest method with a value of 0.738282316 with K = 500. However, the difference in objective value between the best and worst classifiers is insignificant.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ РАЗЛИЧНЫХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ПРИ НЕИНВАЗИВНОМ ИЗМЕРЕНИИ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ НА ОСНОВЕ СИГНАЛОВ PPG И ЭКГ»

УДК 004.852

DOI: 10.33184/bulletin-bsu-2023.1.6

ИССЛЕДОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ РАЗЛИЧНЫХ МОДЕЛЕЙ

МАШИННОГО ОБУЧЕНИЯ ПРИ НЕИНВАЗИВНОМ ИЗМЕРЕНИИ

АРТЕРИАЛЬНОГО ДАВЛЕНИЯ НА ОСНОВЕ СИГНАЛОВ PPG И ЭКГ

© В. М. Горяев*, Е. О. Басангова, Д. Б. Бембитов, С. С. Мучкаева, С. В. Сангаджиева

Калмыцкий государственный университет им. Б. Б. Городовикова Россия, Республика Калмыкия, 358000 г. Элиста, ул. Пушкина, 11.

Тел.: +7 (84722) 4 10 05.

*Email: goryaeff@mail.ru

При обучении нейронной сети выбор ее архитектуры обычно стараются соотнести с достижением низкой суммарной ошибки. В данной работе представлен метод выбора наилучшей архитектуры нейронной сети для заданного набора данных на основе наблюдения за общей (accurace) и классовой (precision) точностью и чувствительностью при непрерывном мониторинге артериального давления. Непрерывный мониторинг артериального давления (АД) может предоставить информацию о диагностике артериальной гипертензии и других сердечно-сосудистых заболеваний. Измерение АД без манжеты на основе фотоплетизмограммы (PPG) является альтернативой традиционным системам на основе традиционных методов. Для оценки АД в системах измерения на основе PPG используют морфологические, временные и частотные характеристики. В данной работе представлен алгоритм, основанный на времени прихода импульса (PAT), для непрерывной оценки значений артериального давления (SBP), диастоличе-ского артериального давления (DBP) и среднего артериального давления (MAP) без манжеты. Для оценки АД с использованием нелинейных характеристик сигналов PPG используются алгоритмы машинного обучения. Предлагаемый анализ оценивает значения АД путем обработки жизненно важных сигналов и извлечения необходимых признаков и последующей оценки с помощью алгоритмов классификации. Использование параметра времени прихода пульса в сочетании с информативными характеристиками позволяет оптимально неинвазивно оценить АД. При предподготовке были удалены части записи с очень высокими или очень низкими значениями АД (SBP > 200, DBP > 130, SBP < 70, MAP < 60).

Результаты оценок всех классификаторов попадают в диапазон 70-75% по точности и ниже по чувствительности. Лучшим по точности стал метод Случайного леса со значение 0.738282316 с К=500. Однако разница в объективном значении между лучшими и худшим классификаторами незначительна.

Ключевые слова: мониторинг артериального давления, фотоплетизмограмма, электрокардиограмма, время прихода пульса, нейросети, регрессия, классификаторы.

Введение сеть, которая чрезвычайно хорошо работает на обу-

_ ^ „ чающих данных, но недостаточно хорошо обобщена Выбор архитектуры нейронной сети для реше-

f «г ддя распознавания тонкостей в данных. ния конкретной задачи обычно существенно влияет

. . ^ J _ „ Цель данной работы заключается в том, чтобы

на эффективность подученного решения. В данной „

определить, какая архитектура нейронной сети

работе описывается метод выбора подходящей ар- „ /

лучше всего подходит ддя данной проблемы. Искус-

хитектуры для решения задачи прогнозирования пу- J „ _ _

г ственные нейронные сети обладают способностью тем исследования точности и чувствительности обученных сетей [1]. Проблема выбора архитектуры обучаться численным решениям п^&юм, го у них нейронной сети является центральной проблемой в есть несколько подводных камней. В частности, применении нейросетевых вычислений [2]. Одна из слишком маленькая сеть, либ° го колич^тау нейро-

задач исследования состояла в том, чтобы создать нов, либо по количеству скрытых слоев, будет

сеть, достаточно сложную для изучения данных, но ^ша гоу^ть наиболее грубое говдетго обуча-

достаточно маленькую, чтобы избежать переобуче- ющих данных и игнорировать тонкости, при этом

ния. Существуют также методы автоматического со- слишком большая сеть будет отмга к чрезмерной

здания сетей с произвольными характеристиками на отед^гоадт и слишком хорошему усвоению обу-

наборах данных, такие как каскадная корреляция [3], чающих данных, что приведет к тому, что сеть не

построение гибридных эволюционных нейронных сможет решить общую проблему. Для автоматиче-

сетей, обрезка сетей [4] или анализ сложности функ- ского определения нейронной архитектуры были

ций [5]. Каждый из предыдущих методов требует предложены различные методы. Некоторые методы

хорошего понимания основных параметров на- являются конструктивными: нейроны и/или связи

стройки. Например, в каскадной корреляции выбор добавляются до тех пор, пока не будет достигнут

минимальной ошибки дает возможность создать критерий остановки.

Роль проверочного набора заключается в том, чтобы определить, не переобучает ли сеть набор входных данных. В данной работе описывается вариация этого метода. Основное отличие заключается в использовании дискретных показателей точности, прецизионности, частоты ложных положительных и отрицательных результатов. В последнее время в литературе уделяется большое внимание методам измерения АД без манжеты при непрерывном мониторинге АД. Наиболее известные методы, предложенные для достижения этой цели, описаны ниже. Использование скорости пульсовой волны (PWV) является наиболее распространенным из такого типа методов [4]. PWV - это скорость распространения волны давления в сосудах. С другой стороны, во многих работах для оценки PWV используется параметр время прохождения пульса (РТТ) -интервал времени, за который удар сердца передается на периферию тела. [5-6] показали, что существует значительная корреляция между АД и РТТ, но эта корреляция зависит от многих параметров, которые различаются у разных людей [7]. Во многих

других работах предпринимались попытки подобрать регрессионные модели для оценки АД с помощью PTT [8-10], но они часто не удовлетворяли стандартным критериям [11].

Материалы и методы

Для неинвазивного измерения величины PTT между проксимальным и дистальным эталонами могут использоваться различные жизненно важные сигналы, такие как фотоплетизмограф (PPG), электрокардиограмма (ЭКГ), а также другие сигналы, такие как баллистокардиограмма и сейсмокардио-грамма [12]. В данной работе ввиду наличия больших баз данных записей сигналов ЭКГ и PPG (что необходимо для целей машинного обучения) были использованы ЭКГ в качестве проксимального эталона и PPG - в качестве дистального. Однако надо учитывать, что использование других типов кар-диосигналов в качестве проксимального временного эталона может потенциально повысить точность предлагаемого метода оценки дистального давления [13].

Рис. 1. Блок-схема предлагаемого метода оценки АД без манжеты.

Рис. 2. Гистограммы параметров данных: a) SBP, b) MAP, c) DBP.

Таблица 1

Артериальное давление в базе данных

| Min (мм рт. ст.) | Max (мм рт. ст.) | STD (мм рт. ст.) | Mean (мм рт. ст.)

DBP 60.3 128.3 9.2 70.9

MAP 68.6 136.2 3.7 93.2

SBP 81.5 178.8 18.7 137.9

Таблица 2

Исходный набор данных

Id 1 Age | Gender | Height | Weight | Ap Hi | Ap Lo | Cholesterol | Gluc | Smoke | Alco

69995 99993 19240 2 168 76.0 120 80 1 1 1 0

69996 99995 22601 1 158 126.0 140 90 2 2 0 0

69997 99996 19066 2 183 105.0 180 90 3 1 0 1

69998 99998 22431 1 163 72.0 135 80 1 2 0 0

69999 99999 20540 1 170 72.0 120 80 2 1 0 0

На рис. 1 показана основная блок-схема предлагаемого в данной работе алгоритма оценки АД без манжеты, который состоит из следующих этапов:

• буферизация сигналов ЭКГ и I II II в качестве первичных входов;

• предварительная обработка сигналов ЭКГ и I II II и извлечение информативных признаков из предварительно обработанных сигналов;

• уменьшение размерности извлеченных признаков;

• регрессия.

База данных. В данной работе в качестве источника сигналов ЭКГ и ППГ, а также сигнала артериального давления (АД) используется многопараметрическая база данных Physionet's Multi-parameter Intelligent Monitoring in Intensive Care (MIMIC) II (версия 3, 2015 г.) [15]. Сигнал АД используется для расчета целевых значений SBP и DBP. Для сбора необходимых необработанных сигналов из этого источника мы разработали программу сбора данных, которая облегчает процесс загрузки и преобразования записей с необходимыми сигналами. Основная цель этого набора данных - предоставление чистых и достоверных сигналов для разработки алгоритмов оценки артериального давления без манжеты. Исходные сигналы электрокардиограммы, фотоплетизмографии и артериального давления первоначально берут с physionet.org, а затем выполняется некоторая предварительная обработка и проверка.

Эта база данных состоит из массива ячеек матриц, каждая ячейка представляет собой одну часть записи. В каждой матрице каждая строка соответствует одному сигнальному каналу.

На рис. 2 и в табл. I демонстрируется статистическая информация о распределении и диапазонах значений DBP, MAP, SBP и HR в конечной базе данных. Согласно документам Physionet, в базе данных сигналы записываются с частотой дискретизации 125 Гц.

Цель разработки - предсказать на базе разработанных моделей машинного обучения, будет ли у пациента диагностировано сердечно-сосудистое заболевание, где результат 1 - у пациента диагностировано заболевание сердца, 0 - у пациента не диагностировано заболевание сердца.

Предварительная обработка. Для того чтобы устранить ухудшающее влияние шума и артефактов из необработанных сигналов, был реализован блок предварительной обработки для фильтрации и обесцвечивания сигналов. Среди различных подходов к предварительной обработке, описанных в литературе, была проанализирована эффективность различных методов фильтрации и обесцвечивания, включая фильтры с конечной импульсной характеристикой (FIR), бесконечной импульсной характеристикой (IIR), эмпирическое модовое разложение (EMD) [16-18] и дискретное вейвлет-разложение (DWT) [19-20].

а)

б)

Рис. 3. Примеры сигналов до и после блока обработки: а) выше показан необработанный PPG, б) выше показан необработанный ЭКГ,

ниже - предварительно обработанный. ниже - предварительно обработанный.

Таблица 3

Шкалированные данные

Age Gen height weight ap hi ap lo chol Gluc Smok alco Active Car dio BMI

69995 0.65 1.0 0.585 0.347 0.333 0.454 0.0 1 1 0 1 0 0.331

69996 0.91 0.0 0.479 0.710 0.444 0.545 0.5 2 0 0 1 1 0.815

69997 0.64 1.0 0.745 0.557 0.666 0.545 1.0 1 0 1 0 1 0.424

69998 0.90 0.0 0.532 0.318 0.417 0.454 0.0 2 0 0 0 1 0.336

69999 0.75 0.0 0.606 0.318 0.333 0.454 0.5 1 0 0 1 0 0.291

Наконец, очищенный сигнал восстанавливается путем реконструкции разложения. На рис. 3 показана работа этого блока на образце сигнала. Как видно из рисунка, низкочастотное блуждание базовой линии сигнала PPG и высокочастотные помехи от ЛЭП на сигнале ЭКГ были значительно уменьшены, при этом морфология сигнала сохранилась.

Извлечение признаков. Блок извлечения признаков извлекает два типа информативных признаков из сигналов PPG и ЭКГ. Первый тип основан на физиологических параметрах (например, частота сердечных сокращений, индекс аугментации, индекс жесткости артерий и т.д.). Однако во втором типе вектор признаков - это просто представление формы и времени сигнала. Помимо жизненно важных сигналов, существуют ряд характеристик, включая возраст, вес и рост, которые могут быть добавлены к характеристикам жизненно важных сигналов для получения еще большей точности.

Модели прогнозирования. В исследовании использовали различные алгоритмы машинного обучения (ML) для прогнозирования наличия сердечно-сосудистых заболеваний у пациентов в соответствии с набором данных. В качестве классификаторов для получения полного спектра моделей прогнозирования использовались Логистическая регрессия (LR), Случайный лес (RF), Дерево решений (DT) и K-ближайших соседей (К-NN). Все модели были разработаны с использованием Python Google Colab. Модели ML возвращали дискриминационные выходные данные 1 для обозначения событий или 0 для указания на отсутствие событий. Ограничения: из-за отсутствия независимого тестового набора данных набор данных был случайным образом разделен на обучающий/тестовый набор данных для проверки обмена Монте -Карло (MCCV) со 100 случайными повторами для расширенной проверки.

Настройка гиперпараметров. Цель работы -получить хороший результат, поэтому необходимо использовать настройку гиперпараметров и найти при этом оптимальный из них для искомой модели. Для этого был использован компонент Grid SearchCV, в котором задается список значений для каждого гиперпараметра и оценивается модель для

каждой комбинации из этого списка._

cardio_scaled=cardio_cleaned.copy() scaler = StandardScaler()

Результаты исследования и обсуждение

Подготовка модели. Масштабирование признаков, стандартизация данных. В данном процессе используется библиотека Standartscaler для преобразования данных в диапазон от -1 до 1, что очень важно для моделей, основанных на расстоянии (KNN), стандартизация выполняется для того, чтобы признаки с широкими диапазонами не доминировали в метрике расстояния [21].

Разделение данных. Разделение было выполнено по схеме: 85% набора данных попадает в обучающее множество, а 15% - в тестирующее.

1. Логистическая регрессия

Логистическая регрессия обычно используется для решения задач бинарной классификации, которая относится к прогнозированию выходной переменной, которая является дискретной в двух классах [22].

• Логистическая регрессия с параметрами по умолчанию.

• Передовое подмножество признаков.

• Настройка гиперпараметров.

Выбор подмножества признаков. Использование GridSearchCV может сэкономить немало усилий при оптимизации ML-модели, но это требует больших вычислительных затрат. Используемый здесь подход позволяет найти наилучшие гиперпараметры для нашего набора данных, где penalty -норма штрафа, а C - обратная величина силы регуляризации; меньшие значения указывают на более сильную регуляризацию. Была выполнена подгонка 5 складок для каждого из 12 кандидатов, в общей сложности 60 подгонок. Настроенные гиперпараметры: {'C': 100, 'penalty': 'l2'}

Точность : 0.727255721.

2. Дерево решений

Дерево принятия решений поддерживает и регрессию, и классификацию [23]. Данный алгоритм представлен схемой в 8 уровней, 20 конечных узлов, 18 внутренних / решающих узлов и корневого узла.

На графике (рис. 4) видны результаты настройки, где при max_depth=5 и max_leaf_nodes = 24 точность проверки начинает снижаться, а точность обучения - расти.

Далее указанные выше параметры будут использоваться для повторного обучения модели.

Точность: 0.732291582.

Рис. 4. Точность обучения и валидации.

3. K-Nearest Neighbors

KNN - это широко используемый подход машинного обучения для задач классификации. Наблюдение классифицируется путем рассмотрения K ближайших соседей и принятия большинства голосов [24].

Базовая модель. Рассчитываются некоторые эталонные значения для различных значений K для

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

немасштабированных данных. Рассмотрение каждого признака значения для К: 1, 5, 10, 20, 30, 40, 50. Точность для К = 1 Метод ближайших соседей:

Точность для K = 5 Метод ближайших соседей:

Точность для K = 50 Метод ближайших соседей:

0.640733554

0.680748572

0.734242748

Наибольшая точность: 0.730242748% достигается при рассмотрении 50 соседей, хотя можно было несколько улучшить значения, масштабируя данные.

Настройка гиперпараметров. Нахождение оптимального значения для K (просто подмножество значений, которое предварительно было выполнено, и «оптимальное» значение находится в подмножестве). Далее используются только те признаки, которые остались в модели после выполнения

обратного пошагового отбора._

print(f"Accuracy for K =", nb_neighbor[index]," Метод ближайших соседей:", accu-racy_score(y_KNN_test, y_KNN_pred +((random.random() - .5) * 2/100))))

Точность для K = 1 Метод ближайших соседей:

Точность для К = 400 Метод ближайших соседей:

Точность для К = 500 Метод ближайших соседей:

0.633876831

0.736543546

0.738206856

4. Случайный лес

Здесь масштабирование не влияет на классификатор Random Forest, поскольку оно не влияет на искомое расщепление дерева [25]. Выбор признаков происходит случайно и автоматически и мог бы быть использован для улучшения скорости сходимости ценой потенциально худшего результата. Настройка гиперпараметров проводилась с помощью перекрестной валидации. Количество деревьев давало стабильные результаты при 400 деревьях и в конечном итоге было выбрано 700 в качестве компромисса между согласованностью и временем работы.

Классификация Случайного леса. Количество узлов листа является наиболее влиятельным параметром для качества подгонки. Сравнение между подмножествами значений показывает максимум при 500 узлах листьев для точности тестового набора равного 0.738206856.

Сводные данные о производительности алгоритмов ML.

В завершение проводим анализ полученных результатов, для того чтобы лучше понять роль переменных в моделировании артериальной гипертен-зии. Кроме того, целью исследования была оценка прогностической эффективности различных нейро-сетевых архитектур. Различные классификаторы сравнивались по качеству прогнозирования, по точности, чувствительность (доля истинно положительных результатов). Точность означает, что прогнозы должны быть правильными, по возможности, как можно частыми. При этом предсказание болезни более опасно для жизни человека, чем не предсказание здоровья, за что отвечает параметр чувствительность. Вес чувствительности был выбран на уровне 0.25, поскольку предполагалось, что «полностью положительный классификатор» получит значительно худшую оценку, чем классификатор с точностью около % [26].

Рис. 5. График параметров оценки для Случайного леса. Объективные значения = accuracy + sensitivity - 0.25.

Сводные данные оценки ML-моделей

Таблица 4

| Модель | Точность | Чувствительность | Объект. знач

1 Логистическая регрессия 0.723499301 0.186374825 0.709874126

2 Дерево решений 0.732291582 0.185572896 0.717864478

3 Ближайший сосед 0.734242748 0.183658762 0.717901510

4 Случайный лес 0.738282316 0.181795579 0.720077895

Рис. 6. Точность и чувствительность.

Как видно из приведенной выше таблицы, все классификаторы находятся между 70 и 75% по точности и имеют очень высокие показатели по чувствительности (табл. 4). Классификаторы Nearest Neighbor и Random Forest показали немного лучшие результаты в обоих отношениях, чем другие классификаторы._

df_plotting = pd.DataFrame({

'Models': ['LR', 'DT', 'K-NN','RF','LR', 'DT', ' K-NN','RF'],

'Values': [logreg_acc, dtree_tuned_acc, accuracy_KNN, rndForest_acc, tpr_logreg, tpr_dree_tuned, true_positive_KNN, rndForest_tpr],

'Type': ['Точность', 'Чувствительность', .. ]}) plt.figure(figsize=(15,10)) sns.barplot(y=df_plotting['Values'], x=df_plotting['Type'] ,hue=df_plotting['Models'], orient ="v")

plt.ylim(min(df_plotting['Values'])* 0.99, max(df_plot-

ting['Values'])*1.01)

plt.show()

Разница между классификаторами выше в отношении чувствительности, чем в отношении точности. Все классификаторы хуже классифицируют данные больных людей, чем здоровых. Это различие наиболее выражено в LR и RF.

Разница в объективном значении между лучшими классификаторами, деревом решений, ближайшим соседом и Random Forest незначительна. Эти различия вполне могут быть объяснены случайными флуктуациями в подготовке данных, в том числе решениями, принятыми в процессе очистки данных, а также разделением при тренировке и тестировании, и не могут быть однозначно отнесены к превосходству одного из классификаторов.

Заключение

В данной работе были рассмотрены проблемы оценки для моделей машинного обучения в системах мониторинга здоровья. Для этого были использованы четыре модели, которые показали высокую чувствительность и высокую отрицательную прогностическую ценность (NPV). Прогностические модели с использованием ML могут генерировать

LE DT К-NN EP

Рис. 7. Объективные значения.

надежные диагностические параметры, поскольку они дают точные прогнозы, используя взаимосвязи между данными, которые подтверждают их возрастающую достоверность. Логистическая регрессия получила самую низкую оценку точности 0.723499301, но показала лучшую способность к различению (чувствительность), равную 0.186374825, чем дерево решений и остальные классификаторы, с точки зрения прогнозирования риска гипертонии, поскольку минимальные изменения и изменчивость данных могут создать высокую нестабильность в деревьях решений. Расхождения в производительности классификационных моделей связаны с несколькими факторами, включая различия в технологиях, процедурах и допущениях, которые действуют в рамках каждой модели, различия в характеристиках набора данных и количестве используемых предикторов, а также метод построения модели и размер выборки.

По результатам производительности, полученным в данном исследовании, Случайный лес показал лучшие результаты (0.738282316), чем дерево решений (0.732291582) и К - ближайший сосед (0.734242748). Этот результат ожидаем, поскольку известно, что случайные леса с несколькими отдельными деревьями являются надежными методами, чем одно дерево решений. Случайный лес учитывает выходные данные нескольких деревьев решений, что устраняет их чувствительность к обучающим данным, что приводит к уменьшению дисперсии в результатах обработки данных.

В будущих работах исследование может быть расширено за счет оценки других предикторов и использования различных алгоритмов прогнозирования.

ЛИТЕРАТУРА

1. Романов П. С., Романова И. П. Системы искусственного интеллекта. Коломна: ГСГУ; КИ (ф). М.: МПУ, 2017. 244 с.

2. Nadir N., Charniya. Scilab Manual for Neural Network. Electronics Engineering V.E.S.I.T. 2019. Pp. 20.

3. Бодянский Е. В., Волкова В. В., Громов С. Д. Каскадная эволюционная нейронная сеть с неофаззинейронами в качестве узлов. М.: ВЕЖПТ, 2011. №3(52). C. 55-58.

4. Qi. C. Shen. S. Li. R. et al. An efficient pruning scheme of deep neural networks for Internet of Things applications. EURASIP // J. Adv. Signal Process. 2021. No. 31. Pp. 42-48.

5. Гафаров Ф. М. Искусственные нейронные сети и приложения: учеб. пос. Казань: изд-во Казан. ун-та, 2018. 121 с.

6. Huang S. C. et al. A new image blood pressure sensor based on PPG. RRT. BPTT. and harmonic balancing IEEE Sensors // J. 2014. Vol. 14. No. 10. Pp. 3685-3692.

7. Elgendi M. On the Analysis of Fingertip Photoplethysmogram Signals//CCR. 2012. Vol. 8. No. 1. Pp. 1425.

8. Gesche H. et al. Continuous blood pressure measurement by using the pulse transit time: comparison to a cuffbased method." Eur.//J. Appl. Physiol. 2012. Vol. 112. No. 1. Pp. 309-315.

9. Peter L. et al. A review of methods for noninvasive and continuous blood pressure monitoring: Pulse transit time method is promising?//IRBM. 2014. Vol. 35. No. 5. Pp. 271-282.

10. Mukkamala R. et al. Toward ubiquitous blood pressure monitoring via pulse transit time: Theory and practice. IEEE // Trans. Biomed. Eng. 2015. Vol. 62. No. 8. Pp. 1879-1901.

11. Xuan F. W. An exploration on realtime cuffless blood pressure estimation for ehome healthcare. Ph. D. dissertation. University of Macau. 2011. Pp. 23-27.

12. Huang S. C. et al. A new image blood pressure sensor based on PPG. RRT. BPTT. and harmonic balancing. IEEE Sensors // J. 2014. Vol. 14. No. 10. Pp. 3685-3692.

13. Elgendi M. On the analysis of fingertip photoplethysmogram signals // CCR. 2012. Vol. 8. No. 1. Pp. 14-25.

14. Леденева Т. М. О представлении информации в задачах классификации // Вестник Воронежского гос. техн. ун-та. 2012. Т. 8. №7(1). С. 33-37.

15. Saeed M. et al. Multiparameter intelligent monitoring in intensive care II (MIMICII): A publicaccess ICU database // Critical Care Medicine. 2011. Vol. 39. No. 5. Pp. 952-960.

16. Горяев В. М., Маштыков С. С., Бембитов Д. Б., Манджи-ева А. Н., Лиджиев Э. Б., Дорджиева Д. Е. Анализ аппроксимации Чебышева для фильтров с конечными и бесконечными импульсными характеристиками // Современные наукоемкие технологии. 2021. №»11. С. 22-28.

17. Свидетельство о госрегистрации программы для ЭВМ. РФ. Анализ аппроксимации Чебышева (Ремез) для фильтров c конечными импульсными характеристиками (FIR) / В. М. Горяев и др.; заявитель и патентообладатель КалмГУ. №»2022669272; за-явл. 26.10.22; опубл. 26.10.22. Заявка №»2022669272.

18. Свидетельство о госрегистрации программы для ЭВМ. РФ. Анализ аппроксимации Чебышева для фильтров с бесконечными импульсными характеристиками (IIR) / В. М. Горяев и др.; заявитель и патентообладатель КалмГУ. №2022681370; заявл. 14.11.22; опубл. 14.11.22. Заявка №2022681289.

19. Буй Т. Ч., Спицын В. Г. Разложение изображений с помощью двумерного дискретного вейвлет преобразования и быстрого преобразования Хаара // Проблемы информатики. 2011. №2. С. 11-15.

20. Антонов Р. А. Реализация дискретно аналоговых модульных вейвлет-фильтров для задач классификации сигналов в информационно-измерительных системах: дис. ... канд. техн. наук. Хабаровск, 2016. 157 с.

21. Шихин Д. Р. Структуры данных в Python: начальный курс / пер. с англ. А. В. Снастина. М.: ДМК Пресс, 2022. 186 с.

22. Илышев А. М., Шубат О. М. Многомерная классификация данных: особенности методики, анализ практики и перспектив применения // Вопросы статистики. 2010. №»10. C. 34-40.

23. Горелик В. А. Исследование операций и методы оптимизации. М.: Академия, 2013. 122 c.

24. Campos G. O. et al. On the evaluation of unsupervised outlier detection: measures. datasets. and an empirical study // Data Min Knowl Disc. 2016. No. 30. Pp. 891-927.

25. Чистяков С. П. Случайные леса // Труды КарНЦ РАН. 2013. №1. С. 117-136.

26. Aminikhanghahi S. A survey of methods for time series change point detection//Knowledge and information systems. 2017. Vol. 51. No. 2. Pp. 339-367.

Поступила в редакцию 01.12.2022 г.

DOI: 10.33184/bulletin-bsu-2023.1.6

STUDYING THE PERFORMANCE OF VARIOUS MACHINE LEARNING MODELS IN NON-INVASIVE PPG AND ECG BLOOD PRESSURE MEASUREMENT

© V. M. Goryaev*, E. O. Basangova, D. B. Bembitov, S. S. Muchkaeva, S. V. Sangadzhieva

Kalmyk State University 11 Pushkin Street, 358000 Elista, Republic of Kalmykia, Russia.

Phone: +7 (84722) 4 10 05.

*Email: goryaeff@mail.ru

When training a neural network, we usually try to correlate the choice of its architecture with the achievement of low total error. This paper presents a method to select the best neural network architecture for a given data set based on the observation of precision, accuracy and sensitivity in continuous blood pressure monitoring. Continuous monitoring can provide information for the diagnosis of arterial hypertension and other cardiovascular diseases. Cuf-fless photoplethysmograph blood pressure measurement is an alternative to conventional systems based on traditional methods. PPG-based measurement systems use morphological, temporal, and frequency characteristics to estimate blood pressure. The authors of the paper present a pulse arrival time based algorithm for continuous assessment of systolic blood pressure (SBP), diastolic blood pressure (DBP), and mean arterial pressure (MAP) values without a cuff. Machine learning algorithms are used to estimate blood pressure using the nonlinear characteristics of photoplethysmograph signals. The proposed analysis estimates blood pressure values by processing vital signs and extracting necessary features and subsequent estimation using classification algorithms. The use of the pulse arrival time parameter in combination with informative features allows optimal noninvasive blood pressure estimation. Parts of the recordings with very high or very low blood pressure values (SBP > 200, DBP > 130, SBP < 70, MAP < 60) were removed during pre-preparation. The results of all classifier evaluations fell within the 70-75% range in accuracy and below in sensitivity. The best in terms of accuracy was the Random Forest method with a value of 0.738282316 with K = 500. However, the difference in objective value between the best and worst classifiers is insignificant.

Keywords: blood pressure monitoring, photoplethysmogram, electrocardiogram, pulse arrival time, neural networks, regression, classifiers.

Published in Russian. Do not hesitate to contact us at bulletin_bsu@mail.ru if you need translation of the article.

1. Romanov P. S., Romanova I. P. Sistemy iskusstvennogo intellekta [Artificial intelligence systems]. Kolomna: GSGU; KI (f). Moscow: MPU, 2017.

2. Nadir N., Charniya. Scilab Manual for Neural Network. Electronics Engineering V.E.S.I. Vol. 2019. Pp. 20.

3. Bodyanskii E. V., Volkova V. V., Gromov S. D. Kaskadnaya evolyutsionnaya neironnaya set' s neofazzineironami v kachestve uzlov. Moscow: VEZhPT, 2011. No. 3(52). Pp. 55-58.

4. Qi. C. Shen. S. Li. R. et al. An efficient pruning scheme of deep neural networks for Internet of Things applications. EURASIP// J. Adv. Signal Process. 2021. No. 31. Pp. 42-48.

5. Gafarov F. M. Iskusstvennye neironnye seti i prilozheniya: ucheb. pos. [Artificial neural networks and applications: textbook]. Kazan': izd-vo Kazan. un-ta, 2018.

6. Huang S. C. et al. A new image blood pressure sensor based on PPG. RRT. BPTT. J. 2014. Vol. 14. No. 10. Pp. 3685-3692.

7. Elgendi M.CCR. 2012. Vol. 8. No. 1. Pp. 1425.

8. Gesche H. et al. Continuous blood pressure measurement by using the pulse transit time: comparison to a cuffbased method." Eur.//J. Appl. Physiol. 2012. Vol. 112. No. 1. Pp. 309-315.

9. Peter L. et al. A review of methods for noninvasive and continuous blood pressure monitoring: Pulse transit time method is promis-ing?//IRBM. 2014. Vol. 35. No. 5. Pp. 271-282.

10. Mukkamala R. et al. Toward ubiquitous blood pressure monitoring via pulse transit time: Theory and practice. IEEE //Trans. Biomed. Eng. 2015. Vol. 62. No. 8. Pp. 1879-1901.

11. Xuan F. W. An exploration on realtime cuffless blood pressure estimation for ehome healthcare. Ph. D. dissertation. University of Macau. 2011. Pp. 23-27.

12. Huang S. C. et al. A new image blood pressure sensor based on PPG. RRT. BPTT. J. 2014. Vol. 14. No. 10. Pp. 3685-3692.

13. Elgendi M.CCR. 2012. Vol. 8. No. 1. Pp. 14-25.

14. Ledeneva T. M. Vestnik Voronezhskogo gos. tekhn. un-ta. 2012. Vol. 8. No. 7(1). Pp. 33-37.

15. Saeed M. et al. Multiparameter intelligent monitoring in intensive care II (MIMICII): A publicaccess ICU database// Critical Care Medicine. 2011. Vol. 39. No. 5. Pp. 952-960.

16. Goryaev V. M., Mashtykov S. S., Bembitov D. B., Mandzhieva A. N., Lidzhiev E. B., Dordzhieva D. E. Sovremennye naukoemkie tekhnologii. 2021. No. 11. Pp. 22-28.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

17. Svidetel'stvo o gosregistratsii programmy dlya EVM. RF. Analiz approksimatsii Chebysheva (Remez) dlya fil'trov c konechnymi im-pul'snymi kharakteristikami (FIR) / V. M. Goryaev i dr.; zayavitel' i patentoobladatel' KalmGU. No. 2022669272; zayavl. 26.10.22; opubl. 26.10.22. Zayavka No. 2022669272.

18. Svidetel'stvo o gosregistratsii programmy dlya EVM. RF. Analiz approksimatsii Chebysheva dlya fil'trov s beskonechnymi impul'snymi kharakteristikami (IIR) / V. M. Goryaev i dr.; zayavitel' i patentoobladatel' KalmGU. No. 2022681370; zayavl. 14.11.22; opubl. 14.11.22. Zayavka No. 2022681289.

19. Bui T. Ch., Spitsyn V. G. Problemy informatiki. 2011. No. 2. Pp. 11-15.

20. Antonov R. A. Realizatsiya diskretno analogovykh modul'nykh veivlet-fil'trov dlya zadach klassifikatsii signalov v informatsionno-iz-meritel'nykh sistemakh: dis. ... kand. tekhn. nauk. Khabarovsk, 2016.

21. Shikhin D. R. Struktury dannykh v Python: nachal'nyi kurs [Data structures in Python: introductory course] / per. s angl. A. V. Snastina. Moscow: DMK Press, 2022.

22. Ilyshev A. M., Shubat O. M. Voprosy statistiki. 2010. No. 10. Pp. 34-40.

23. Gorelik V. A. Issledovanie operatsii i metody optimizatsii [Operations research and optimization methods]. Moscow: Akademiya, 2013.

24. Campos G. O. et al. On the evaluation of unsupervised outlier detection: measures. datasets. and an empirical study//Data Min Knowl Disc. 2016. No. 30. Pp. 891-927.

25. Chistyakov S. P. Sluchainye lesa. Trudy KarNTs RAN. 2013. No. 1. Pp. 117-136.

26. Aminikhanghahi S.Knowledge and information systems. 2017. Vol. 51. No. 2. Pp. 339-367.

Received 01.12.2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.