Научная статья на тему 'МЕТОДЫ КЛАССИФИКАЦИИ НАРУШЕНИЙ СЕРДЕЧНОГО РИТМА НА ОСНОВЕ КОДИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ RR-ИНТЕРВАЛОВ СИГНАЛА ЭКГ'

МЕТОДЫ КЛАССИФИКАЦИИ НАРУШЕНИЙ СЕРДЕЧНОГО РИТМА НА ОСНОВЕ КОДИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ RR-ИНТЕРВАЛОВ СИГНАЛА ЭКГ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
158
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОДИРОВАНИЕ RR-ИНТЕРВАЛОВ / СИГНАЛ ЭКГ / ЛИНГВИСТИЧЕСКОЕ ПРИЗНАКОВОЕ ОПИСАНИЕ R-ПИКА / МЕТОД ЦЕТЛИНА / АДАПТИВНАЯ ОДНОМЕРНАЯ КЛАСТЕРИЗАЦИЯ / SVM / АНСАМБЛЬ / INTER-PATIENT / MIT-BIH / JK-INDEX

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Халайджи Алексей Константинович, Мучник Илья Борисович

Проанализирована структура метода Цетлина как представителя семейства интервальных методов, позволяющего в режиме реального времени отслеживать нарушения сердечного ритма на основе априорного кодирования последовательности RR-интервалов с помощью системы решающих правил и анализа получаемого кода. Предложены три схемы апостериорного кодирования на основе алгоритма адаптивной одномерной кластеризации RR-интервалов в локальной окрестности R-пиков. Приведены способы генерации лингвистического признакового описания R-пиков с помощью рассмотренных методов априорного и апостериорного кодирования RR-интервалов, находящихся в их локальной окрестности. Проведен обзор лучших классификаторов нарушений сердечного ритма по R-пикам, не использующих нейросети, анализирующих явно задаваемое признаковое пространство и представивших свои результаты в соответствии с рекомендациями международного стандарта AAMI и парадигмой разбиения inter-patient для сигналов из MIT-BIH . Показано, что модели, использующие предложенные лингвистические признаки, достигают наилучших значений метрики jk-index по сравнению с моделями на других активно используемых на практике признаках. Получена ансамблевая модель, использующая предложенные лингвистические признаки и достигшая значения jk-index = 0,807, что является лучшим результатом среди известных методов, не использующих нейросети и анализирующих явно задаваемое признаковое описание R-пиков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Халайджи Алексей Константинович, Мучник Илья Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF CLASSIFICATION OF ARRHYTHMIAS BASED ON ENCODING SEQUENCES OF RR-INTERVALS OF ECG SIGNAL

Purpose: The paper proposes new method of classification of arrhythmias based on linguistic representation of the only feature from ECG signal - durations of RR-intervals Design / methodology / approach: The paper analyzes the Cetlin method structure as the representative interval methods, that allows to encode RR-intervals in real-time mode and analyze them via rule-based system to classify arrhythmias. Also adaptive 1D clustering is used to posterior encode sequences of RR-intervals. Both of approaches are used to create linguistic feature representation of R-peak, that is further used to extend existing input feature space of the state-of-the-art classifier, based on the architecture of the ensemble of models on independent features sets. Findings: The results show that models, which use proposed linguistic features, reach better jk-index values as for individuals models, as for a final ensemble classifier. The best ensemble received value jk-index equals to 0.807, that is the best achieved result compared to existing state-of-the-art methods, which are not based on neural networks but using explicit R-peak features and follow AAMI recommendations and inter-patient paradigm of division MIT-BIH records for representation of the results. Research limitations/implications: The proposed method, as well as the obtained results, such as a state-of-the-art model and the methods of RR-intervals encoding, can be actively used in telemedicine monitoring and arrhythmia detection systems. Originality/value: The value of the methods is the new approach of classifying main arrhythmias types based on AAMI classification, as well the interpretable set of features of R-peak and ECG signal for specialists, and the state-of-the-art ensemble model performance, comparing to known approaches, which don’t use neural networks that use raw signal as an input in favor to explicit R-peaks features.

Текст научной работы на тему «МЕТОДЫ КЛАССИФИКАЦИИ НАРУШЕНИЙ СЕРДЕЧНОГО РИТМА НА ОСНОВЕ КОДИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ RR-ИНТЕРВАЛОВ СИГНАЛА ЭКГ»

УДК 004.023 DOI: 10.46960/1816-210X 2021 1 38

А.К. Халайджи1, И.Б. Мучник2

МЕТОДЫ КЛАССИФИКАЦИИ НАРУШЕНИЙ СЕРДЕЧНОГО РИТМА НА ОСНОВЕ КОДИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ RR-ИНТЕРВАЛОВ СИГНАЛА ЭКГ

Московский государственный технический университет им. Н.Э. Баумана

Москва, Россия 2Ратгерский государственный университет Нью-Джерси, США

Проанализирована структура метода Цетлина как представителя семейства интервальных методов, позволяющего в режиме реального времени отслеживать нарушения сердечного ритма на основе априорного кодирования последовательности RR-интервалов с помощью системы решающих правил и анализа получаемого кода. Предложены три схемы апостериорного кодирования на основе алгоритма адаптивной одномерной кластеризации RR-интервалов в локальной окрестности R-пиков. Приведены способы генерации лингвистического признакового описания R-пиков с помощью рассмотренных методов априорного и апостериорного кодирования RR-интервалов, находящихся в их локальной окрестности. Проведен обзор лучших классификаторов нарушений сердечного ритма по R-пикам, не использующих нейросети, анализирующих явно задаваемое признаковое пространство и представивших свои результаты в соответствии с рекомендациями международного стандарта AAMI и парадигмой разбиения inter-patient для сигналов из MIT-BIH. Показано, что модели, использующие предложенные лингвистические признаки, достигают наилучших значений метрики jk-index по сравнению с моделями на других активно используемых на практике признаках. Получена ансамблевая модель, использующая предложенные лингвистические признаки и достигшая значения jk-index = 0,807, что является лучшим результатом среди известных методов, не использующих нейросети и анализирующих явно задаваемое признаковое описание R-пиков.

Ключевые слова: кодирование RR-интервалов, сигнал ЭКГ, лингвистическое признаковое описание R-пика, метод Цетлина, адаптивная одномерная кластеризация, SVM, ансамбль, inter-patient, MIT-BIH, jk-index.

Введение

Направление автоматического анализа биомедицинских сигналов является крайне актуальным [1]. Одной из главных задач является автоматическое обнаружение и классификация аритмий [2]. Для обучения моделей автоматического обнаружения аритмий, в соответствии со стандартом AAMIEC57:2012, используются открытые базы данных, например, MIT-BIH, в которых для каждого R-пика приведен его класс, относящийся к одному из кластеров: N, SVEB, VEB, F и Q. Несмотря на большое количество работ, все еще не существует метода, способного безошибочно обрабатывать сигналы из открытых баз данных типа MIT-BIH. В последнее время появляется все больше методов на основе нейросетевых моделей, которые обрабатывают непосредственно отсчеты сигнала ЭКГ [3-5], однако такие модели все же не обладают достаточной производительностью и интерпретируемостью и требуют боль-ше данных для обучения. Активное использование глубоких нейросетей обусловлено их способностью автоматически извлекать значимые признаки из сигнала в процессе обучения.

В то же время существует большое количество методов, использующих явно задаваемые группы признаков из сигнала ЭКГ [6-20]. Однако в большинстве подобных работ основные признаки имеют морфологическую природу, в то время как нарушения сердечного ритма, прежде всего, обусловлены изменением интервальных характеристик сигнала. Вопрос значимости интервальных признаков был популярен в конце XX в. с появлением первых открытых баз сигналов и, как следствие, работ по автоматическому обнаружению мерцательной аритмии [21-23], однако в современной литературе он практически не освещен. Вместе с тем, такие методы позволяют осуществлять обработку сигнала в режиме реального времени

© Халайджи А.К., Мучник И.Б.

и получать более интерпретируемые результаты. Более того, одним из результатов подобной обработки может быть код, символами которого являются результаты анализа отдельных RR-интервалов. В ряде исследований отмечена перспективность методов кодирования сигнала ЭКГ, поскольку они позволяют сжать информацию о сигнале, использовать их в качестве уникального кода человека наподобие его подписи [24-27] и не только выявить наличие разных нарушений, но и классифицировать и интерпретировать их [28-30]. Этим и обусловлена актуальность предлагаемого исследования.

Основной целью работы является создание новых способов кодирования КЯ,-интервалов с целью лингвистического описания R-пиков и анализ эффективности такого представления. Для этого будут рассмотрены две схемы кодирования RR-интервала: априорная на основе решающих правил и апостериорная на базе кластеризации длительностей ЯЛ-интервалов в окрестности Я-пика. Для сравнения с существующими решениями будет взята архитектура модели, на которой достигается лучшее качество на текущий момент, и ее признаковое пространство будет расширено предложенными признаками. В качестве основной метрики качества будет использован ]к-тёех [10].

Анализ структуры метода Цетлина автоматического обнаружения аритмий на базе априорного кодирования ЯК-интервалов с помощью системы решающих правил

Лингвистический метод Цетлина [30] позволяет автоматически с помощью системы правил обнаруживать аритмии по сигналу ЭКГ, анализируя последовательности ЯЯ-интервалов. Для этого непрерывно измеряется длительность последовательных ЯЯ-интервалов, оценивается средняя длительность интервала в течение 1 -2 мин, а последующие интервалы кодируются символом в зависимости от отклонения их длительности от средней по следующим правилам:

• отклонение <25 % - норма (Н);

• отклонение >25 % в сторону уменьшения - короткий (К);

• отклонение >25 % в сторону увеличения - длинный (Д).

В [30] представлено соответствие между всеми «тройками» символов и видам нарушений сердечного ритма, при их наличии, или нормальным режимом. Практическую ценность метода представляют его простота и работа в режиме реального времени. В [31] проведено исследование качества этого метода на сигналах из М1Т-В1Н, в результате которого было получено, что, несмотря на то, что метод не анализирует отдельные Я-пики и работает с «тройками» ЯЯ-интервалов, он позволяет с довольно высокой точностью распознавать основные виды ритмических аномалий 8УЕВ и УЕВ. Он, однако допускает много ложных срабатываний, связанных с инерционностью метода, и пропускает морфологические аномалии, не приводящие к изменениям длительностей ЯЯ-интервалов. В той же работе выявлены и исследованы параметры метода Цетлина:

• длительность интервала для усреднения;

• порог отклонения от «нормы» для отнесения ЯЯ-интервала к коротким;

• порог отклонения от «нормы» для отнесения ЯЯ-интервала к длинным.

По итогам исследования [31] было выявлено, что изменения этих параметров действительно решают проблему инерционности для некоторых сигналов, однако не существует единой конфигурации, которая бы улучшила качество работы метода одновременно на всех сигналах из М1Т-В1Н. Важными выводами работы [31] являются также предложения по дальнейшим исследованиям с целью решения недостатков метода, которые будут реализованы в этом исследовании:

• использовать признаки метода Цетлина для построения отдельного классификатора классов Я-пиков в соответствии с рекомендациями ААМ1, в том числе, с добавлением морфологических признаков в модель;

• исследовать влияние других параметров на качество работы метода Цетлина;

• длины анализируемой последовательности (в оригинальном методе используется длина, равная 3);

• мощности алфавита / числа классов RR-интервалов (в исходной работе использовались только 3 класса и соответствующих им символа: «К», «Д» и «Н»).

Апостериорный подход к кодированию RR-интервалов с использованием кластеризации

Кодирование RR-интервала нацелено на выявление индивидуальных статистических характеристик n-грамм для каждого обследуемого. Так, если у Цетлина символы «К», «Н» и «Д» вводятся фиксированно по величине априорно задаваемого порога, то для конкретного человека эти границы могут определяться с помощью кластерного анализа, основываясь на полученных апостериорных длительностях RR-интервалов. В качестве алгоритма кластеризации достаточно использовать, в том числе, и самый простой, например, KMeans. Результатом такой кластеризации будут апостериорные значения порогов, разделяющие кластеры друг от друга. Каждому кластеру достаточно присвоить уникальный символ, и такое разбиение позволяет закодировать все анализируемые RR-интервалы.

Существует большое количество работ, в которых используется кластеризация для анализа сигналов ЭКГ. Например, в [32-34] решается задача подбора признаков для разделения свойств, присущих разным заболеваниям. В [35-37] кластеризация использовалась для бинарной классификации наличия QRS-комплекса в скользящем окне при непрерывном поступлении новых значений сигнала для решения задачи сегментации. В некоторых работах [38-40] применяли кластеризацию для автоматического обнаружения лишь нескольких типов аритмий, а не всех, как рекомендует стандарт AAMI. Многие исследования посвящены исследованию структуры метода кластеризации: в [40,41] исследуются новые метрики расстояния, в [41,42] - «мягкая» кластеризация Fuzzy C-Means, в [43,44] проработан вопрос ускорения самой процедуры кластеризации. Наконец, в [44, 46] кластеризация использовалась для получения входных признаков для нейросети.

Отдельного внимания заслуживает работа [47], где описан механизм кодирования и лингвистического анализа сигнала ЭКГ с помощью алгоритма кластеризации Cobweb. Задачей этого исследования было решение общей проблемы автоматизации клинического анализа, который максимально можно извлечь из сигнала ЭКГ. Это становиться особенно ясно из того, что главное внимание уделяется исследованию вариациям формы сегментов QRS-комплексов ЭКГ сигнала. Тем не менее, анализируется не последовательность RR-интервалов, а весь QRS-комплекс в целом. В свою очередь, интерес в текущем исследовании состоит в кластеризации длительностей RR-интервалов, поскольку именно они являются основным критерием наличия большинства видов аритмий.

Поскольку решаемая задача относится к классу одномерных (объекты - это длительности RR-интервалов), то, если представить все анализируемые значения RR-интервалов на одной числовой прямой, задача кластеризации сводится к оптимальному разбиению отрезка между минимальной и максимальной длительностью RR-интервала на заранее известное количество непересекающихся подотрезков, полностью покрывающих изначальный. Существует модификация алгоритма KMeans, использующая динамическое программирование для нахождения оптимального разбиения п объектов на к кластеров с вычислительной сложностью O(кп2') и емкостной - O(кп) [48]. Необходимо также отметить, что теми же авторами достигнуты лучшие асимптотики для некоторых классов задач [49], но для решаемой задачи, в которой п имеет порядок нескольких десятков-сотен интервалов, а к - меньше 10, они не дают выигрыша, однако являются более сложными в реализации.

Основным недостатком этого алгоритма является необходимость задания изначального числа кластеров, на которое необходимо разбить исходные объекты. В общем случае последовательность значений RR-интервалов может быть произвольной: например, они все мо-

гут быть одинаковыми (что свидетельствует о наличии всего одного кластера из одного значения), а могут быть все различными, образуя большее число кластеров. Поскольку необходимо обеспечить функционирование алгоритма в автоматическом режиме, были добавлены критерии остановки, позволяющие адаптивно подбирать количество кластеров в зависимости от анализируемых данных.

Адаптивный подбор основан на последовательном увеличении числа кластеров от 1 до К, где К - число анализируемых RR-интервалов, или до выполнения условия остановки. Использовалось следующее правило - если для хотя бы для одного из кластеров евклидово расстояние (в одномерном случае - просто разность) между крайними длительностями ЯЯ-интервалов превышает порог, то кластер объединяет слишком разные ЯЯ-интервалы, и необходимо продолжить разбиение, увеличив число кластеров на 1. Подобная процедура эффективна, поскольку с помощью динамического программирования новая кластеризация может быть эффективно пересчитана с учетом текущей, в отличие от классического алгоритма KMeans, который необходимо было бы перезапускать заново. По аналогии с методом Цетлина значение допустимого порога является гиперпараметром и задается в процентном соотношении от средней анализируемой длительности RR-интервала.

С помощью описанного алгоритма кластеризации становится возможным закодировать последовательность ЯЯ-интервалов. Однако для этого необходимо сопоставить каждому из кластеров тот или иной символ. Поскольку количество кластеров может варьироваться, символы, получаемые для разного количества кластеров, должны быть согласованными. В рамках исследования использовалось разбиение не более чем на 5 кластеров. Это означает, что в результате адаптивной кластеризации последовательности ЯЯ-интервалов, она может быть разбита на число кластеров от 1 до 5. Были разработаны следующие схемы кодирования получаемых разбиений.

1. Adaptive5 - схема кодирования на 5 групп числом от 0 до 4:

1 кластер — код 2

2 кластера — коды 1 и 3

3 кластера — коды 1, 2 и 3

4 кластера — коды 0, 1, 3, 4

5 кластеров — коды 0, 1, 2, 3, 4

2. Adaptive3of5 - схема кодирования на 3 группы, считая «нормальной» группой только мало отличающиеся от среднего значения интервалы:

1 кластер — код 1

2 кластер — коды 0, 2

3 кластера — коды 0, 1, 2

4 кластера — коды 0, 0, 2, 2

5 кластеров — коды 0, 0, 1, 2, 2

3. Adaptive3of5wide - схема кодирования на 3 группы, позволяющая «нормальным» интервалам отклоняться больше от среднего значения:

1 кластер — код 1

2 кластер — коды 0, 2

3 кластера — коды 0, 1, 2

4 кластера — коды 0, 1, 1, 2

5 кластеров — коды 0, 1, 1, 1, 2.

Далее будут определены лучшие значения следующих гиперпараметров:

• длина кода;

• временной интервал, в рамках которого осуществляется кластеризация;

• величина эвристики допустимого размаха для остановки кластеризации.

Построение лингвистического признакового описания Я-пика с использованием априорного и апостериорного подходов к кодированию КЯ-интервалов

Для возможности построения классификации, согласно рекомендациям AAMI, необходимо адаптировать получаемые коды ЯЯ-интервалы в качестве признаков Я-пиков. Каждый Я-пик может быть нормальным или аномальным. Его аномальность может заключаться в изменении его морфологии без изменения интервальных характеристик сигнала, изменении его положения по отношению к предыдущему и последующему Я-пикам без изменения морфологии, или в обоих явлениях сразу. В любом случае каждый Я-пик ассоциируется с двумя ЯЯ-интервалами - ргеЯЯ и postRR. Метод Цетлина сравнивает только предшествующие ЯЯ-интервалы, однако postRR используется часто в других последних исследованиях, начиная с [26]. Поэтому для получения признаков Я-пика нужно кодировать postRR и ргеЯЯ, и, при необходимости, более ранние интервалы (как в методе Цетлина).

Для исследования влияния истории на качество классификации будут рассмотрены коды длиной от 2 до 5 символов в рамках обоих подходов и длительность анализируемого от 0,1 до 5 мин. Величина размаха кластера для апостериорного подхода будет варьироваться в пределах от 10 до 100 % от среднего, а для исследования параметров метода Цетлина далее будут использованы 3 схемы разделения на классы относительно среднего значения нормы:

• 3 класса (стандартный метод Цетлина): {<-0.25; [-0.25; 0.25]; >0.25};

• 5 широких классов:

{<-0.5; [-0.5; -0.25]; (-0.25; 0.25); [0.25; 0.5]; >0.5},

• 5 узких классов:

{<-0.25; [-0.25; -0.125]; (-0.125; 0.125); [0.125; 0.25]; >0.25}.

Получаемые коды являются последовательностями чисел, каждое из которых носит категориальный характер. Для использования этих кодов в качестве признаков классификатора, к ним применяется преобразование опе-Ьо1;-епсоёт§, в котором для К классов каждое число представляется характеристическим вектором из К элементов, где элемент, номер которого соответствует числу, равен единице, а все остальные - нулю.

Выбор базового набора признаков и схемы классификации

Ранее было предложено новое пространство лингвистических признаков для классификационного пространства пиков. Для оценки его качества и сравнения с существующими признаковыми пространствами ниже будет проведен обзор современных классификаторов, в рамках которого будет выбран один из них. На его основе будет построено расширенное признаковое пространство и оценен вклад каждого из компонентов такого пространства, а также качество финального классификатора в целом. Отправной точкой для выбора классификатора является обзор 2016 г. [2]. Ценность этой работы заключается в наличии ссылок на исследования, которые используют единую схему оценки результатов, предложенную в [11]. Также ниже проанализированы некоторые работы за последние 5 лет для выявления более современных классификаторов. В качестве ограничений при выборе использовались следующие соображения:

• использование только информации об Я-пиках (и, возможно, прилежащей окрестности к ним), т.к. процедура извлечения Я-пика наиболее проста;

• использование одного отведения, что проще и чаще используется;

• следование рекомендациям ААМ1 и схемы [11] по представлению результатов;

• использование методов, анализирующих явно задаваемые признаки, вместо нейросе-тевых моделей, использующих значения амплитуд сигнала напрямую.

Последнее ограничение можно было бы обойти, используя в качестве базовых признаков выход промежуточных слоев нейросети, однако последние в любом случае проигры-

вают по интерпретируемости модели по сравнению с явными признаками. В то же время анализ показал, что в большинстве работ после 2016 г. используются нейросети, и существует очень мало работ, в которых осуществляется поиск наиболее информативных признаков.

В [8-18] используется два отведения и морфология T и P-волн, что затрудняет сегментацию. Техника, описанная в [15], имеет в большей мере теоретический интерес, поскольку в реальной практике нет доступа к тестовым данным, также в описанной процедуре происходит утечка знания о тестовой выборке в процесс обучения. В работе [17] используются только пятиминутные интервалы сигналов из тестовой выборки для оценки качества, что не соответствует идее inter-patient, поскольку переобучает модели на тестовых данных. В [19] рассчитаны не все показатели качества, рекомендуемые AAMI, но используются эрмитовы базисные функции и статистики высших порядков (HOS). Работа [20] освещает вопрос анализа значимости признаков, которые были прежде использованы в других работах. В [5] заявлено наилучшее качество среди работ из [2], однако в ней используется нестандартная нейросетевая архитектура Reservoir Computing, а также анализируется сигнал напрямую.

Из работ, которые представлены в [2], наибольший интерес представляет [7] - здесь полностью описана вся процедура и мотивация выбора архитектуры модели, однако класс F объединён с классом VEB, что несколько упрощает исходную задачу. Результаты, представленные в этом исследовании, являются одними из лучших, однако структура метода затрудняет расширение признакового пространства. Этих недостатков лишена работа [6], в которой предложены ансамбли SVM-моделей, построенных на наиболее часто используемых в литературе признаках в области R-пика. Более того, в работе представлены лучшие показатели качества среди моделей, не использующих нейронные сети. Идея заключается в инструментальном разделении множеств признаков друг от друга и обучении отдельных классификаторов на каждой из групп с последующим их объединением в составе ансамбля по одному из правил голосования. Такой подход позволяет очень просто осуществить процедуру расширения пространства признаков, и само исследование выполнено со всеми рекомендациями AAMI, поэтому для дальнейших экспериментов было выбрано именно оно.

Описание схемы экспериментов исследования признаков согласно выбранной архитектуре ансамбля независимых моделей

Согласно [6], все признаки необходимо из окна в 180 отсчетов в центре в R-пике. Таким образом, на основе идеальной сегментации были получены признаковые описания каждого из R-пиков сигналов из обучающей выборки. Каждый R-пик описывался следующими признаками:

• морфологические (180 отсчетов сигнала в центре в R-пике);

• 4 интервальных признака: preRR, postRR, localRR (средняя длительность последних 10 RR-интервалов) и globalRR (средняя длительность за 20 мин);

• 23 коэффициента 3-го уровня декомпозиции вейвлета Хаара (dbl)

• 10 статистик 3-го и 4-го порядка для 5 точек с 30-отсчетным окном вокруг них;

• 59 ulbp-признаков (1d uniform local binary patterns с числом соседей 8). Гистограмма из 58 разных бинарных uniform-кодов (в которых соседние биты отличаются не более 2 раз) фрагментов в 8 отсчетов и число не uniform-кодов в качестве 59-го признака;

• 4 mondejar-признака - евклидово расстояние между максимальной по модулю точкой R-пика и 4 характерными точками в окрестности R-пика).

К ним добавлены лингвистические признаки, описанные выше. Сегментация сигнала не осуществлялась - использовались аннотации R-пиков из MIT-BIH, поэтому для возможности сравнения результатов она не будет осуществляться в и этом исследовании. Поскольку все признаки [6] были отобраны из наиболее успешных ранее работ, а текущее исследование ставит целью исследование лингвистических признаков, в рамках дальнейших эксперимен-

тов не будут применяться специальные техники отбора признаков (например, Ll-регуляриза-ция). Для каждой группы признаков обучен самостоятельный классификатор, результаты работы которых - объединяются по одной из стратегий. Помимо рекомендованных AAMI метрик, в качестве основной интегральной метрики качества будет использоваться ]к-тёех, предложенный в работе [10] и использовавшийся в [6].

Схема подбора лучших значений параметров лингвистических моделей

Для подбора эффективных значений параметров лингвистических моделей использовалась кросс-валидация. Авторы [6] использовали в своей работе 10йэЫ-сго88-уаНёа1;юп (101ЪЫ-СУ), поэтому в исследовании использовалась наиболее близкая к ней схема 11АоЫ-СУ. Она заключается в делении исходного множества из 22 сигналов из обучающей выборки на «пары сигналов» (1-й и 2-й, 3-й и 4-й и т.д.), последовательному обучению для каждой комбинации гиперпараметров на 20 сигналах и валидации качества модели на 2 оставшихся. Итоговое качество для каждого набора гиперпараметров определяется путём усреднения показателей качества для всех результатов на валидации.

Всего в каждом сигнале по 2-3 тыс. Я-пиков, а записей при обучении - 20, что приводит к размеру выборки в 40-50 тыс. объектов. На таких объемах SVM-модель, (особенно с ЯВБ-ядром) и кросс-валидацией обучалась бы очень долго. Поэтому для подбора эффективных гиперпараметров использовалась упрощенная модель логистической регрессии, поскольку она работает намного быстрее, а результат ее работы также можно использовать в качестве вероятности отнесения объекта к тому или иному классу, что используется для голосования моделей ансамбля в соответствии со схемой [6].

Поскольку признаков довольно много, то для борьбы с переобучением использовалась регуляризация. При обучении логистической регрессии использовалась только L2-регуляризация, так как подразумевалось, что отбор признаков, присущий L1-регуляризации, выполнять не нужно из-за информативности всех признаков. Использовались те же значения коэффициента регуляризации, что и в [6] - 0.001, 0.01, 0.1, 1, 10, 100, 1000.

Далее, в работе группы признаков по Цетлину и алгоритму кластеризации представлены в следующем формате:

СеШп_<ёига1юп>_<пит_с1а88е8>_<1ей_1хе8коЫ>_<соёе_1еп§;1;к> С1ш1ег_<ёига1;юп>_<тах_с1ш1ег_уапапсе>_<соёт;_а1;о>_<соёе_1еп§;1;к>

В качестве целевой метрики качества использовался ]к-индекс, как и в [6]. Для оптимизации в процессе обучения использовался алгоритм LBFGS с 100 итерациями и точностью сходимости 0,001. При этом использовалась multinomial-классификация с балансировкой весов в соответствии с соотношением числа объектов того или иного класса.

В результате анализа влияния параметров метода Цетлина на его качество было выявлено, что при больших длинах кода качество хуже, чем при малых, что свидетельствует о том, что слишком большая история не релевантна для конкретного Я-пика. С точки зрения длительности сигналов, лучшее качество было достигнуто для 2-минутных кодов, и худшее -для 5- и 0,5-минутных (из-за инерции и нехватки длины истории соответственно). Наконец, лучшие значения метрик качества показала модель с 3 классами по сравнению с 5 классами. Анализ кластерных моделей показал, что чем больше интервал для анализа, тем результаты хуже, что справедливо для всех трех схем, из-за чего результаты для 5 намного хуже, чем для 2 или 0,5 минут. Для величины размаха - наоборот: при совсем малых значениях (0,1) качество намного хуже, чем для 0,3. В то же время для слишком больших значений (около 1,0) -качество тоже ухудшалось. Наилучшее значение для всех кластерных моделей достигалось в диапазоне 0,3-0,4. Наконец, лучшего качества достигли коды длины 3, а худшего - длины 5. Для коротких интервалов длинное кодирование надежнее и устойчивее, а при увеличении длительности интервалов 3-символьный код работает лучше 5-символьного. Лучшей по оказалась Adaptive3of5wide, после чего adaptive5 и adaptive3of5.

Был проведен анализ моделей для наиболее эффективных значений гиперпараметров согласно кросс-валидации на обучении и на тестовой выборке. Полученные в процессе кросс-валидации и на тестовой выборке результаты были ранжированы по значению jk-index с группировкой результатов моделей по одинаковым значениям каждого из гиперпараметров. Для ранжирования использовался показатель Cumulative-Gain - сумма позиций в упорядоченном по убыванию значения метрики jk-index списке для каждого из значений гиперпараметров. В итоге модели, имеющие высокое качество, обладают меньшей суммой, чем те, которые имели худшее качество. Основным недостатком выбранной метрики является то, что наличие хотя бы одной конфигурации в конце списка сильно влияет на итоговую сумму, даже если все остальные значения были в начале списка, но это контролируется при ручном отборе итоговых конфигураций. Таким оказались:

• Cetlin_2_3_-0.25_2;

• Cluster_0.4_0.3_adaptive5_3;

• Cluster_0.4_0.4_adaptive3of5_3;

• Cluster_0.4_0.3_adaptive3of5wide_3.

Можно сделать вывод, что для метода Цетлина в рамках классификатора оказались наиболее информативными коды только для preRR и postRR без дополнительной истории, а все остальные параметры - соответствуют стандартной конфигурации метода. Значение размаха 0,3 или 0,4 интерпретируется отклонением на 15 или 20 % от состояния нормы в обе стороны для центрального кластера. При этом видно, что для adaptive3of5, где допускается малое отклонение от нормы, размах больше и равен 0,4, а в adaptive3of5wide, где допускается большее отклонение - меньше и равен 0,3, т.е., модели согласованы друг с другом.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты исследования ансамблей лингвистических моделей

Помимо поиска наилучших одиночных моделей была осуществлена попытка построения ансамблей из разных моделей в рамках одной группы признаков - например, ансамбля из моделей Цетлина и т.п. Для объединения результатов использовались стратегии из работы [6]: product, sum и majority rule. На одном из первых этапов обучения, когда еще не были обнаружены эффективные значения гиперпараметров, были получены следующие лучшие ансамбли для лингвистических моделей на обучающей выборке (табл. 1):

Таблица 1.

Качество одиночных и ансамблей лингвистических моделей

Конфигурация модели jk-index

Cetlin product rule 0.547

Best Cetlin 2 3 -0.25 2 0.537

Adaptive5 majority rule 0.525

Worst Cetlin 5 5 -0.25 2 0.429

Adaptive3of5wide majority rule 0.255

Adaptive3of5 sum rule 0.237

Best Cluster 0.5 0.3 Adaptive3of5wide 2 0.235

Best Cluster 0.5 0.3 Adaptive5 2 0.232

Best Cluster_0.5_0.3_Adaptive3of5_2 0.214

Когда все базовые модели обладали примерно одинаковым качеством - ансамбли действительно улучшали результат. Однако после того, как были обнаружены более эффективные наборы гиперпараметров, качество одиночных моделей стало лучше качества, достигаемого ансамблем (табл. 2).

Таблица 2.

Плохое качество ансамбля при большом разбросе базовых моделей

Конфигурация модели jk-index

Best Cetlin 2 3 -0.25 2 0.463

Cetlin product rule 0.450

Worst Cetlin 5 5 -0.5 4 0.370

Плохие одиночные модели сильно ухудшают итоговое предсказание модели, поэтому было решено образовывать ансамбли только из лучших одиночных моделей. Промежуточные модели могут давать ненормированные вероятности для всех классов (например, после объединения всех Цетлиновских моделей в ансамбль), и использование таких вероятностей (сумма которых может не равняться 1) на следующих уровнях приводит к ошибкам вычислений и неправильным результатам. Аналогично, для SVM-моделей, где вероятности формируются на основе суммы значений сигмоид единичных One-Vs-One бинарных классификаторов, необходимо нормализовать итоговые величины, чтобы их можно было использовать в качестве вероятности, а также для уравновешивания вклада от разных моделей при объединении их результатов на уровне ансамбля.

С другой стороны, из табл. 1 видно, что нет единого правила объединения результатов ансамблей, которое давало бы во всех случаях наилучшее качество. Для итогового ансамбля можно получить sum-, product- и majority-значение, однако: какое из них необходимо выбрать в автоматическом режиме при распознавании очередного пика - однозначный ответ дать нельзя. Поэтому предложена еще одна схема голосования - voted.

Назначение voted-способа объединения заключается в получении единого результата на основе трех предсказаний, получаемых правилами sum, product и majority. Для каждой из моделей выбирается класс, которому модель даёт наибольшую вероятность, и затем осуществляется голосование между тремя результатами. В результате выбирается тот класс, за который было набрано больше всего голосов (от 2 до 3). Если все три модели проголосовали за разные классы, то приоритет отдаётся product rule, которое достигает наилучших значений в соответствии с результатами текущего исследования и [6]. Voted стратегия отличается от majority, поскольку в majority после суммирования приоритет может отдаться необязательно product rule при прочих равных, причем тому кандидату, где наименьшая «неудачная» вероятность от другой модели была лучше.

Анализ качества итогового ансамбля с использованием логистической регрессии

Для признаков из работы [6] перед использованием логистической регрессии было применено z-нормирование. В табл. 3 отражены полученные результаты. Видно, что на обучении лучшей моделью был ансамбль, состоящий из признаков лучшей модели из [6], а также Cetlin и Adaptive3of5. Те же лингвистические признаки вошли в состав лучшего ансамбля на тестовой выборке. С другой стороны, видно, что качество лучшей модели только на основе лингвистических признаков меньше, чем качество лучшей модели только на морфологических признаках, однако вместе они работают лучше.

Сравнивая результаты (табл. 3) с [6], видно, что полученный лучший результат меньше лучшего результата, представленного в статье. Это связано, в первую очередь, с тем, что используется логистическая регрессия, а не SVM с RBF-ядром. Поэтому далее проведено полноценное обучение SVM-моделей с кросс-валидацией для подбора лучших значениях коэффициента Ь2-регуляризации на найденных наилучших конфигурациях лингвистических моделей и других признаках из [6].

Таблица 3.

Качество моделей логистической регрессии для тестовой выборки

Признаки и правила агрегации результатов одиночных моделей jk-index

Best Product Morphological Interval Hos Ulbp Mondejar Cetlin Adaptive3of5 0.7195

Best (Without Linguistic) Product Interval Wavelet Hos Ulbp Mondejar 0.6559

Best Train Voted Morphological Interval Wavelet Ulbp Mondejar Cetlin Adaptive3of5 0.6297

Best (Linguistic Only) Majority Adaptive3of5wide Cetlin 0.5246

Adaptive3of5wide 0.4860

Interval 0.4663

Cetlin 0.4627

Adaptive3of5 0.4514

Adaptive5 0.3643

Mondejar 0.3379

Hos 0.2701

Morphological 0.1845

Wavelet 0.1723

Ulbp 0.1422

Итоговое качество ансамбля с применением SVM-классификаторов

По умолчанию SVM-классификаторы не позволяют определять вероятность, однако для получения степени отнесения к тому или иному классу можно использовать схему, предложенную в [6], через использование decision function. В ней предлагается использовать One-Vs-One (OVO)-схему обучения в силу несбалансированности выборки, и далее предсказание одной SVM-модели выражать через предсказания бинарных OVO-классификаторов. Для этого в каждого из бинарных OVO-SVM-классификаторов рассчитываются значения сигмоиды на основе предсказания модели и реального класса R-пика, которые суммируется по всем бинарным моделям в рамках исходной SVM-модели и нормализуются, чтобы затем использоваться в том или ином правиле агрегации на уровне ансамбля. Итоговые результаты при использовании такой схемы показаны в табл. 4.

Лучший ансамбль использует adaptive3of5wide-кодирование и имеет лучшее значение jk-index, чем лучший результат, представленный в работе [6]. При анализе Т0П-10-моделей (табл. 5) видно, что все они используют модели на лингвистических признаках, что говорит о том, что добавленные признаки действительно улучшают качество итогового ансамбля. Наконец, можно сделать вывод, что согласно значению jk-index группы признаков Adaptive3of5wide, Cetlin и Adaptive3of5 лучше всех остальных, которые используются в большинстве работ, метод Adaptive3of5wide - лучший из них, а признаки метода Цетлина обладают наивысшей точностью и положительной прогностичностью для SVEB-аномалий.

Лучший полученный ансамбль использует все признаки лучшего ансамбля из работы [6], использует adaptive3of5wide-схему кодирования, а также voted-схему объединения результатов на уровне ансамбля. Из табл. 5 видно, что voted-стратегия используется во многих моделях, достигающих высокого значения jk-index. Также видно, что все эти модели обладают качеством лучше, чем заявлено в работе [6] по значению jk-index. Новый ансамбль лучше предложенного в работе [6] ансамбля на 4.4 %, если брать в расчет представленное значение в статье [6], и на 14,5 % лучше такой конфигурации согласно проведённым экспериментам. Наконец, в табл. 6-8 представлены обобщенные результаты для возможности сравнения с другими работами в соответствии с рекомендациями AAMI.

Таблица 4.

Сравнительная таблица качества итоговых моделей на тесте

Группа признаков N SV EB VEB F Acc k- jk-

Se P+ Se P+ Se P+ Se P+ index index index

Voted Interval

Wavelet Hos Ulbp Mondejar Adaptive3of5wide 97,1 98,5 83,2 58,1 95,4 90,0 1,29 10 95,7 3,267 0,797 0,807

[6] Best Product Interval Wavelet Hos 93,4 98,4 78,1 40,8 94,9 78,2 16,2 24,3 92,3 2,920 0,679 0,705

Best (Linguistic Only) Majority Adap-tive3of5 Adap- 86,3 98,0 57,3 31,4 80,4 56,9 0,8 0,1 84,2 2,260 0,460 0,512

tive3of5wide

Cetlin

Adaptive3of5wide 82,3 98,4 57,6 26,3 83,9 53,5 4,1 0,4 80,9 2,214 0,415 0,484

Cetlin 89,7 96,4 57,9 38,8 52,5 48,8 0,5 0,1 85,4 1,980 0,430 0,463

Adaptive3of5 82,0 98,1 56,1 21,0 81,6 50,7 0,8 0,1 80,4 2,094 0,399 0,461

Interval 76,0 99,3 73,4 23,2 67,1 50,2 76,3 5,2 75,3 2,139 0,355 0,445

Adaptive5 77,7 98,6 51,1 19,9 86,2 48,7 4,4 0,4 76,7 2,059 0,359 0,437

Mondejar 42,2 96,9 78,6 11,6 74,8 58,2 3,6 0,1 45,5 2,232 0,143 0,351

Wavelet 77,7 95,2 9,5 4,1 94,1 35,5 1,5 0,7 75,7 1,432 0,282 0,320

Morphological 72,2 94,7 11,5 3,5 91,9 42,5 0,8 0,1 70,7 1,494 0,231 0,302

Ulbp 90,8 93,2 0,1 1,1 67,2 34,0 0,3 0,8 85,2 1,023 0,324 0,290

Hos 56,9 95,2 65,4 9,3 39,7 38,3 80,2 4,4 56,3 1,527 0,144 0,263

Таблица 5.

10 лучших ансамблей на тестовой выборке

Признаки и правила агрегации результатов одиночных моделей jk-index

Voted Interval Wavelet Hos Ulbp Mondejar Adaptive3of5wide 0.80702

Voted Interval Wavelet Hos Ulbp Mondejar Adaptive3of5 0.80638

Sum Interval Hos Ulbp Mondejar Adaptive3of5wide 0.80571

Sum Wavelet Hos Ulbp Mondejar Cetlin Adaptive3of5wide 0.80538

Voted Wavelet Hos Ulbp Mondejar Cetlin Adaptive3of5wide 0.80480

Product Interval Wavelet Hos Ulbp Mondejar Adaptive3of5wide 0.80349

Voted Wavelet Hos Ulbp Mondejar Cetlin Adaptive5 0.80333

Sum Wavelet Hos Ulbp Mondejar Cetlin Adaptive5 0.80314

Voted Interval Wavelet Hos Ulbp Mondejar Cetlin Adaptive3of5wide 0.80263

Voted Interval Hos Ulbp Mondejar Adaptive3of5wide 0.80249

Таблица 6.

Матрица ошибок лучшего ансамбля

Expected\Predicted N SVEB VEB F Sum

N 42842 1045 207 43 44137

SVEB 247 1524 60 0 1831

VEB 97 50 3065 2 3214

F 306 2 75 5 388

Total 43492 2621 3407 50 49570

Таблица 7.

Интегральные метрики качества

Метрика\Класс N SVEB VEB F

Se 97,1 83,2 95,4 1,3

P+ 98,5 58,1 90,0 0.1

FPR 12,0 2,3 0,7 0,1

Из табл. 8 видно, что полученный результат лучше всех представленных работ, которые не используют нейросети. Значения «?» поставлены для тех работ, которые не представили матрицу ошибок, из-за чего невозможно посчитать определенные значения метрик. Знак «-» же означает, что авторы намеренно не анализировали соответствующий класс пиков. В первой строке показана работа, основанная на нейросетях, которая незначительно обходит полученную модель - прежде всего, за счет лучшего распознавания пиков типа F. В то же время, видно, что полученная модель лучше RC-модели для работы с классом SVEB по обеим метрикам (Se и P+) и опережает ее по кумулятивной метрике j -index.

Таблица 8.

Сравнение с другими работами

Классификатор 4 SVEB V] EB 7 Acc index k-index jk-index

Se P+ Se P+ Se P+ Se P+

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Escalona-Moran et al [5] (нейросеть RC) 96,8 99,0 79,4 49,8 96,1 99,5 92,3 96,2 96,1 3,247 0,821 0,816

Текущее исследование 97,1 98,5 83,2 58,1 95,4 90,0 1,3 10,0 95,7 3,267 0,797 0,807

Mondejar et al [6] 94,7 99,6 91,1 42,2 94,0 92,4 - - 94,5 3,196 0,759 0,779

Huang et al [7] 95,9 98,2 78,1 49,8 94,8 93,8 12,4 23,6 94,5 3,164 0,755 0,773

Zhang and Luo [8] 88,6 98,5 74,2 59,8 88,1 82,3 73,5 6,96 87,9 3,043 0,577 0,669

Zhang et al [9] 88,9 99,0 79,1 36,0 85,5 92,7 93,8 13,7 88,3 2,933 0,593 0,663

Mar et al [10] 88,3 99,0 83,2 33,5 86,8 75,9 61,1 16,6 87,8 2,794 0,594 0,646

Chazal et al [11] 87,1 99,2 76,0 38,5 80,3 81,7 89,4 8,6 86,2 2,765 0,532 0,612

Chen et al [12] 98,4 96,2 29,5 38,4 70,8 85,9 - - 93,9 2,247 0,651 0,606

Liamedo and Martinez [13] 95,0 98,0 77,0 39,0 81,0 87,0 ? ? 93,0 ? ? ?

Lin and Yang [14] 91,0 99,0 81,0 31,0 86,0 73,0 ? ? 93,0 ? ? ?

Bazi et al [15] ? ? ? ? ? ? ? ? 92,0 ? ? ?

Soria and Martinez [16] 92,0 85,0 88,0 93,0 90,0 92,0 ? ? 90,0 ? ? ?

Ye et al [17] 88,0 97,0 60,0 53,0 81,0 63,0 ? ? 86,4 ? ? ?

de Lannoy et al [18] ? ? ? ? ? ? ? ? 85,0 ? ? ?

Park et al [19] 86,0 ? 82,0 ? 80,0 ? ? ? 85,0 ? ? ?

de Lannoy et al [20] 80,0 ? 88,0 ? 78,0 ? ? ? 83,0 ? ? ?

Заключение

Предложенные лингвистические признаки плохо распознают нарушения типа Б, которое не приводит к изменениям длительностей ЯЯ-интервала. Подобный результат для остальных моделей (табл. 4 и 8) можно объяснить тем, что пики этого типа меньше всех остальных представлены в MIT-BШ. Отчасти поэтому многие работы не рассматривают этот класс отдельно, а добавляют его к УЕВ-пикам (например, в [7]).

Предложенные признаки улучшают качество классификации как одиночных моделей, так и итогового ансамбля, достигая лучшего качества среди моделей, не использующих нейросети. Полученный результат свидетельствует, что использования одного отведения достаточно для получения лучшего качества, а для обнаружения основных видов аритмий более существенны свойства ЯЯ-интервалов, а не морфология сигнала.

Библиографический список

1. Buldakova, T.I. Hierarchy of Human Operator Models for Digital Twin / T.I. Buldakova, S.I. Suyati-nov // In: 2019 International Russian Automation Conference (RusAutoCon). - IEEE, Sochi, Russia, 2019. - P. 1-5. DOI: 10.1109/RUSAUT0C0N.2019.8867602.

2. Luz, E.J.S. ECG-based heartbeat classification for arrhythmia detection: A survey / E.J.S. Luz, W.R. Schwartz, G. Camara-Chavez, D. Menotti // Computer Methods and Programs in Biomedicine, 2016. - V. 127 - P. 144-164

3. Warrick, P. Cardiac Arrhythmia Detection from ECG Combining Convolutional and Long Short-Term Memory Networks / P. Warrick, M.N. Homsi // In: Computing in Cardiology (CinC).- IEEE, 2017. -P. 1-4. DOI: 10.22489/CINC.2017.161-460

4. Hou, B. LSTM Based Auto-Encoder Model for ECG Arrhythmias Classification / B. Hou, J. Yang, P. Wang, R. Yan // IEEE Transactions on Instrumentation and Measurement. - 2019. - V. 69. - № 4. -2019. - P. 1232-1230. DOI: 10.1109/TIM.2019.2910342

5. Escalona-Moran, M. A. Electrocardiogram Classification Using Reservoir Computing With Logistic Regression / M.A. Escalona-Moran, M. C. Soriano, I. Fischer, C.R. Mirasso // IEEE Journal of Biomedical and Health Informatics. - 2015. - V. 19. - № 3. - P. 892-898. DOI: 10.1109/jbhi.2014.2332001

6. Mondejar-Guerra V. Heartbeat classification fusing temporal and morphological information of ECGs via ensemble of classifiers / V. Mondejar-Guerra, J. Novo, J. Rouco, M.G. Penedo, M. Ortega. // Biomedical Signal Processing and Control. - 2019. - V. 47. - P. 41-48. ISSN 1746-8094, DOI: 10.1016/j.bspc.2018.08.007.

7. Huang, H. A new hierarchical method for inter-patient heartbeat classification using random projections and RR intervals / H. Huang, J. Liu, Q. Zhu, R. Wang, G.Hu // BioMedical Engineering OnLine. -2014. - V. 13. - № 1/90. - P. 26. DOI: 10.1186/1475-925x-13-90.

8. Zhang, Z. Heartbeat classification using decision level fusion / Z. Zhang, X. Luo // Biomedical Engineering Letters. - 2014. - V. 4. - № 4. - P. 388-395. DOI: 10.1007/s13534-014-0158-7.

9. Zhang, Z., Heartbeat classification using disease-specific feature selection / Z. Zhang, J. Dong, X. Luo, K.-S. Choi, X. Wu. // Computers in Biology and Medicine. - 2014. - V. 46. - P. 79-89. DOI: 10.1016/j .compbiomed.2013.11.019.

10. Mar, T. Optimization of ECG Classification by Means of Feature Selection / T. Mar, S. Zaunseder, J.P. Martinez, M. Llamedo, R. Poll // IEEE Transactions on Biomedical Engineering. - 2011. - V. 58. -№ 8. - P. 2168-2177. DOI:10.1109/tbme.2011.2113395.

11. de Chazal, P. Automatic classification of heartbeats using ECG morphology and heartbeat interval features / P. de Chazal, M. O'Dwyer, R.B. Reilly // IEEE Trans. Biomed. Eng. - 2004. - V. 51. - № 7. -P. 1196-1206.

12. Chen, S. Heartbeat classification using projected and dynamic features of ECG signal / S. Chen, W. Hua, Z. Li, J. Li, X. Gao // Biomedical Signal Processing and Control. - 2017. - Vol. 31. - P. 165173. DOI:10.1016/j.bspc.2016.07.010.

13. Llamedo, M. Heartbeat Classification Using Feature Selection Driven by Database Generalization Criteria / M. Llamedo, J.P. Martinez // IEEE Transactions on Biomedical Engineering. - 2011. - V. 58. -№ 3. - P. 616-625. DOI: 10.1109/tbme.2010.2068048.

14. Lin, C.-C. Heartbeat Classification Using Normalized RR Intervals and Morphological Features / C.-C. Lin, C.-M. Yang // Mathematical Problems in Engineering. - 2014. - P. 1-11. DOI: 10.1155/2014/712474.

15. Bazi, Y. Domain adaptation methods for ECG classification / Y. Bazi, N. Alajlan, H. AlHichri, S. Ma-lek // 2013 International Conference on Computer Medical Applications (ICCMA). - 2013. DOI: 10.1109/iccma.2013.6506156.

16. Liamedo, M. Analysis of Multidomain Features for ECG Classification / M. Liamedo, J.P. Martinez // Computers in Cardiology. - 2009. - V. 36. - P. 561-564.

17. Can Ye, B.V.K. Combining General Multi-class and Specific Two-class Classifiers for Improved Customized ECG Heartbeat Classification / B.V.K. Can Ye, V. Kumar, M. Travates Coimbra // 21st international Conference on Pattern Recognition (ICPR 2012), November 11-15. - 2012.

18. de Lannoy, G. Weighted Conditional Random Fields for Supervised Interpatient Heartbeat Classification / G. de Lannoy, D. Francois, J. Delbeke, M. Verleysen // IEEE Transactions on Biomedical Engineering. - 2012. - V. 59. - № 1. - P. 241-247. DOI: 10.1109/tbme.2011.2171037.

19. Park, K.S. Hierarchical support vector machine based heartbeat classification using higher order statistics and hermite basis function / K.S. Park, B. H. Cho, D.H. Lee, S.H. Song, J.S. Lee, Y.J. Chee, S.I. Kim // 2008 Computers in Cardiology. - 2008. DOI: 10.1109/cic.2008.4749019.

20. de Lannoy, G. Weighted SVMs and Feature Relevance Assessment in Supervised Heart Beat Classification / G. de Lannoy, D. François, J. Delbeke, M. Verleysen // Communications in Computer and Information Science - 2011. - P. 212-223. DOI: 10.1007/978-3-642-18472-7_17.

21. Gersch, W. Cardiac arrhythmia classification: A heart-beat interval-Markov chain approach / W. Gersch, D.M. Eddy, E. Dong // Computers and Biomedical Research. - 1970. - V. 3. - № 4. -P. 385-392. DOI: 10.1016/0010-4809(70)90043-1.

22. Moody, G.B. A new method for detecting atrial fibrillation using R-R-intervals / G.B. Moody, G. Mark Roger // Computers in cardiology. - 1983.

23. Tateno, K. Automatic detection of atrial fibrillation using the coefficient of variation and density histograms of RR and delta RR intervals / K. Tateno, L. Glass // Med. Biol. Eng. Comput. - 2001. - V. 39. -P. 664-671.

24. Фаинзильберг, Л.С. Технология построения телемедицинской системы на основе генеративной модели порождения искусственной ЭКГ реалистическом формы / Л.С. Файнзильберг // Клиническая информатика и телемедицина. - 2012. - Т. 8. - вып. 9. - С. 89-98.

25. Cai, H. Patient Identity Verification Based on Physiological Signal Fusion / H. Cai, K.K. Venka-tasubramanian // In:2017 IEEE/ACM International Conference on Connected Health: Applications, Systems and Engineering Technologies (CHASE).- IEEE, Philadelphia, PA. - 2017. - P. 90-95. DOI: 10.1109/CHASE.2017.65.

26. Buldakova, T.I. Data Protection During Remote Monitoring оf Person's State / T.I. Buldakova, D.A. Krivosheeva // In: Dolinina O., Brovko A., Pechenkin V., Lvov A., Zhmud V., Kreinovich V. (eds) ICIT 2019: Recent Research in Control Engineering and Decision Making. - Springer, Saratov, Russia. - 2019. - P. 3-14. DOI: 10.1007/978-3-030-12072-6_1.

27. Пермяков, С.А. Информационная модель амплитудно-фазового сопряжения ЭКГ на основе статистического подхода / С.А. Пермяков, A.A. Кузнецов, Л.Т. Сушкова, В.В. Чепенко // Инфоком-муникационные технологии. - 2017. - Т.15. - No3. - С. 261-268.

28. Barro, S. Grammatic representation of beat sequences for fuzzy arrhythmia diagnosis / S. Barro, R. Ruiz, J. Presedo, J. Mira // International Journal of Bio-Medical Computing. - 1991. - V. 27. - №34. - P. 245-259. DOI:10.1016/0020-7101(91)90066-n.

29. Uspenskiy, V. Diagnostic System Based on the Information Analysis of Electrocardiogram. / V. Uspen-skiy // In: Proceedings of MECO 2012. Advances and Challenges in Embedded Computing. Bar. -Montenegrin Association for New Technologies, Montenegro. - 2012. - P. 74-76.

30. Цетлин, М.Л. Прибор для регистрации и диагностики нарушения ритмической деятельности сердца / М.Л. Цетлин, С. Горохов, А.П. Матусова [и др.] // Известия высших учебных заведений. Радиофизика, Горький. - 1961. - Т. 4. - № 1. - C. 165-172.

31. Khalaydzhi, A. Quality Research of the Interval Cetlin Method as a Component of the Cyber-Physical System of Continuous Monitoring of the Human-Operator State by ECG Signals / A. Khalaydzhi // In: Kravets A.G., Bolshakov A.A., Shcherbakov M. (eds) Society 5.0: Cyberspace for Advanced Human-Centered Society. Studies in Systems, Decision and Control. - Springer, Cham. - 2021. - V. 333. -P. 14. DOI: 10.1007/978-3-030-63563-3_20.

32. Lin, Z. A study on clustering analysis of arrhythmias / Z. Lin, Y. Ge, G. Tao. // Journal of biomedical engineering. - 2006. - V. 23. - № 5. - P. 999-1002.

33. Bhoi, A.K. Arrhythmia and ischemia classification and clustering using QRS-ST-T (QT) analysis of electrocardiogram / A.K. Bhoi, K.S. Sherpa, B. Khandelwal // Cluster Computing. - 2017. - V. 21. -№ 1. - P. 1033-1044. DOI: 10.1007/s10586-017-0957-6.

34. Зимина, Е.Ю. Кластерный анализ кардиологических данных / Е.Ю. Зимина // Социальная статистика. - 2018. - Т. 15. - № 2.

35. Merino, M. Envelopment filter and K-means for the detection of QRS waveforms in electrocardiogram / M. Merino, I. M. Gómez, A. J. Molina // Medical Engineering & Physics. - 2015. - V. 37. - № 6. -P. 605-609. DOI: 10.1016/j.medengphy.2015.03.019.

36. Acar, B. Automatic ectopic beat elimination in short-term heart rate variability measurement / B. Acar, I. Savelieva, H. Hemingway, M. Malik // Computer Methods and Programs in Biomedicine. - 2000. -V. 63. - № 2. - P. 123-131. DOI: 10.1016/s0169-2607(00)00081-x.

37. Mordehay, A. Patient specific QRS complex classification for arrhythmia detection / A. Mordehay // Patent US9241650B2. - 2013.

38. Yeh, Y.-C. Analyzing ECG for cardiac arrhythmia using cluster analysis / Y.-C. Yeh, C. W. Chiou, HJ. Lin // Expert Systems with Applications. - 2012. - V. 39. - № 1. - P. 1000-1010. DOI: 10.1016/j.eswa.2011.07.101.

39. Моторина, С.В. Выбор метода кластеризации для алгоритма выявления мерцательной аритмии / С.В. Моторина, А.Н. Калиниченко, А.П. Немирко // Обработка и анализ биомедицинской информации. - 2015. - Т. 40. - №4.

40. Yeh, Y.-C. Analyzing ECG for cardiac arrhythmia using cluster analysis / Y.-C. Yeh, C. W. Chiou, HJ. Lin // Expert Systems with Applications. - 2012. - V. 39. - № 1. - P. 1000-1010. DOI: 10.1016/j.eswa.2011.07.101.

41. Haldar, N. A. H. Arrhythmia classification using Mahalanobis distance based improved Fuzzy C-Means clustering for mobile health monitoring systems / N.A.H. Haldar, F.A. Khan, A. Ali, H. Abbas // Neurocomputing. - 2017. - V. 220. - P. 221-235. DOI: 10.1016/j.neucom.2016.08.042.

42. Ceylan, R. A novel approach for classification of ECG arrhythmias: Type-2 fuzzy clustering neural network / R. Ceylan, Y. Ozbay, B. Karlik // Expert Systems with Applications. - 2009. - V. 36. - № 3.

- P. 6721-6726. DOI: 10.1016/j.eswa.2008.08.028

43. Kortirek, M. A new arrhythmia clustering technique based on Ant Colony Optimization / M. Korurek, A. Nizam // Journal of Biomedical Informatics. - 2008. - V. 41. - № 6. - P. 874-881. DOI: 10.1016/j .jbi.2008.01.014

44. Zhu, B. A Novel Automatic Detection System for ECG Arrhythmias Using Maximum Margin Clustering with Immune Evolutionary Algorithm / B. Zhu, Y. Ding, K. Hao // Computational and Mathematical Methods in Medicine. - 2013. - V. 1. - № 8. DOI: 10.1155/2013/453402

45. Lagerholm, M. Clustering ECG complexes using Hermite functions and self-organizing maps / M. Lagerholm, C. Peterson, G. Braccini, L. Edenbrandt, L. Sornmo // IEEE Transactions on Biomedical Engineering. - 2000. - V. 47. - № 7. - P. 838-848. DOI: 10.1109/10.846677.

46. Ozbay, Y. Integration of type-2 fuzzy clustering and wavelet transform in a neural network based ECG classifier / Y. Ozbay, R. Ceylan, B. Karlik // Expert Systems with Applications. - 2011. - V. 38. - № 1.

- P. 1004-1010. DOI: 10.1016/j.eswa.2010.07.118.

47. Менлитдинов, А.С. Алгоритм анализа сердечных аритмий с использованием лингвистического и секвенционального анализа и алгоритма кластеризации COBWEB / А.С. Менлитдинов, М.А. Барков, А.В. Коробейников // Интеллектуальные системы в производстве. - 2013 - Т. 21. -№ 1

48. Wang, H. Optimal k-means Clustering in One Dimension by Dynamic Programming Ckmeans.1d.dp / H. Wang, M. Song. // The R Journal. - 2011. - V. 3. - № 2. - P. 29-33. DOI: 10.32614/RJ-2011-015.

49. Gr0nlund, A. Fast Exact k-Means, k-Medians and Bregman Divergence Clustering in 1D / A. Gron-lund, K.G. Larsen, A. Mathiasen, J.S. Nielsen, S. Schneider, M. Song // Computer Science, Mathematics. - ArXiv. - 2017. - V. abs/1701.07204. - P. 16.

Дата поступления в редакцию: 17.12.2020

A.K. Khalaydzhi1, I.B. Muchnik2

METHODS OF CLASSIFICATION OF ARRHYTHMIAS BASED ON ENCODING SEQUENCES OF RR-INTERVALS OF ECG SIGNAL

1Bauman Moscow State Technical University, Moscow 2Rutgers, The State University of New Jersey, New Jersey

Purpose: The paper proposes new method of classification of arrhythmias based on linguistic representation of the only feature from ECG signal - durations of RR-intervals

Design / methodology / approach: The paper analyzes the Cetlin method structure as the representative interval methods, that allows to encode RR-intervals in real-time mode and analyze them via rule-based system to classify arrhythmias. Also adaptive 1D clustering is used to posterior encode sequences of RR-intervals. Both of approaches are used to create linguistic feature representation of R-peak, that is further used to extend existing input feature space of the state-of-the-art classifier, based on the architecture of the ensemble of models on independent features sets. Findings: The results show that models, which use proposed linguistic features, reach better jk-index values as for individuals models, as for a final ensemble classifier. The best ensemble received value jk-index equals to 0.807, that is the best achieved result compared to existing state-of-the-art methods, which are not based on neural networks but using explicit R-peak features and follow AAMI recommendations and inter-patient paradigm of division MIT-BIH records for representation of the results.

Research limitations/implications: The proposed method, as well as the obtained results, such as a state-of-the-art model and the methods of RR-intervals encoding, can be actively used in telemedicine monitoring and arrhythmia detection systems.

Originality/value: The value of the methods is the new approach of classifying main arrhythmias types based on AAMI classification, as well the interpretable set of features of R-peak and ECG signal for specialists, and the state-of-the-art ensemble model performance, comparing to known approaches, which don't use neural networks that use raw signal as an input in favor to explicit R-peaks features.

Key words: RR-intervals encoding, ECG signal, linguistic feature representation of R-peak, adaptive 1D clustering, SVM, ensemble, inter-patient, MIT-BIH, jk-index.

i Надоели баннеры? Вы всегда можете отключить рекламу.