ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2023 Управление, вычислительная техника и информатика № 64
Tomsk StateUniversity Journalof Control and Computer Science
Научная статья УДК 51-76
doi: 10.17223/19988605/64/10
Вейвлеты Мейера с коэффициентом масштабирования N = 12 для классификации сигналов по высокочастотным признакам
Полина Николаевна Подкур1, Николай Константинович Смоленцев2
1 Кузбасский технический университет им. Т.Ф. Горбачева, Кемерово, Россия, [email protected] 2Кемеровский государственный университет, Кемерово, Россия, [email protected]
Аннотация. Строятся ортогональные вейвлеты Мейера с коэффициентом масштабирования N=12, которые используются для изучения вопроса о классификации сигналов по высокочастотным признакам. Предложенный подход применяется для классификации сигналов электрокардиограмм (ЭКГ). Получено разложение сигналов ЭКГ на отдельные компоненты. Найдены наиболее информативные частотные признаки, которые обеспечивают точность разделения классов более 95%.
Ключевые слова: вейвлеты Мейера; вейвлет-анализ; вейвлеты с коэффициентом масштабирования N; высокочастотные компоненты; классификация ЭКГ.
Для цитирования: Подкур П.Н., Смоленцев Н.К. Вейвлеты Мейера с коэффициентом масштабирования N = 12 для классификации сигналов по высокочастотным признакам // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2023. № 64. С. 102-112. doi: 10.17223/19988605/64/10
Original article
doi: 10.17223/19988605/64/10
Meyer wavelets with scaling factor N = 12 for classifying signals by high-frequency features
Paulina N. Podkur1, Nikolay K. Smolentsev2
1 T.F. Gorbachev Kuzbass State Technical University, Kemerovo, Russian Federation, [email protected] 2Kemerovo State University, Kemerovo, Russian Federation, [email protected]
Abstract. In this paper, orthogonal Meyer wavelets are constructed with a scaling factor N = 12, which are used to study the problem of signal classification by high-frequency features. The application of the proposed approach for classifying electrocardiogram (ECG) signals is given. Decomposition of ECG signals into separate components is obtained. The most informative frequency features are found, which provide an accuracy of class separation of more than 95%.
Keywords: Meyer wavelets; wavelet analysis; wavelets with scaling factor N; high-frequency components; ECG classification.
For citation: Podkur, P.N., Smolentsev, N.R. (2023) Meyer wavelets with scaling factor N = 12 for classifying signals by high-frequency features. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informatika - Tomsk State University Journal of Control and Computer Science. 64. pp. 102-112. doi: 10.17223/19988605/64/10
© П.Н. Подкур, Н.К. Смоленцев, 2023
Введение
Важной проблемой диагностики является проблема классификации сигналов по высокочастотным признакам. Такая проблема является актуальной в медицине при исследовании характеристик ЭКГ. Физиологическая и патологическая информация на электрокардиограмме (ЭКГ) имеет важное значение для диагностики заболеваний сердца. В настоящее время компьютерная диагностика сигналов ЭКГ привлекает все большее внимание исследователей. Автоматический анализ ЭКГ в основном включает шумоподавление сигнала, обнаружение волн и классификацию сердцебиения. Для изучения ЭКГ используются разнообразные статистические методы, разложение в ряд Фурье и анализ спектра. Более современные методы основаны на применении вейвлет-анализа, машинного обучения и нейронных сетей. Обзор и обширный список литературы можно найти в [1, 2]. В исследованиях обычно считается, что верхняя граничная частота нормального (без нагрузки) кардиосигнала, заметно влияющая на его форму, не превышает 100 Гц. Поэтому частоты ЭКГ выше 100 Гц считаются шумовыми, и их удаляют при помощи различных фильтров. Однако в настоящее время используются электрокардиографы высокого разрешения с частотой дискретизации до 20 кГц. Ясно, что при удалении «шумовых» высокочастотных колебаний ЭКГ теряется большая часть информации, зарегистрированная кардиографом высокого разрешения. Поэтому возникает вопрос о том, несет ли эта часть сигнала ЭКГ полезную информацию. Высокие частоты ЭКГ могут включать как аппаратные шумы, так и физиологические ритмы, которые являются следствием электрической активности сердца, поскольку они регистрируются датчиками, расположенными вблизи сердца. Эффективное сглаживание (шумоподавление) сигнала ЭКГ, а также выделение высокочастотных компонент возможно с использованием вейвлет-преобразования сигнала. Для каждой высокочастотной компоненты сигнала может быть вычислено много различных статистических, частотных и стохастических характеристик (признаков).
Актуальным является вопрос о том, какие из признаков несут наибольшую информацию и могут быть использованы в задаче о классификации сигналов ЭКГ. Если анализируемые данные состоят из нескольких классов (например, ЭКГ больных и здоровых пациентов), то нужно выбрать такое подпространство наиболее информативных признаков, которое эффективно с точки зрения разделимости классов. В работе [3] для уменьшения числа признаков и эффективного разделения классов использовалась процедура приведения признаков, основанная на методах статистической теории распознавания образов [4]. Однако методы, используемые в работе [3], не показывают, какие признаки являются наиболее значимыми. В данной работе для решения задачи классификации сигналов ЭКГ используется метод опорных векторов машинного обучения. Это позволяет самостоятельно выбирать и анализировать те признаки, которые имеют наибольшее значение для задач классификации и диагностики.
Использование степеней двойки для построения теории вейвлетов и при их использовании удобно во многих отношениях, хотя и не является обязательным. Можно вместо коэффициента масштабирования 2 использовать любое целое число Ы, большее единицы [5] (развитие этой темы см.: [6]). В работе [7] вейвлеты с коэффициентом N =3 использованы для анализа ЭЭГ. Вейвлет-анализ с коэффициентом масштабирования N > 2 имеет определенные преимущества, обеспечивая разделение сигнала на N частотных диапазонов уже при однократном вейвлет-разложении. Это особенно актуально, когда для записи сигнала используются приборы высокого разрешения. Например, для записи электрокардиограмм в настоящее время используются электрокардиографы с частотой дискретизации до 20 кГц. Как известно, вейвлеты Мейера выделяются тем, что они обеспечивают наиболее четкое разделение сигнала по частотным диапазонам и имеют быстро убывающие фильтры [5, 6]. В работе [8] предложено построение и использование аналогов вейвлетов Мейера с произвольным коэффициентом масштабирования N > 2.
В данной работе построены ортогональные вейвлеты Мейера с коэффициентом масштабирования N =12, и они применены для классификации сигналов ЭКГ только по высокочастотным признакам. Результаты показывают, что вейвлет-анализ с коэффициентом масштабирования больше двух позволяет получить новые информативные числовые характеристики ЭКГ, что подтверждает перспективность использования таких вейвлетов для анализа данных.
1. Предварительные сведения
Напомним основные положения ортогонального вейвлет-анализа с масштабным коэффициентом N> 2 (развитие этой темы см.: [6]). Функция ф(х) е ¿2(R) называется масштабирующей с коэффициентом N, если она удовлетворяет соотношению
ф( x) = VNZ h0MNx - n), (1)
neZ
где набор действительных чисел {h0} называется масштабирующим фильтром функции ф(х). Для такой функции ф(х) определяется частотная функция формулой
H » = -J= Z hy™- (2)
\ N neZ
Масштабирующей функции ф(х) соответствует N - 1 вейвлетов у1(х), ..., ^-1(х), определенных равенствами
wk (x) = VNZ hkn ф(Nx - n), k = 1,2,...,N -1, (3)
neZ
где коэффициенты разложения {h^}neZ называются фильтрами вейвлетов. В частотной области вейвлеты характеризуются своими частотными функциями
H (ю) 'TN 2 h
ke-na, k - 1,2,...,N -1.
(4)
В практических задачах мы имеем дело с цифровым сигналом, который представлен массивом
X = {xn}. Тогда его вейвлет-разложениеX^ {Ai, D1, D2, —, DN 1} производится по формулам [6]
a1, m — 2 hnx r
, m 2 hn x n+Nm neZ
dim = 2 hrkxn+Nm, k - 1,2,...,N -1 .
neZ
(5)
где {hn}ne Z и {h?k }neZ - фильтры вейвлетов 9(x) и y^(x), а черта сверху означает комплексное сопряжение. Таким образом, вместо X = {xn} мы получили N массивов: A1 = {a1m} - коэффициенты аппроксимации, и Dk — {dkm} - детализирующие коэффициенты, соответствующие вейвлетам y^(x).
Процедуру разложения можно повторить, применив ее к набору коэффициентов A1. Восстановление массиваX = {xn} по коэффициентам вейвлет-разложения {Ai, D1, D2, —, DN-1} производится следующим образом:
N-1
Xn - 2 hn-Nma1,m + 2 2 hn-Nmd1,m .
jk
n n-
meZ
k-1 meZ
(6)
2. Построение частотных функций и вейвлетов Мейера
Масштабирующая функция Мейера ф(х) определяется [5, 6] заданием ее преобразования Фурье равенством
2% 2%
ф(ю) -
1,
ю e
3 3
f
cos
-vi-31 ю | -1
2 I 2-
2- . . 4— < | ю | <—, 33
для остальных ю,
(7)
где у(х) есть вспомогательная функция, удовлетворяющая трем условиям: у(х) = 0 при х < 0, у(х) = 1 при х > 0 и х) + у(1 — х) = 1. Мы выбираем функцию у(х) в виде полиномиальной интерполяции v(х) = х4(35 - 84х+70х2 - 20х3) между 0 и 1 на промежутке [0, 1]. Такой выбор принят в МЛТЬЛБ.
Как известно, масштабирующая функция Мейера ф(х) является ^масштабирующей для любого натурального N >2 [8]. Частотная функция Н°(ю) для ф(х) имеет вид:
2л 2л
н V) =
1,
008
юе
/
V
л
— V 2
/
\
I 1
— | ю | -1
V 2л JJ
3Ы 3Ы_ 4л
2л
— < | ю | <—, 3ДТ
для остальных ю,
(8)
Вне промежутка [-л, л] функция Н°(ю) продолжается периодически. Коэффициенты {йп}
^масштабирующего соотношения (1) находятся из разложения в ряд Фурье функции Н°(ю).
Для построения вейвлетов Мейера с нечетным коэффициентом масштабирования N сначала находятся их частотные функции Нк(ю). При ю > 0 функция Нк(ю), к = 1, 2, ..., N - 2, имеет вид [8]:
Н к+ (ю) =
81П
1
( л ( 3Ы 3к -1
—V —ю--
2 V 2л 2
(л (3N 3(к +1)-008 — VI -ю--
2 V 2л 2
к л л (к + 1)л л
ю <---или ю >--1--,
N 3Ы N 3И'
кл л кл л
---<ю < — +-,
N 3N N 3N
к л л (к + 1)л л
— +-<ю <------,
N 3N N 3N
(к + 1)л л (к + 1)л л
------< ю <-— +-.
N 3N N 3N
(9)
На весь промежуток [-л, л] функции Н+(ю) продолжаются по четности или по нечетности в зависимости от четности к. Вне промежутка [-л, л] функции Нк+(ю) продолжаются по периодичности. Последняя частотная функция Н-1+(ю) на [0, л] определяется формулой
Н?-1(ю) =
. (л (3N
81П
—V -ю -
2 V 2л
3( N-1)4
юе
юе
(N-1)л__^ (N-1)л
ЗЙ' +
N (N - 1)л
N 3N
N 3N для остальных ю е [0, л].
(10)
Таким образом, искомые частотные функции вейвлетов у1(х), у2(х), ..., имеют вид: для
четных значений к функция Н(ю) является четной и на промежутке [0, л] определяется формулой (9), а для нечетных значений к функция Нк(ю) является нечетной и на промежутке [0, л] определяется формулой (9). Соответственно определяется и последняя частотная функция Н^-1(ю).
Масштабирующий фильтр {й°} и фильтры вейвлетов {йП}, к = 1, 2, ..., N - 1, находятся разложением в ряд Фурье частотных функций Н°(ю) и Нк(ю). Вейвлеты ^к(х) определяются своими фильтрами {кПк} по формуле (4).
В случае четного N > 2 можно представить число N в виде N = N0-2™, где N0 - нечетное, и использовать кратные коэффициенты масштабирования и классические вейвлеты Мейера с коэффициентом масштабирования 2. В частности, в данной работе мы будем использовать вейвлеты Мейера с коэффициентом 12 = 3-22.
3. Вейвлеты Мейера с коэффициентом масштабирования 12
Пусть Ок(ю), к = 0, 1, ..., N0 - 1 - частотные функции вейвлетов Мейера с нечетным N0 и Н1(ю), I = 0, 1, ..., М - 1 - частотные функции вейвлетов Мейера с четным М = 2™.
0
Если
Gk(ю)-^L2gkne-n, k -1,2,...,N0 -1, и H(ю)--1=2Ке-"ю, l - 0,1,2,...,M -1
N neZ
тогда, в соответствии с результатами [8], в качестве частотных функций вейвлетов ykl(x), l = 0, 1, ..., M - 1, k = 0, 1, ..., N0 - 1, с коэффициентом N00M возьмем функции
Hl(œ) = Gk(Mœ)Hl(œ).
Масштабирующие фильтры соответствующих вейвлетов ykl(x) находятся по формулам [6]
hk -2 gkmhlmM , l - 0,1,..., M-1, k - 0,1,..., Nо - 1.
meZ
Рассмотрим построение вейвлетов Мейера с кратным коэффициентом масштабирования, когда M = 2m = 4 и No = 3. Масштабирующая функция будет одна и та же ф(х), указанная в формуле (8).
В случае No = 3 масштабирующий фильтр {g0} находится из разложения в ряд Фурье функции
G0(®), определенной по формуле (8) при No = 3. Фильтры вейвлетов {g{gнаходятся разложением в ряд Фурье частотных функций G'(®) и G2(®), определенных на основе формул (9) и (10).
Построим Вейвлеты Мейера с коэффициентом масштабирования M = 4. Сначала напомним
вейвлеты Мейера для коэффициента N = 2 [5, 6]. Пусть H0(ю) = —^ hie~mm - частотная функция
V2 meZ
вейвлета Мейера фф) для N = 2. Тогда вейвлет y(x) находится из формулы у(ю) - е'т/2 Hс
ю
—+ - |ф
/,
ю
Соответствующая частотная функция имеет вид: Н:(ю) = в'аН0 (ю + %) , и ее фильтр {Ь^} находится
по формуле Н1п = (—1)И+1Л—и—1.
Частотные функции вейвлетов ум(х), р = 0, 1, q = 0, 1, с коэффициентом масштабирования 4 определим по формуле Н^ю) = №р(2ю)Н'1(ю). Здесь у°°(х) = ф(х) - масштабирующая функция Мейера.
Фильтры вейвлетов получаем по формуле hpq - 2 hphqn_2m, p - 0,1, q - 0,1.
meZ
Частотные функции вейвлетов уkpq(x), k = 0, 1, 2, p = 0, 1, q = 0, 1, с коэффициентом масштабирования 12 определим по формуле
Hpq(œ) = Gk(4œ)HX2œ)Hq(œ). Все эти операции и формулы (8)-(10) легко реализовать в системе Maple. Все фильтры вейвлетов для N = 12 находятся непосредственным численным интегрированием полученных частотных функций также в системе Maple. Данные фильтры имеют бесконечную импульсную характеристику,
поэтому для практического использования мы усекаем их, вычисляя 401 элемент:
1 200
Hkpq (ю) = 2 hkpпе-'"ю, k - 0,1,2, p, q - 0,1.
Л/12 n--200
Отбрасываемые члены имеют порядок не более 10-6, что обеспечивает необходимую для нас точность прямого и обратного вейвлет-преобразования и точность вычисления признаков ЭКГ
4. Вейвлет-анализ сигнала ЭЭГ
Основная операция дискретного вейвлет-преобразования с коэффициентом масштабирования N представляет собой разложение изучаемого сигнала X = {x„} на N наборов X^ {Ai, D1, D2, •••, D-1} массивов при помощи фильтров вейвлетов по формулам (5)
a1,m = 2 hnXn+Nm , d1,m = 2 hn X n+Nm , k = ^ 2, • • •, N - 1, neZ neZ
где Ai = ai,m - коэффициенты аппроксимации первого уровня разложения, и Dk = {d} - детализирующие вейвлет-коэффициенты. При многоуровневом вейвлет-анализе процедура вейвлет-разложения
применяется многократно к массивам коэффициентов аппроксимации. Восстановление первоначального сигнала производится последовательно в обратном порядке. Если мы применим процедуру восстановления только к одному набору коэффициентов Вк, когда все остальные коэффициенты состоят из нулей, то получим часть сигнала, соответствующую одному набору коэффициентов. Будем называть такую часть компонентой сигнала и обозначать ее символом ЯесБк.
Сумма всех компонент сигнала ЯесА 1, ЯесБ1, ЯесБ2, ..., Яес^-1 и равна исходному сигналу X, и мы получаем разложение X на высокочастотные компоненты и сглаженную часть ЯесА 1:
X = ЯесА1 + ЯесБ1 + ... + Яес^-1.
Будем считать, что все компоненты здесь упорядочены по частоте, т.е. ЯесА1 - это сглаженный сигнал, самая низкочастотная компонента, а Яес^-1 - самая высокочастотная часть (рис. 1).
Рис. 1. График сглаженного сигнала ЭКГ и графики спектров мощности компонент сигнала ЭКГ
(по горизонтали отсчеты в Гц) Fig. 1. Graph of the smoothed ECG signal and graphs of power spectra of the ECG signal components (Frequency scale in Hz along the horizontal axis)
Описание признаков. Для каждой высокочастотной компоненты разложения RecDk может быть вычислено много различных статистических, частотных и стохастических характеристик: индекс Хёрста; показатели мультифрактальности; энтропия коэффициентов разложения и частотного спектра; основные частоты, их средние значения. Напомним определения перечисленных параметров.
Параметр Хёрста H сигнала X = {x„} представляет собой меру склонности процесса к трендам и показывает наличие в сигнале дробного броуновского движения с параметром Хёрста H. Дробное броуновское движение x(t) представляет собой непрерывный гауссовский процесс, зависящий от параметра Хёрста 0 < H < 1, когда дисперсия D приращений определяется выражением D[x(t) - x(s)] =
= vjt - s|2H, где v - положительная константа. В MATLAB параметр Хёрста вычисляет функция wfbmesti. Она дает три разные оценки параметра Хёрста H.
Мультифрактальный анализ стал широко использоваться для обработки медико-биологических процессов после публикации в 1999 г. в журнале "Nature" работы по мультифрактальному описанию сердечного ритма [9]. Напомним основные понятия [10]. Регулярность по Гёльдеру является наиболее широко используемым понятием поточечной регулярности. Пусть fx) - локально ограниченная функция, а > 0 и xo - некоторая точка. Будем говорить, что f 6 Са(хо), если существуют константа C > 0 и многочлен (Тейлора) P степени deg(P) < а, такие что
fx) - P(x - Xo)| < C| x - Xo|a в окрестности точки xo. Показатель Гёльдера функции fx) в точке х0 равен
Hf(xo) = sup{a : f 6 Ca(xo)}.
Если Hf(xo) < 1, то функция недифференцируема в точке xo и P(x - xo) = f xo) . В этом случае показатель степени описывает негладкость функции в точке. Мультифрактальный анализ становится актуальным, когда множество точек с одинаковыми показателями Гёльдера достаточно большое. Обозначим Ef(H) = {x : Hf(x) = H} множество точек, обладающих одинаковой регулярностью H по Гёльдеру. Такие множества образуют спектр фрактальности. Обозначим df(H) хаусдорфову размерность множества Ef(H). Если Ef(H) ф 0, то 0 < df(H) < 1. Спектр является фрактальным, если o < df(H) < 1 для некоторого H, и мультифрактальным, если то же самое верно для разных значений H. Значения df(H) для разных значений H образуют спектр сингулярности. Таким образом, спектр дает нам характеристику глобального распределения показателей Гёльдера и фрактальных свойств исследуемых сигналов.
Функция MATLAB [dH,H] = dwtleader(x) вычисляет спектр сингулярности, dH, и показатели Гёльдера H для одномерных вещественных данных x. Спектр сингулярности и показатели Гёльдера возвращаются этой функцией как векторы из 11 элементов.
Стандартное отклонение сигнала X = {xn} вычисляет функция std MATLAB.
Энтропия Шеннона (вычисляется функцией wentropy) характеризует разброс значений сигнала X = {xn} и определяется формулой E(X) = xf ln(xf) .
Дискретное преобразование Фурье сигнала X = {xn} вычисляется функцией MATLAB С = fft(X). Поскольку значения {сm} могут быть комплексными, представляет интерес спектр мощности частот (частотный спектр), вычисляемый по формуле
| с |2
Pm = L-rn-L, m = о, i......
m L
где L - длина массива. Вследствие симметричности график спектра мощности Pm обычно изображают для значений m в диапазоне от 0 до середины L/2.
Как видно на рис. 1, частотные спектры компонент сигнала ЭКГ достаточно хорошо локализованы при использовании вейвлетов Мейера и у них имеются явно выделяющиеся «основные» частоты. Мы рассматриваем как основные 10 частот с наибольшей мощностью. Среднее арифметическое этого набора частот компоненты RecDk обозначим FrMeank.
Пусть Rangek - набор основных (десяти) частот. Длину частотного промежутка, где расположены основные частоты компоненты RecDk, будем обозначать символом LRangek.
Определим также взвешенное среднее значение FrPMeank основных частот по формуле
P
FrPmeank = £5 • ps, ps ==---, k = 0,1,..., N -1
-eRangek £ieRangek P
Вычисление признаков. Кардиосигнал регистрировался по восьми общепринятым каналам: L - левая рука (+) и правая рука (-), F - левая нога (+) и правая нога (-), и шесть грудных отведений, обозначаемых С1-С6. Из данных восьми каналов L, F, C1, C2, C3, C4, C5, C6 кардиографа образуются 12 так называемых стандартных отведений: I, II, III, aVR, aVL, aVF, V1, V2, V3, V4, V5, V6 по
формулам: I = L, II = F, III = F - L, aVR = -(L + F)/2, aVL = L - F/2, aVF = F - L/2, Vi = Ci - (L + F)/3, i = 1, 2, ..., 6.
Для разложения сигнала и восстановления его компонент созданы m-функции dmey12.m и idmey12. m в MATLAB в соответствии с формулами (5) и (6). Фильтры разложения и восстановления занумерованы по возрастанию частоты (см. рис. 1). Для каждого из указанных выше 12 отведений произведено вейвлет-разложение с использованием вейвлетов Мейера с коэффициентом масштабирования 12. В качестве высокочастотных взяты компоненты сигнала, соответствующие коэффициентам D1, D2, ■••, D11 (см. рис. 1). Компонента RecAi соответствует сглаженной части сигнала и поэтому не будет рассматриваться, поскольку нас в данной работе интересуют только высокочастотные характеристики сигнала ЭКГ.
Для каждой высокочастотной компоненты RecDk разложения каждого канала вычислены следующие характеристики:
• индекс Хёрста исходного сигнала;
• показатели мультифрактальности исходного сигнала;
• стандартное отклонение коэффициентов разложения;
• энтропия коэффициентов разложения;
• энтропия частотного спектра компоненты;
• стандартное отклонение частотного спектра компоненты;
• средняя частота компоненты;
• средняя взвешенная частота компоненты;
• длина основного диапазона частот компоненты.
Были проанализированы ЭКГ трех групп:
1) ЭКГ 12 пациентов возраста от 22 до 40 лет, которые не имели жалоб на проблемы с сердцем;
2) ЭКГ 9 пациентов возраста от 43 до 70 лет, имеющих различные заболевания сердца (гипертрофия миокарда, рубцы з/нижней стенки VS, изменения миокарда п/перегородочной области, блокада передне-верхней ветви левой ножки пучка Гиса);
3) ЭКГ 13 пациентов возраста от 44 до 66 лет, недавно перенесших инфаркт миокарда (ИМ) и находящихся на лечении.
При классификации указанным группам присвоены номера классов 1, 2 и 3 соответственно. Для каждого пациента были использованы 24 записи ЭКГ длительностью по 8 с (по две 12-канальных записи), снятые на кардиографе высокого разрешения (1 028 отсчетов в секунду) «Кардиотехника - 4000, EcgShell».
В результате для каждой записи ЭКГ получается 102 значения признаков. Для классификации по группам пациентов результаты вычислений сформированы в массивы признаков и сохранены функцией writetable как Data_12, Data_13, Data_23 в формате CSV и в соответствии с тем, какие группы пациентов мы хотим различить. Например, массив Data_13 содержит признаки ЭКГ здоровых пациентов (группа 1) и перенесших инфаркт миокарда (группа 3). Его размеры 600 х 102. Это числовые массивы, имеющие поля, обозначающие признаки. Первый столбец имеет поле ' Class ' и содержит числовые значения 1, 2 или 3 классов наших пациентов. Следующие столбцы содержат значения признаков ЭКГ. Например, три следующих столбца имеют поля Hest_1, Hest_2, Hest_3 и содержат показатели трех индексов Хёрста. Для классификации можно использовать все перечисленные числовые признаки или выбрать некоторую их часть и анализировать их влияние на разделение классов.
Каждый массив признаков Data_12, Data_13, Data_23 разбивается на два: один для обучения, другой для тестирования. Для тестирования случайным образом выбирается примерно 25% от каждой группы пациентов. Например, массив Data_23 разбивается на Train_23.csv и Test_23.csv размерами 456 х 102 и 144 х 102 соответственно.
Классификация. Для классификации используется метод опорных векторов (SVM) пакета scikit-learn для машинного обучения в Python. Программа совершенно простая и легко позволяет выбирать отдельные признаки и проверять, насколько они хороши для разделения классов.
import pandas as pd
from sklearn import svm
predmodel=svm.LinearSVC()
train = pd.read csv("Train 23.csv")
test = pd.read csv("Test 23.csv")
columns target=['Class']
columns_train=[FrP_Mean_6, FrP_Mean_7, HEST_1, Sing_3] #0,958
train y=train[columns target]
train x=train[columns train]
test y=test[columns target]
test x=test[columns train]
predmodel.fit(X train,Y train)
predmodel.score(X test,Y test)
Последовательно выбирались все признаки вместе, по отдельности и в комбинациях с другими признаками. В таблице представлены результаты проверки признаков на информативность для двух классов: здоровых (класс 1) и имеющих нарушения работы сердца (класс 2). Таблица состоит из трех частей. Первая часть соответствует вейвлет-разложению с коэффициентом N = 12. Каждая часть содержит три столбца. В первом столбце представлены результаты разделимости классов, когда выбираются все значения одного признака. Во втором столбце указано максимальное значение информативности одного признака, а в третьем - номер признака из его группы, при котором достигается это максимальное значение. Напомним, что мы имеем три значения индекса Хёрста, 22 показателя муль-тифрактальности (11 значений спектра сингулярности и 11 показателей Гёльдера) и по 11 высокочастотных признаков компонентов вейвлет-разложения с коэффициентом N = 12. Результаты вычислений показывают, что наиболее информативными являются частотные признаки для компоненты 6. Они обеспечивают точность разделения классов более 95%.
Показатели признаков разделимости групп 1 и 2
Признак С коэффициентом 12 Пакетное, уровня 3 Пакетное, уровня 4
Все значения Одно (max) Номер признака Все значения Одно (max) Номер признака Все значения Одно (max) Номер признака
Индекс Хёрста 0,658 0,658 3 0,658 0,658 3 0,658 0,658 3
Спектр сингулярности 0,683 0,7 7, 8 0,692 0,683 7, 8 0,692 0,683 7, 8
Показатель Гельдера 0,758 0,7 2, 3, 4 0,742 0,7 2, 3, 4 0,742 0,7 2, 3, 4
Энтропия коэффициентов 0,575 < 0,6 все 0,667 < 0,6 все 0,783 < 0,6 все
Стандартное отклонение коэффициентов 0,591 < 0,6 все 0,742 < 0,6 все 0,81 0,65 15
Энтропия частотного спектра 0,767 0,658 2 0,633 < 0,6 все 0,4 0,692 2
Стандартное отклонение частотного спектра 0,767 < 0,6 все 0,608 < 0,6 все 0,917 0,733 2
Средняя основная частота 0,9 0,817 6 0,917 0,842 2 0,9 0,683 3
Средняя взвешенная частота 0,958 0,908 6 0,958 0,933 6 0,867 0,808 2
Длина диапазона основных частот 0,742 0,708 5 0,75 0,742 1 0,65 0,716 3, 4
Отметим результаты, получающиеся комбинациями признаков, которые показывают точность разделения классов 1 и 2 до 95,8%. Это, например, следующие группы признаков:
[FrP_Mean_6, FrP_Mean_7, HEST_1, Sing_3], [FrP_Mean_7, FrP_Mean_6, HEST_1, Sing_3', Fr_Range_5], [FrP_Mean_6, FrP_Mean_7, Fr_Mean_7, HEST_1, Sing_3, Fr_Range_5].
Для других пар классов пациентов результаты аналогичные. Для классов здоровых (класс 1) и пациентов, перенесших ИМ и находящихся на лечении (класс 3) наиболее оптимальным являются следующие наборы признаков, обеспечивающих точность 88,2%.:
[FrP Mean 6, HEST 1], [FrP Mean 6, Fr Mean 6, HEST 1].
Для классов пациентов, имеющих нарушения в работе сердца (класс 2) и пациентов, перенесших ИМ (класс 3), наиболее оптимальным является следующий набор признаков:
[FrP_Mean_4, FrP_Mean_6, FrP_Mean_7, HEST_1, Sing_3], и он обеспечивает точность 79,2%.
Для сравнения проведены вычисление признаков и исследование их значений на разделимость групп пациентов в случае пакетного [6] разложения сигнала, т.е. при разложении в полное дерево глубины 3 и глубины 4.
Вычисление признаков при пакетном разложении 3-го уровня. Рассматриваются высокочастотные признаки компонент сигнала RecDk, к = 1, 2, ..., 7, соответствующих коэффициентам пакетного разложения [5, 6] в терминальных узлах дерева разложения (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) и (3,7). Компонента, соответствующая узлу (3,0), представляет сглаженный сигнал, и мы ее не учитываем при вычислении признаков. Остается 7 высокочастотных компонент для каждого канала ЭКГ и 74 признака для каждого канала ЭКГ. Результаты приведены в таблице.
Наиболее информативными являются частотные признаки компонент, соответствующих узлам (3,2) и (3,6). Следующая комбинация ['FrP Mean 2','FrP Mean 6'] показывает точность 96,7% разделения классов 1 и 2.
Вычисление признаков при пакетном разложении 4-го уровня. Рассматриваются высокочастотные признаки RecDk, к = 1, 2, ..., 15, соответствующие коэффициентам разложения в терминальных узлах дерева разложения (4,0), (1,1), ., (4,15). Компонента, соответствующая узлу (4,0), представляет сглаженный сигнал, и мы ее не учитываем при вычислении признаков. Остается 15 высокочастотных компонент для каждого канала ЭКГ и 130 признаков. Результаты приведены в таблице. Наиболее информативными являются частотные признаки компонент, соответствующих узлам (4,2) и (4,3).
Заключение
В данной работе построены вейвлеты Мейера с коэффициентом масштабирования N = 12 и показано их применение в задаче классификации сигналов. Использование кратных коэффициентов масштабирования N > 12 дает большую гибкость при выборе количества компонент разложения сигнала по сравнению с пакетными разложениями. В работе показана возможность классификации электрокардиограмм здоровых и больных пациентов только по высокочастотным компонентам сигнала ЭКГ. Найдены признаки высокочастотных компонент ЭКГ, наиболее информативные для задач классификации и диагностики. К таким признакам относятся значения основных частот компонентов сигнала ЭКГ. Они обеспечивают точность классификации более 95% для групп здоровых и больных пациентов. Самым информативным признаком является средняя основная частота диапазона ЭКГ от 250 до 300 Гц. Данная частота для группы здоровых пациентов составляет в среднем 268,2 Гц, для пациентов с нарушениями работы сердца - 282,3 Гц, а для пациентов, перенесших инфаркт миокарда и находящихся на лечении, - 277,7 Гц. Таким образом, данные частоты и другие информативные признаки имеют диагностическое значение и могут быть использованы при классификации и диагностике как новые дополнительные характеристики ЭКГ.
Список источников
1. Li W. Wavelets for Electrocardiogram: Overview and Taxonomy // IEEE. 2019. V. 7. P. 25627-25649.
2. Павлов А.Н., Храмов А.Е., Короновский А.А., Ситникова Е.Ю., Макаров В.А., Овчинников А.А. Вейвлет-анализ в нейро-
динамике // Успехи физических наук. 2012. Т. 182, № 9. С. 905-939.
3. Podkur P.N., Smolentsev N.K. About classification of ECG signals based on high-frequency wavelet-components // Science Evo-
lution. 2016. V. 1, № 1. P. 63-71.
4. Фукунага К. Введение в статистическую теорию распознавания образов. М. : Наука, 1979. 368 с.
5. Добеши И. Десять лекций по вейвлетам. М. ; Ижевск : РХД, 2001. 464 c.
6. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB. М. : ДМК Пресс, 2019. 628 с.
7. Подкур П.Н., Смоленцев Н.К. Вейвлет-анализ ЭЭГ с коэффициентом масштабирования 3 // Южно-Сибирский научный
вестник. 2020. Вып. 6 (34). С. 56-61.
8. Подкур П.Н., Смоленцев Н.К. Вейвлеты Мейера с кратными коэффициентами масштабирования N > 2 // Вестник Томско-
го государственного университета. Управление, вычислительная техника и информатика. 2022. № 60. С. 84-92.
9. Ivanov P.Ch. et al, Multifractality in human heartbeat dynamics // Nature. 1999. V. 399. P. 461-465.
10. Figliola A. et al. About the Effectiveness of Different Methods for the Estimation of the Multifractal Spectrum of Natural Series // International Journal of Bifurcation and Chaos. 2010. V. 20, № 2. P. 331-339.
References
1. Li, W. (2019) Wavelets for Electrocardiogram: Overview and Taxonomy. IEEE. 7. pp. 25627-25649. DOI: 10.1109/ACCESS.
2018.2877793
2. Pavlov, A.N., Khramov, A.E., Koronovsky, A.A., Sitnikova, E.Yu., Makarov, V.A. & Ovchinnikov, A.A. (2012) Wavelet analysis
in neurodynamics. Uspekhi fizicheskikh nauk. 182(9). pp. 905-939.
3. Podkur, P.N. & Smolentsev, N.K. (2016) About classification of ECG signals based on high-frequency wavelet-components.
Science Evolution. 1(1). pp. 63-71.
4. Fukunaga, K. (1972) Introduction to Statistical Pattern Recognition. New York: Academic Press.
5. Daubechies, I. (1992) Ten Lectures on Wavelets. SIAM.
6. Smolentsev, N.K. (2019) Osnovy teorii veyvletov. Veyvlety v MATLAB [Fundamentals of the theory of wavelets. Wavelets
in MATLAB]. Moscow: DMK Press.
7. Podkur P.N. & Smolentsev N.K. (2020) Wavelet analysis of EEG with scaling factor 3. Yuzhno-Sibirskiy nauchnyy vestnik -
South-Siberian Scientific Bulletin. 6(34). pp. 56-61. DOI: 10.25699/T7719-3385-0014-J
8. Podkur, P.N. & Smolentsev, N.R. (2022) Meyer wavelets with multiple scale factors N > 2. Vestnik Tomskogo gosudarstvennogo
universiteta. Upravlenie, vychislitel 'naya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 60. pp. 84-92. DOI: 10.17223/19988605/60/9
9. Ivanov, P.Ch. et al (1999) Multifractality in human heartbeat dynamics. Nature. 399. pp. 461-465.
10. Figliola, A. et al (2010) About the effectiveness of different methods for the estimation of the multifractal spectrum of natural series. International Journal of Bifurcation and Chaos. 20(2). pp. 331-339. DOI: 10.1142/S0218127410025788
Информация об авторах:
Подкур Полина Николаевна - кандидат физико-математических наук, доцент Кузбасского технического университета им. Т.Ф. Горбачева (Кемерово, Россия). E-mail: [email protected]
Смоленцев Николай Константинович - доктор физико-математических наук, профессор Кемеровского государственного университета (Кемерово, Россия). E-mail: [email protected]
Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.
Information about the authors:
Podkur Paulina N. (Candidate of Physical and Mathematical Sciences, Associate Professor, T.F. Gorbachev Kuzbass State Technical University, Kemerovo, Russian Federation). E-mail: [email protected]
Smolentsev Nikolay K. (Doctor of Physical and Mathematical Sciences, Professor, Kemerovo State University, Kemerovo, Russian Federation). E-mail: [email protected]
Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests.
Поступила в редакцию 16.05.2023; принята к публикации 04.09.2023 Received 16.05.2023; accepted for publication 04.09.2023