УДК 519.254
Н. В. Лукьянова, канд. техн. наук, Московский государственный индустриальный университет И. П. Полякова, д-р биол. наук, Т. Б. Феофанова, аспирант,
Научный центр сердечно-сосудистой хирургии им. А. Н. Бакулева РАМН
Диагностическая классификация данных поверхностного ЭКГ-картирования при помощи самоорганизующихся нейросетей
Ключевые слова: многоканальные сигналы ЭКГ, нейронные сети, обобщенный алгоритм Хебба, карты самоорганизации.
Key words: body surface ECG-mapping, neural networks, generalized Hebbian algorithm, self-organizing map.
В статье представлены нейросетевые модели для понижения размерности массива данных, полученных при многоканальной регистрации ЭКГ, выделения существенных признаков и последующей диагностической классификации. Для решения первой задачи применяется модель, основанная на алгоритме обучения без учителя. Для классификации сигнала используется нейронная сеть, основанная на алгоритмах самоорганизации. Проведена апробация предложенных моделей для определения локализации аномального пути проведения электрического импульса в сердце пациентов с синдромом предвозбуждения.
Введение
Широко известный метод кардиологической диагностики — электрокардиография — основан на регистрации электрической активности сердца в определенных точках на поверхности тела человека. Традиционно регистрируют 12 характерных кривых (из них шесть — в строго определенных точках на поверхности грудной клетки), получивших название электрокардиограммы (ЭКГ). Определенные временные участки ЭКГ соответствуют проявлению основных электрофизиологических процессов, происходящих в миокарде — активации (деполяризации) и процессам восстановления (реполяризации) в различных отделах сердца.
Изучение особенностей де- и реполяризации миокарда различных отделов сердца — важная составляющая кардиологической диагностики, основанная на том, что при различных заболеваниях
сердца форма ЭКГ существенно меняется. Однако хорошо известны неоднозначность, двусмысленность некоторых изменений ЭКГ [1, 2] и, как следствие, затруднения в интерпретации данных ЭКГ и сложность диагностики некоторых видов сердечной патологии.
В связи с этим большой интерес вызывает современная модификация электрокардиографии — многоканальная регистрация ЭКГ со всей поверхности грудной клетки, или поверхностное ЭКГ-картирование (ПК). Регистрация множественных отведений ЭКГ со всей поверхности грудной клетки является одним из наиболее информативных методов исследования электрической активности миокарда и позволяет получить максимальную информацию об особенностях электрического поля сердца в любой момент деполяризации и реполяри-зации сердечной мышцы.
В отличие от традиционной ЭКГ, здесь важна не только динамика потенциала во времени, но, в первую очередь, анализ интенсивности потенциалов в конкретный момент сердечного цикла в различных пространственных точках.
Для отображения полученных данных традиционно используют карты распределения кардиоэлек-трического потенциала на развертке поверхности торса с указанием анатомических ориентиров: изо-потенциальные карты в различные фазы сердечного цикла, изоинтегральные и разностные карты [3, 4].
Известно, что основной трудностью при анализе многоканальных сигналов является выделение существенных признаков исследуемого массива данных без потери информативности. В клинической практике поверхностные распределения или по-
Рис. 1
Результаты регистрации многоканальной ЭКГ: а — на развертке поверхности грудной клетки, разрезанной по правой заднеаксиллярной линии, с обозначенными среднестернальной ) и вертебральной линиями ( я ), показаны комплексы QRS ЭКГ в точках наложения 80 электродов; б — изоинтегральная карта на интервале QRS; В каждой точке регистрации рассчитывается интеграл под кривой ЭКГ на интервале QRS; линиями соединены точки с равными значениями площади; аббревиатура DIIM обозначает интервал сердечного цикла, на котором рассчитывалась площадь, здесь это соответственно интервал QRS (Depolarization IsoIntegral Map); максимальное и минимальное значения площади указаны также в цифровой форме
верхностные карты анализируются программными или визуальными методами, при этом учитывается только малая часть полученной информации, необходимая точность классификации не обеспечивается, и врачу часто бывает трудно уточнить подкласс уже установленного класса заболевания.
Для обработки многоканальных сигналов, как правило, используются статистические методы. Однако применение нейросетей на основе самоорганизации (или обучения без учителя) также позволяет эффективно обрабатывать сигнал. Модели нейросетей, обучаемые на основе принципа самоорганизации, хорошо отражают свойства биологических структур, что делает их более предпочтительными для обработки биологических сигналов. Такой подход был выбран нами для выделения существенных признаков и классификации данных поверхностного ЭКГ-картирования, проведенного в ходе обследовании кардиологических больных.
Дизайн исследования. Проанализированы данные обследования 40 пациентов с синдромом пред-возбуждения, это заболевание обусловлено наличием дополнительных аномальных путей проведения электрического импульса в сердце [2]. В исследовании участвовали данные пациентов с левой и правой локализацией аномального пути, установленной в ходе инвазивного электрофизиологического исследования сердца. Всем пациентам проведено ПК в покое с использованием электрокардиографической системы СаЫ1а§, которая обеспечивает синхронную запись 80 датчиков ЭКГ на поверхности всей грудной клетки. Анализировались данные, представленные в виде изоинтегральных карт или массивов значений интегралов, рассчитанных в каждой точке регистрации от кривой ЭКГ на интервалах 0И8, соответствующих активации миокарда желудочков сердца (рис. 1).
Основной сложностью при анализе многоканальных сигналов является выделение существенных признаков исследуемого массива данных без потери информативности. В представленной работе для этого использовался обобщенный алгоритм Хебба (ОНА) — нейросетевой аналог анализа главных компонент [5]. Применение данного алгоритма позволило выявить наиболее значимые признаки обрабатываемых сигналов и уже по ним провести классификацию.
Для определения принадлежности сигнала к той или иной группе использовались самоорганизующиеся карты Кохонена [5]. Основной целью карт самоорганизации является преобразование поступающих векторов сигналов, имеющих произвольную размерность, в одно- или двухмерную карту. При этом преобразование осуществляется адаптивно, в топологически упорядоченной форме. После окончания обучения самоорганизующихся карт Кохонена получается карта с разделением на области, где каждая область соответствует определенному классу.
Объем информации, полученной посредством многоканальной электрокардиограммы, велик, и большая ее часть не используется при постановке диагноза врачом. Применение нейросетей при обработке полученных данных позволит учесть наиболее важные характеристики ЭКГ и провести правильную классификацию имеющихся патологий.
Обобщенный алгоритм Хебба для анализа главных компонент
Главной задачей в статистическом распознавании является выделение признаков — процесс, в котором пространство данных преобразуется
в пространство признаков, теоретически имеющее ту же размерность, что и исходное пространство. Однако обычно преобразования выполняются так, чтобы пространство данных могло быть представлено сокращенным количеством «эффективных» признаков. Таким образом, остается только существенная часть информации, содержащейся в данных, т. е. множество данных подвергается сокращению размерности.
Предположим, что существует вектор х размерности т, который необходимо представить в виде I чисел, где I < т. Требуется выяснить, существует ли такое линейное преобразование Т, для которого обрезание вектора Тх будет оптимальным в смысле среднеквадратичной ошибки. При этом преобразование Т должно обладать малой дисперсией своих отдельных компонент; х — т-мерный случайный вектор, имеющий нулевое среднее значение. Пусть д — единичный вектор, на который проецируется вектор х. Эта проекция определяется следующим образом: А = хтд при ограничении || д || = (дтд)1/2 = 1.
Дисперсия А равна
О2 = Е[А2 ] = Е[(дтх)(хтд)] = дтЕ[ххт = дтКд.
Матрица К является матрицей корреляции случайного вектора х. Из предыдущего выражения видно, что дисперсия а2 проекции А является функцией единичного вектора и данную функцию можно представить как дисперсионный зонд:
¥(а) = а2 = дтКд.
Проделав необходимые выкладки, получаем совпадение собственных значений матрицы К и дисперсионного зонда:
УЦ) = 1 = 1, 2, ..., т.
= £ ад}.
Таким образом, собственные векторы матрицы корреляции К определяют единичные векторы представляющие основные направления, вдоль которых дисперсионный зонд принимает экстремальные значения, а собственные значения определяют экстремальные значения дисперсионного зонда уЦ).
Исходный вектор х может быть реконструирован в следующем виде:
т
х = Qa = £ а' д'.
1=1
Количество признаков, необходимых для эффективного представления данных, можно сократить, устранив те линейные комбинации, которые имеют малые дисперсии, и оставив те, чьи дисперсии велики. Если взять I наибольших собственных значений матрицы К, то можно аппроксимировать вектор х, отсекая члены разложения после 1-го слагаемого:
1=1
Вектор ошибки аппроксимации е равен разности между вектором исходных данных х и вектором
л
приближенных данных х :
:= х - х= £ Я' . 1 =1+1
(1)
Таким образом, для того чтобы обеспечить сокращение размерности входных данных, нужно вычислить собственные значения и векторы матрицы корреляции векторов входных данных, а затем ортогонально спроецировать эти данные на подпространство, задаваемое собственными векторами, соответствующими доминирующим собственным значениям этой матрицы [6].
Существует тесная взаимосвязь между поведением самоорганизующихся нейронных сетей и статистическим методом анализа главных компонент. Один линейный нейрон с хеббовским правилом адаптации синаптических весов [7] может быть преобразован в фильтр для выделения первой главной компоненты входного распределения. Линейная модель с одним нейроном может быть расширена до сети прямого распространения с одним слоем линейных нейронов с целью анализа главных компонент для входного сигнала произвольной размерности.
Рассмотрим т-мерное пространство. Вектор входного пространства и матрицу синаптических весов обозначим так:
х(п) = [Х1(га), Х2(п), ..., Хт(п)] ^(га) = ^(п), W2(n), ..., Wl(n)]
Т.
Т
В данном случае используется сеть прямого распространения, имеющая следующую структуру:
• все нейроны выходного слоя сети являются линейными;
• сеть имеет т входов и I выходов (т < I);
• обучению подлежит только множество синап-тических весов и!ц, соединяющих узлы Ь входного слоя с вычислительными узлами 1 выходного слоя (Ь = 1, 2, ..., т; ] = 1, 2, ..., I).
Теорема. Если элементы матрицы синаптических весов W(n) на шаге п = 0 принимают случайные значения, то с вероятностью «1» обобщенный алгоритм Хебба будет сходиться к фиксированной точке, а WT(n) достигнет матрицы, столбцы которой являются первыми I собственными векторами матрицы корреляции К, упорядоченными по убыванию собственных значений.
Данная теорема гарантирует нахождение обобщенным алгоритмом Хебба первых I собственных векторов матрицы корреляции К (в предположении, что соответствующие собственные значения отличны друг от друга). При этом важен факт,
что саму матрицу К не требуется вычислять: ее первые I собственных векторов вычисляются непосредственно на основании входных данных.
Выходной сигнал У-(п) нейрона ] в момент времени п определяется по формуле
т
У] (п) = X Ю)1 (п)х (п), ] = 1, 2, ..., I.
1=1
Синаптический вес ыц(п) настраивается в соответствии с обобщенной формой правила Хебба:
Ьшц (п) = п
У] (п)х^ (п) - У] (п) X (п)Уъ (п)
к=1
, (2)
где Ашц(п) — коррекция, применяемая к синапти-ческому весу ы-(п) в момент времени п; п — параметр скорости обучения; как правило, значение параметра п берут зависимым от времени:
П(п) =
п
Перепишем уравнение (2) в следующем виде: Аюц(п) = пУ](п) [хЬ(п) - Юц(п)У](п)],
]-1
где х'(п) = хь (п) - X ™ы (п)Ук (п)-
к=1
Запишем алгоритм в матричном представлении: Аw^(n) = ПУ](п) х'(п) - п У2 (п^- (п)], (3)
]-1
где х'(п) = х(п) -X wк (п)Ук (п).
к=1
Вектор х'(п) представляет собой модифицированную форму входного вектора. Основываясь на представлении (3), можно сделать следующее наблюдение: для первого нейрона (] = 1) сети прямого распространения х'(п) = х(п).
Как было показано выше, этот нейрон извлекает первую главную компоненту входного вектора х(п). Для второго нейрона (] = 2) сети можно записать:
х'(п) = х(п) - ^1(п)У1(п).
Поскольку первый нейрон уже извлек первую главную компоненту, второй нейрон видит входной вектор х'(п), из которого удален первый собственный вектор матрицы корреляции К. Таким образом, второй нейрон извлекает первую главную компоненту х'(п), что эквивалентно второй главной компоненте исходного входного вектора х(п).
Продолжая эту процедуру для оставшихся нейронов сети прямого распространения, получим, что каждый из выходов сети, обученный с помощью обобщенного алгоритма Хебба, представляет собой отклик на конкретный собственный вектор матрицы корреляции входного вектора, причем
отдельные выходы упорядочены по убыванию ее собственных значений.
Увеличение значения параметра п ведет к более быстрой сходимости и увеличению асимптотической среднеквадратичной ошибки.
Далее необходимо оценить количество главных компонент, требуемых для восстановления сигнала с минимальной среднеквадратичной ошибкой. Вектор ошибки аппроксимации е определяется по формуле (1). Однако алгоритм Хебба не позволяет найти ошибку таким образом, так как при обучении сети мы получаем только I собственных векторов. Поэтому найдем ошибку экспериментальным путем.
Возьмем в качестве обучающей выборки 100 сигналов ЭКГ. Обучим сеть для выделения I главных компонент. Полученные веса сохраним. Возьмем тестовую выборку — 100 сигналов ЭКГ. Найдем главные компоненты и восстановим по полученным данным исходный сигнал ЭКГ.
На рис. 2 приведен график зависимости средней ошибки восстановления сигнала от количества главных компонент для тестовой выборки (100 сигналов). Из графика видно, что 8-10 компонент достаточно для восстановления сигнала, и увеличение количества главных компонент существенного выигрыша не дает.
Пример восстановленного сигнала для одной, трех, пяти и семи компонент приведен на рис. 3, а—г. Из него видно, что с ростом количества главных компонент восстановленный сигнал приближается к исходному.
При небольшом количестве главных компонент (одна-три) разница между исходным и восстановленным сигналами заметна. Однако уже при пяти главных компонентах ошибка восстановления достаточно мала. Качество восстановленного сигнала для разных тестовых данных было также разным. Некоторые сигналы имели маленькую ошибку вос-
23456789 Количество собственных значений
10
Рис. 2
Зависимость средней ошибки восстановления сигнала от количества главных компонент
1
а) 0,25
0,20
0,15
0,10
0,05
0
-0,05 -0,10 -0,15 -0,20 -0,25
в) 0,25
0,20
0,15
0,10
0,05
0
-0,05 -0,10 -0,15 -0,20 -0,25
0
20
40
ссс 1 Идпа! - у»1и» -
/
-л
\
V
V
60
80
100
120
ЕСС 5 *1ф*п 1190*1 - •>*1и*« -
\
\
1
\ 1
\\ /
б)
0,25 0,20 0,15 0,10 0,05 0
-0,05 -0,10 -0,15 -0,20 -0,25
г)
0,25 0,20 0,15 0,10 0,05 0
-0,05 -0,10 -0,15 -0,20 -0,25
ЕСС 3 «10«П >вп*1 -
/
\\ /
V \
У
V
V
0
20
40
60
80
100
120
/г ЕСС 7 »1(»п | II И
\
Л
\
\ к
\
\
\
0
20
40
60
80
100
120
0
20
40
60
80
100
120
Рис. 3 | Пример сигнала, восстановленного по одной (а), трем (б), пяти (в) и семи (г) главным компонентам
становления уже при четырех-пяти главных компонентах, а некоторые давали большую погрешность и при 10 главных компонентах. В данном случае это свидетельствует о несовершенстве обучающей выборки.
В наших условиях для многоканальной регистрации ЭКГ используется 80 датчиков. Сигнал каждого из датчиков был подвергнут обработке обобщенным алгоритмом Хебба. Для каждого сигнала было выделено восемь главных компонент. Для последующей классификации использовался вектор, составленный из главных компонент всех 80 датчиков.
Классификация при помощи самоорганизующихся карт Кохонена
Алгоритм, ответственный за формирование самоорганизующихся карт, начинается с инициализации синаптических весов сети. После корректной
инициализации сети для формирования карты самоорганизации запускаются три основных процесса: конкуренции, кооперации и синаптической адаптации [8].
Сущность алгоритма самоорганизации, предложенного Кохоненом, состоит в простом геометрическом вычислении свойств хеббоподобного правила обучения и латеральных взаимодействий. Существенными характеристиками этого алгоритма являются следующие:
• непрерывное входное пространство образов активации, которые генерируются в соответствии с некоторым распределением вероятности;
• топология сети в форме решетки, состоящей из нейронов (она определяет дискретное входное пространство);
• зависящая от времени функция окрестности, которая определена в окрестности нейрона-победителя;
• параметр скорости обучения, для которого задается начальное значение и который постепен-
но убывает во времени, но никогда не достигает нуля.
Рассмотрим m-мерное пространство. Вектор входного пространства и вектор синаптических весов обозначим так:
x(n) = [хг(га), x2(n), ..., xm(n)]T;
Wj(n) = [Wjiin), wj2(n), ..., Wjm(n)]T, j = 1, 2, ..., l,
где l — общее количество нейронов в решетке.
После инициализации весов выбираем вектор из входного пространства. Находим наиболее подходящий (победивший) нейрон на шаге n, используя критерий минимума евклидова расстояния (процесс конкуренции):
i(x) = arg min || x - wj ||, j = 1, 2, ..., l.
j
Затем корректируем векторы синаптических весов всех нейронов, используя следующую формулу (синаптическая адаптация):
wj(n + 1) = Wj(n) + n(n)hj, i(x)(n)(x - Wj(n)),
где hji(x) — функция окрестности с центром в победившем нейроне (процесс кооперации); n(n) — параметр скорости обучения;
dj ,i - n - n
hj, i(x)(n) = e2ö2(n), n(n) = noeT2 , о(n) = ÖQe Tl .
Параметр а называется эффективной шириной топологической окрестности. Этот параметр определяет уровень, до которого нейроны из окрестности победившего нейрона участвуют в обучении.
Процесс обучения можно условно разбить на два этапа: 1) этап самоорганизации; 2) этап сходимости. На 1-м этапе происходит топологическое упорядочение векторов весов. В начале этого этапа функция окрестности hj, i(x) должна охватывать практически все нейроны сети и иметь центр в победившем нейроне. К концу 1-го этапа hj, i(x), скорее всего, сократится до малого значения и будет содержать в себе только ближайших соседей победившего нейрона или только сам нейрон-победитель.
На 2-м этапе подстраивается карта признаков. Обычно количество итераций на данном этапе в несколько сотен раз превышает количество нейронов сети. Параметр скорости обучения n(n) во время 2-го этапа должен быть достаточно мал, но не приближаться к нулю. После завершения процесса сходимости вычисленная карта признаков отображает важные статистические характеристики исходного пространства [9].
Обозначим символом Ф нелинейное преобразование, которое отображает входное пространство X в выходное пространство A:
Ф : X ^ A.
Для данного входного вектора х алгоритм определит наиболее подходящий нейрон ¿(х) в выходном пространстве А, используя карту Ф. Вектор синаптических весов Wj нейрона ¿(х) можно рассматривать как указатель на этот нейрон из входного пространства X. Это значит, что синаптические элементы вектора Wj можно рассматривать как координаты образа нейрона Ь, проецируемые во входное пространство.
Для визуализации нейронам в двухмерной решетке назначаются метки классов в зависимости от того, как каждый из примеров возбудил конкретный нейрон в самоорганизующейся сети. В результате моделирования нейроны в двухмерной решетке разбиваются на некоторое количество когерентных областей (каждая область представляет собой обособленное множество непрерывных символов или меток) [10].
Результаты вычислительного эксперимента
Все данные делились на две группы. По данным первой группы происходило обучение, а по данным второй группы — тестирование полученных результатов. В процессе исследования было случайным образом сформировано 10 обучающих выборок. В качестве тестовых примеров были взяты данные, не вошедшие в обучающую выборку.
На рис. 4 приведен пример карты Кохонена, построенной для обучающей выборки из 20 многоканальных ЭКГ (10 — с левой локализацией и 10 — с правой). Светло-серая область соответствует левой локализации аномального пути, темная — правой
Рис. 4 Пример карты Кохонена
Таблица 1 Результаты классификации
Обучающая выборка
Левая локализация 10
Правая локализация 10
Тестовая выборка
Левая локализация 10
Правая локализация 10
Результат
Количество тестовых выборок 10
Количество правильно классифицированных локализаций в тестовой выборке 17-20
Средний процент правильно классифицированных локализаций 92,5 %
локализации. Более светлым цветом выделены нейроны-победители для примеров из обучающей выборки.
Для всех тестовых выборок был получен высокий процент правильной классификации (табл.). В большинстве случаев ошибки происходили на одних и тех же данных. Как правило, это были данные пациентов с серьезными сопутствующими заболеваниями сердца. Однако после включения этих данных в обучающую выборку правильная классификация достигала 100 %.
Заключение
Синдром предвозбуждения представляет собой достаточно простую электрофизиологическую модель, что объясняет столь хорошие результаты уже при малых выборках. Однако использование рас-
смотренных математических моделей для других классов сердечно-сосудистых заболеваний также показывает высокую чувствительность предлагаемых методов уже при небольших обучающих выборках.
Таким образом, самоорганизующиеся нейросети могут использоваться для выделения существенных признаков и последующей диагностической классификации многоканальных сигналов электрического поля сердца.
| Литература |
1. Теоретические основы электрокардиологии / Под ред. К. В. Нельсона и Д. Б. Гезеловица. М.: Медицина, 1979.
2. Морман Д., Хеллер Л. Физиология сердечно-сосудистой системы. СПб.: Питер, 2000.
3. Полякова И. П. Поверхностное картирование как метод диагностики нарушений ритма сердца // Клиническая аритмология. М.: Медпрактика-М, 2009. С. 157-175.
4. Полякова И. П. Диагностические возможности многоканального поверхностного ЭКГ-картирования // Креативная кардиология. 2007. № 1-2. С. 256-269.
5. Хайкин C. Нейронные сети. Полный курс. СПб.: Вильямс, 2006.
6. Oja E. Subspace methods of pattern recognition. Letchworth, England: Research study press, 1983.
7. Brawn, T. H. Hebbian synapses: Biophysical mechanisms and algorithms // Annual review of Neuroscience. 1990. Vol. 13. P. 475-511.
8. Sanger T. D. Optimal unsupervised learning in a single layer linear feedforward neural network // Neural networks. 1989. Vol. 12. P. 459-473.
9. Kohonen T. Self-organized formation of topologically correct feature maps // Biological Cybernetics. 1982. Vol. 3. P. 59-69.
10. Kohonen T. Exploration of very large databases by self-organized maps // International conference on neural networks. 1997. Vol. 1.
ПРИГЛАШАЕМ РЕКЛАМОДАТЕЛЕЙ К СОТРУДНИЧЕСТВУ
Рекламные статьи и модули печатаются за плату согласно расценкам (в рублях, включая НДС 18 %)
Черно-белые полосы Цветные полосы Скидки при единовременной оплате
1 полоса А4 (180 х 250 мм) 6 000 2-я стр. обложки и каждая стр. вкладки: А4 (195 х 280) А5(195 х140) 12 000 8 000 2-х публикаций 10%
1/2 полосы (180 х 125 мм) 3 500 3-я стр. обложки А4 (195 х 280) А5(195 х140) 10 000 5 000 3-х публикаций 15%
1/4 полосы (85 х 110 мм) 2 125 4-я стр. обложки: А4 (195 х 280) А5(195 х140) 10 000 5 000 4-х и более 20%
1/8 полосы (85 х 50 мм) 800