Математические структуры и моделирование 2004, вып. 14, с. 19-24
УДК 519.237.7
В.В. Гольтяпин
Q-ТЕХНИКА И ИТЕРАЦИОННЫЙ МЕТОД ГЛАВНЫХ ФАКТОРОВ В ДИАГНОСТИКЕ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ
Необходимость разбиения совокупностей объектов на однородные группы возникает в медицине, психологии, антропологии, лингвистике, археологии и т.д. При классификации объектов или индивидуумов практически отсутствует априорная информация о распределении измерений внутри классов. В то же время стандартные алгоритмы и статистические критерии, позволяющие производить оптимальное разбиение на классы, ориентируются на определенную априорную информацию.
Техника Q не требует априорной информации, она исходит из матрицы коэффициентов корреляций между индивидуумами [1]. Определяется простая факторная структура, и с помощью Q-техники выделяются группы, внутри которых индивидуумы тесно связаны между собой. Таким образом, факторы, которые выделяются с помощью Q-техники, определяют собой классы индивидуумов.
Алгоритм работы Q-техники:
1. Формируется матрица исходных данных Y типа таблицы объект- свойство размерности mxn, где m — количество параметров, и — количество индивидуумов.
2. Путем элементарного преобразования получаем из матрицы Y матрицу стандартизованных данных Z размерности mxn.
3. Вычисляем корреляционную R матрицу размерности пхп.
R = —-— ZZT. (1)
П — 1
4. Прямым итерационным методом вращения находим матрицу собственных значений А и матрицу собственных векторов U корреляционной матрицы R[2],
© 2004 В.В. Гольтяпин
E-mail: [email protected]
Омский государственный университет
5. Методом главных компонент (МГК) с использованием полученных выше матрицы собственных значений и матрицы собственных векторов получаем матрицу факторного отображения А размерности mxr, г — количество факторов (в Q-технике классов):
А = U • Л1/2. (2)
6. На этом шаге подвергнем матрицу А вращению, используя варимакс-критерий:
г т г т
s2 = л Е Е - :д Е(Е ь%)2 ^ шах’ (3)
Р= 1 3 =1 Р=1 3=1
где
bjP = cos р + sin (/?; bjq = — <2jp cos p) + sin (/;.
Под p понимается угол вращения ppq в плоскости векторов р и q. При ортогональном преобразовании в плоскости весовых нагрузок исходные элементы матрицы А переходят в новые элементы матрицы В [3]. В результате вращения получаем простую факторную структуру.
7. Оставляем те факторы, для которых ^1.
8. Проводим классификацию по следующему принципу: индивидуум принадлежит к тому фактору (классу), значения нагрузок которого больше. Примером может служить следующая оптимальная матрица весовых нагрузок (Таблица 1.).
Таблица. 1. Пример оптимальной матрицы весовых нагрузок, полученной в результате работы Q-техники.
ФИО индивидуума Фактор 1 (Класс 1) Фактор 2 (Класс 2)
Петров В. В. 0,044613 0,997282
Кузнецов А. К. 0,999520 0,028029
Логинов Л. К. 0,007446 0,998297
Корнеев Г. А. 0,999551 0,028257
Васильев П. Р. 0,020088 0,999692
Гуреев А. С. 0,999494 0,003940
Миронов Е. Ш. 0,003254 0,999240
Данным алгоритмом Q-техники производился анализ таблицы «объект-свойство» с объемом данных 475 индивидуумов. Измерялись антропометрические параметры — рост, вес индивидуумов, параметры сердечно-сосудистой системы — амплитудные и временные характеристики зубцов Р, R, Т, интервалы PQ, QT и длительность QRS.
20
В результате получена Q-структура, которая позволяет разделить генеральную совокупность на три независимых класса — нормостеники, гиперстеники, астеники, т.е. положение сердца в грудной клетке является основополагающим критерием разделения индивидуумов на классы.
Каждый из классов подвергнут обработке итерационным методом главных факторов (МГФ) с поиском оптимальной факторной структуры на группах условно здоровых индивидуумов. Задача заключалась в нахождении простой факторной структуры для каждого класса и построения факторных диаграмм как условно здоровых индивидуумов, так и индивидуумов с патологией сердечнососудистой системы.
Отправной точкой МГФ является — редуцированная корреляционная матрица, на главной диагонали которой стоят не единицы, а общности. В отличие от МГК в итерационном МГФ факторные нагрузки вычисляются последовательно друг за другом и число факторов ограничивается требованиями соответствующей проблемы. Итеративный процесс начинается с выбора вектора и^\ элементы которого являются первыми приближениями значений элементов собственных векторов. Вектор и^ перемножается с матрицей R по формуле (4). Разделив элементы результирующего вектора на наибольший по величине элемент этого же вектора (5), получаем новый вектор и^2\ с которым опять повторяется процедура (4). Верхние индексы в скобках означают здесь шаг итерации.
й*-1-* = R/,, • гЩ (4)
и(2) _ ^(i)jтах ду. (5)
и(*+і) = й(*)/шах(й?)). (6)
Процесс повторяется до тех пор, пока не добиваются сходимости к первому собственному значению Л і = max (й[к^) и соответствующему первому собственному вектору матрицы R^ . Формула (6) является общей для k-шагов. Итеративный процесс заканчивается, когда и с достаточной точностью
совпадают друг с другом. В качестве элементов вектора и^ используются величины, пропорциональные суммам элементов строк матрицы R^. Исходя из полученных значений элементов собственного вектора и собственного значения по формуле (7) вычисляются нагрузки первого фактора щ = (ац,..., аті), которые затем служат для определения R+ = щ • aj.
ciij Uij • у/Aj j у/U\j U2j "T • • • 4“ umj. (7)
Матрица R+ является матрицей коэффициентов корреляции, вычисленных с учетом только первого фактора. Остаточная матрица в общем виде определяется так: Ri = R^ — R+.
Если принимают решения вычислять вторые факторные нагрузки, то повторяется аналогичная процедура с Ri до получения второго собственного значения и второго собственного вектора. Процесс выделения факторов можно продолжить и далее. 21
21
Получение редуцированной матрицы осуществляется следующим образом. Принимается решение о выделении определенного числа факторов. Затем выбирают предварительные оценки общностей, в качестве которых могут быть использованы коэффициенты множественной корреляции (КМК). Значения КМК для каждой переменной вычисляются по формуле:
rh. = 1 - — ** rii ’
>-1
(8)
где гп - диагональный элемент матрицы R~y а г- - диагональный элемент матрицы R^. С помощью метода главных факторов из матрицы R^ выделяется г столбцов матрицы весовых нагрузок факторов. По полученной матрице вычисляются новые оценки общностей. Вновь выполняется процедура выделения г столбцов матрицы А с помощью МГФ по матрице R^ с новыми диагональными элементами. Процесс повторяется до тех пор, пока вычисленные диагональные элементы не перестанут изменяться от итерации к итерации. К полученной на последнем шаге матрице А применяют варимакс-критерий и получают оптимальную матрицу весовых нагрузок факторов (Таблица 2).
Таблица. 2. Оптимальная матрица весовых нагрузок факторов, характеризующих электрокардиодинамику.
Параметр Фактор 1 Фактор 2 Фактор 3 Фактор 4 Фактор 5
Р, мм -0,119437 0,045152 0,855707 -0,149865 -0,348385
Р, сек. -0,099755 0,085888 0,496010 -0,804163 0,135162
PQ, сек. -0,747951 0,224936 0,068552 0,358900 -0,336386
Q, мм 0,714988 -0,024886 0,615811 0,112613 0,019329
R, мм 0,348768 0,090260 0,782967 0,182725 0,040371
S, мм -0,093307 -0,149977 -0,215281 -0.852451 -0,012823
QRS, сек. 0,036936 -0,019913 0,138620 0,029331 -0,946879
ST, сек. -0,505610 0,506232 0,112452 0,522348 0,280279
Т, мм 0,781202 0,030311 0,119850 0,140477 -0,072253
Т, сек. 0,154955 -0,927417 -0,147925 -0,282713 -0,052830
RR, сек. -0,599627 -0,717035 0,042596 0,247799 0,200873
Следующий этап работы заключается в нахождении факторных значений индивидуумов по формуле:
F = ATR_1Z, (9)
где А - матрица весовых нагрузок, полученная итерационным методом главных факторов и подвергнутая варимакс-вращению, R - корреляционная матрица стандартизованных данных Z, Z - матрица нормированных данных, F - матрица значений искомых факторных значений размерности гхп.
На рис. 1. представлена факторная диаграмма здоровых индивидуумов, а на рис. 2 — факторная диаграмма индивидуумов, имеющих патологию сердечнососудистой системы. Факторные значения здоровых индивидуумов не превышают границы 2-й дисперсии. Факторные диаграммы индивидуумов с кардиопатологией имеют характерный вид. В этом случае факторные значения 2- го и 22
22
ЗНАЧЕНИЙ , ШКАЛА ФАКТОРНЫХ ЗНАЧЕНИЙ
Рис. 1. Факторная диаграмма относительно здоровых индивидуумов.
Рис. 2. Факторная диаграмма индивидуумов с патологией.
23
3- го факторов превышают границы 2- й дисперсии и достигают значений больше 8, разброс факторных значений 5-го фактора носит хаотичный характер и превышает норму на одну единицу. Одновременный анализ оптимальной матрицы весовых нагрузок и факторной диаграммы индивидуумов, имеющих патологию, показывает, что два фактора (2-й и 3-й) характеризуют данную сердечнососудистую патологию. Каждый из этих факторов имеет свое параметрическое наполнение и соответственно описывает определенный патологический процесс. Следовательно, по этим факторам можно не только проводить диагностику, но они являются определяющими при коррекции патологического состояния.
В результате анализа полученных Q-структур установлено, что положение сердца в грудной клетке является ведущим показателем, определяющим проекцию потенциала действия предсердий и желудочков на три плоскости: фронтальную, горизонтальную, сагиттальную.
Из всех рассмотренных и оцененных с помощью факторного анализа количественных показателей ЭКГ наиболее доказательными являются: отклонение электрической оси QRS, длины зубцов Р, Q, R, которые имеют свои четкие закономерности проявления. Полученные корреляционные взаимосвязи между параметрами ЭКГ, факторные структуры и факторные диаграммы для лиц с различными антропометрическими характеристиками позволяют повысить чувствительность и специфичность выявления ряда патологических состояний по данным ЭКГ-исследования, например постановку диагнозов: «гипертрофия левого желудочка», «гипертрофия правого желудочка».
Литература
1. Иберла И. Факторный анализ. М.: Статистика, 1980. 399 с.
2. Гольтяпин В.В., Топчий В.А., Терентьев С.А. Факторная модель гомеостаза для диагностики митрального стеноза различной степени // Микросенсорика. Сб. трудов НИИ ИСМЭ СО РАН. 2000. С. 95-101.
3. Харман Г. Современный факторный анализ. М.: Статистика, 1972. 486 с. 24
24