УДК 616.1-7:51
Микшина В.С., Павлов С.И.
Mikshina V.S., Pavlov S.I.
СТИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СОСТОЯНИЙ ПАЦИЕНТА В КАРДИОЛОГИИ С ПРИМЕНЕНИЕМ ФАКТОРНОГО АНАЛИЗА МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ
DECREASE OF THE DIMENSION OF STATE-SPACE REPRESENTATION OF THE PATIENT'S CONDITIONS IN CARDIOLOGY USING THE FACTOR ANALYSIS OF PRINCIPAL COMPONENTS METHOD
Данная работа рассматривает порядок проведения факторного анализа с анализом главных компонент множества переменных, используемых для описания состояния пациента в кардиологии перед проведением операции аортокоронарного шунтирования.
This paper examines the procedure of factor analysis with principal components of variables used to describe the condition of the patient in cardiology prior coronary artery bypass surgery.
Ключевые слова: факторный анализ, уменьшение размерности, анализ скрытых зависимостей.
Key words: factor analysis, dimension reduction, analysis of hidden dependencies.
Спустя более пятидесяти лет после изобретения вычислительных машин, человечество использует их мощности повсеместно. Благодаря информационным технологиям, человек может обрабатывать миллионы операций в секунду для своих целей, причем они могут быть абсолютно разными. Одной из целей является улучшение качества медицинского обслуживания. Существует немало примеров использования информационных технологий в медицине, показавших себя как революционные идеи [2; 6; 9]. В данной работе речь идет о применении инструментов математической статистики, а именно факторного анализа для поддержки принятия решений врача-кардиолога при подготовке к одной из наиболее распространенных операций аортокоронарного шунтирования (АКШ) [6; 7].
Организм человека является сложнейшей биодинамической системой с большим количеством переменных, характеризующих его состояние. Диагностируя пациентов, каждый врач выбирает показатели, максимально описывающие состояние этой системы. При подготовке к операции АКШ кардиохирургу приходится оценивать около тридцати показателей. Особую сложность на данном этапе представляет тот факт, что некоторые из этих показателей изменяются непрерывно (например, конечный диастолический размер в сантиметрах), а некоторые дискретно (степень регургитации митрального клапана от 0 до 4). Даже высококвалифицированному специалисту одновременно держать в голове такое количество показателей и анализировать их невозможно. Возникает необходимость введения некоего комплексного интегрального показателя, характеризующего состояние системы органов, а именно сердечно сосудистой системы (ССС) максимально полно.
Одно из решений данной задачи может быть получено с помощью применения факторного анализа для выявления скрытых связей между переменными. Факторный анализ является одним из методов уменьшения размерности фазового пространства состояний за счет нахождения линейных комбинаций исходных переменных. Каждая такая комбинация переменных является новым фактором:
^ = &Х Р2Х X 2 +... + Р„ X Х„ , (1)
где ^ новый фактор;
Р1зР2,...,РП - коэффициенты линейной комбинации (Р1зР2,... Р„ е Я);
Х1,X2,...,Хп - векторы.
В формуле (1) высокие значения коэффициентов Р (в дальнейшем - факторные значения) у переменных указывают на высокое влияние переменной в пределах нового фактора. В данной работе планируется провести анализ данных с помощью одного из методов факторного анализа, а именно анализ главных компонент. Данный метод заключается в поиске направления максимального изменения экспериментальных данных. В общем виде основные этапы проведения анализа будут следующие:
1) определение центра облака данных и перенос туда центра координат -центрирование (данное действие выполняется ввиду того, что используемый алгоритм не учитывает свободных членов);
2) далее, чтобы выровнять вклад разных переменных, производится нормирование (комбинация центрирования и нормирования называется автошкалированием, или 2-норма);
3) выбирается направление максимального изменения данных - это первая главная компонента;
4) если данные описаны не полностью, выбирается еще одно направление, перпендикулярное первому, так чтобы описать оставшееся изменение, и так далее пока не будет описан требуемый процент данных (в настоящей работе ограничимся следующим правилом: количество главных компонент достаточно для описания 80 % выборки называемым критерием доли воспроизводимой дисперсии).
На этом этапе метод анализа главных компонент заканчивается, как результат у нас имеется набор компонент , представляющих из себя линейную комбинацию начальных
переменных X., а также коэффициенты Рг., соответствующие каждой переменной.
Перед проведением анализа следует убедиться в том, что все переменные являются количественными. Действительно, все переменные являются количественными, за исключением дихотомических признаков, если считать, что 0 и 1 являются граничными значениями интервала [0, 1], что допустимо при проведении факторного анализа. Порядковые переменные, которые так же изменяются скачкообразно (степень регургитации митрального клапана от 0 до 4), упорядочим в порядке (0, 1, 2, 3, 4) и присвоим им количественные значения. Стоит отметить, что данное преобразование является грубым приближением, так как в действительности разница между отсутствием и наличием регургитации митрального клапана выражается иначе, нежели 1 = 1 - 0. Данная проблема решается путем присвоения категориям весов, характеризующих отклонение от нормы (выражающееся в увеличении расстояния между категориями), значения весов планируется определять методами экспертной оценки [2; 3; 8].
На первом шаге исследования непрерывные переменные необходимо привести к виду, при котором функция распределения будет изменяться как и у дихотомических переменных, т.е. скачкообразно. Так выглядит функция распределения упорядоченных качественных переменных (порядковых переменных). Для дискретизации переменных можно воспользоваться методом группировки. Имеющиеся значения переменных относят к одной из категорий, каждая из которых соответствует определенному интервалу разбиения области изменения переменных от минимального до максимального значения. В настоящей работе количество категорий равно десяти. Минимальное и максимальное значение определенной переменной определяется из медицинских справочников [1].
Ь = (тах( X) - шт( X)) / к,
где Ь - интервал изменения переменной; к - количество категорий.
В табл. 1 представлены экспериментальные данные и результаты подготовки исходных данных для исследования, проводимого с помощью факторного анализа, полученные из медицинских карт историй болезни пациентов с диагностированной болезнью ССС медицинских учреждений города Сургута.
Таблица 1
Исходные данные для оценки состояния пациента в кардиологии
Фактор (переменная) Обозначение Шкала измерения Ед. изм. Среднее арифметическое значение (категориальное) Стандартное отклонение значения (категориальное)
1. Возраст Относит. г 6,341 1,293
2. Вес Х2 Относит. кг 5,500 2,140
3. Пол Хз Номинал. [0, 11 0,818 0,390
4. Сахарный диабет Х4 Номинал. [0, 11 0,227 0,424
5. Гипертоническая болезнь Х5 Номинал. [0, 11 0,795 0,408
6. Поражение брахио-цефального ствола Хб Номинал. [0, 11 0,045 0,211
7. Нарушения ритма сердца Х7 Номинал. [0, 11 0,023 0,151
8. Гипокинезы Х8 Номинал. [0, 11 0,500 0,506
9. Проходимость левой коронарной артерии (ЛКА) Х9 Относ. % 5,182 3,731
10. Проходимость ветви тупого края (ВТК) Х10 Относ. % 3,068 3,513
11. Проходимость передней межжелудочковой ветви (ПМЖВ) Х11 Относ. % 7,977 2,464
12. Проходимость огибающей ветви (ОВ) Х12 Относ. % 7,295 3,239
13. Проходимость правой коронарной артерии (ПКА) Х13 Относ. % 6,932 3,818
14. Проходимость задней межжелудочковой ветви (ЗМЖВ) Х14 Относ. % 1,432 1,897
15. Фракция выброса Х15 Относ. % 5,227 1,179
16. Конечный диастолический объем Х16 Относ. мл 6,930 1,352
17. Конечный систолический объем Х17 Относ. мл 5,545 1,635
18. Конечный диастолический размер Х18 Относ. см 6,591 1,452
19. Конечный систолический размер Х19 Относ. см 5,864 1,637
20. Удельный объем Х20 Относ. мл 5,818 1,618
21. СДЛА Х21 Относ. мм рт. ст 5,750 2,047
Окончание табл. 1
22. Аортальный клапан градиент давления Х22 Относ. мм рт. ст 2,279 1,260
23. Аортальный клапан скорость кровотока Х23 Относ. м/с 4,159 1,829
24. Аортальный клапан степень регургитации Х24 Порядковая (1, 2, 3, 4) 0,114 0,387
25. Митральный клапан градиент давления Х25 Относ. мм рт. ст 4,977 2,841
26. Митральный клапан скорость кровотока Х26 Относ. м/с 1,614 2,295
27. Митральный клапан степень регургитации Х27 Относ. (1, 2, 3, 4) 0,750 0,651
28. Срок болевого синдрома Х28 Относ. ч 3,341 2,292
29. Тропонины I Х29 Относ. нг/мл 5,205 2,890
30. Тропонины Т Х30 Относ. нг/мл 2,375 2,306
В табл. 1 в первом столбце представлены названия переменных, которые принимает во внимание хирург при подготовке к операции, во втором столбце - обозначения переменных, далее - тип переменной и единицы измерения. В шестом столбце показаны средние арифметические значения переменной, выраженной по шкале категорий. В седьмом столбце показаны стандартные отклонения переменных, выраженных также по шкале категорий.
Факторные нагрузки - это вклад компоненты в дисперсию по переменным: ' в ^
Г =
^ п У
Матрица, составленная из векторов Г., образует матрицу факторных нагрузок Г, коэффициенты р.. отражают связь между переменными X. и Г...
Г =
ГР„ Р12
Р21 Р22
Р.1 Р.2
Рп1 Рп2
Р1, Р
2 .
Р.
Рп
В ^
Р 2ш
Р.ш
Р пш
Для дальнейшей интерпретации полученных факторов Г. необходимо провести
анализ корреляций факторных нагрузок с исходными переменными. Для повышения интерпретируемости факторных нагрузок используют метод варимаксного вращения УАШМАХ, который позволяет добиться большей «выразительности» матрицы факторных нагрузок. Его суть состоит в изменении координатных осей, образуемых факторами, с
целью получить более контрастные нагрузки, так называемой простой факторной структуры. Метод УАШМАХ максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности:
V = 1!«-I К
л2
/ п => Мах1шиш,
} = 1 г = 1 } = 1 ^ г = 1 у
где V - критерий для метода УАШМАХ.
В табл. 2 представлены результаты расчета суммарных факторных нагрузок, а также суммарные факторные нагрузки после вращения осей:
п 2
Р, =т );
г = 1
п
Р, =1 (в,)
г = 1
где Р, суммарные факторные нагрузки до;
, — суммарные факторные нагрузки после поворота координатных осей. Вклад ,-го фактора в дисперсию:
ю, =—]—100 %;
] т '
Ж
г= 1
и после вращения:
юю , =-]—100%.
] т
1
IР ,
г= 1
Таблица 2
Факторные нагрузки, повернутые факторные нагрузки и часть дисперсии, которая описывается этими факторами
№ фактора Суммарная факторная нагрузка Г; Процент дисперсии ю; Кумулятивный процент дисперсии Суммарная факторная нагрузка Процент дисперсии Кумулятивный процент дисперсии
1 6,896 21,549 21,549 4,593 14,352 14,352
2 4,446 13,895 35,444 3,483 10,885 25,237
3 2,953 9,228 44,671 2,899 9,059 34,296
4 2,882 9,007 53,679 2,822 8,818 43,114
5 2,141 6,691 60,369 2,535 7,923 51,037
6 1,854 5,793 66,163 2,483 7,758 58,795
7 1,779 5,559 71,722 2,235 6,984 65,779
8 1,458 4,556 76,277 2,211 6,911 72,690
9 1,079 3,372 79,649 1,787 5,585 78,275
10 1,073 3,353 83,002 1,513 4,727 83,002
Во втором и четвертом столбцах показаны суммарные факторные нагрузки, а в третьем и пятом - часть описываемой ими дисперсии. В четвертом и последнем столбцах
показана сумма процента дисперсии, которая объясняется первыми факторами. Всего в таблицу были внесены только десять новых факторов из тридцати, следующие факторы объясняют слишком маленький процент дисперсии (<3 % на каждый) или же равны нулю. Оставшиеся двадцать факторов объясняют всего 17 %. На основании требования о том, что количество факторов должно объяснять более 80 % дисперсии число факторов ш = 10, следовательно, последующие факторы объясняют дисперсию хуже, чем начальные переменные (Х.).
В табл. 3 представлены коэффициенты при переменных для нового фактора после вращения.
Таблица 3
Коэффициенты Р; для первого фактора выражения (1)
Обозначение Обозначение Значение
переменной коэффициента коэффициента
Х16 Р^ 16 0,860
Х18 Р'18 0,896
Х17 Р^ 17 0,895
Х19 Р^ 19 0,862
Х8 Р 18 0,690
Х26 в' 26 0,306
Х21 Р^ 21 0,285
Х20 в' 20 0,280
Х29 Р' 29 0,248
Х2 Р' 16 0,213
Х6 Р'6 -0,250
Х9 Р'9 -0,283
Х5 Р'5 -0,505
В данной таблице приведены коэффициенты для первого фактора больше (0, 1), данные значения могут быть использованы для медицинской интерпретации данного фактора Р\.
Результаты проведенного факторного анализа говорят о взаимосвязи переменных, некоторые из них могут быть очевидны из анализа предметной области (структура сердца), однако более легитимная интерпретация полученной информации может быть получена только при взаимодействии с квалифицированными специалистами. Также следует отметить, что новые переменные, зависящие от старых, претендуют на биологический смысл, являясь математически просто иным способом описания «облака» измерений в пространстве состояний, но факт наличия зависимости между переменными говорит о скрытых взаимодействиях в описываемой системе. Данный факт является ключевым для продолжения исследований в этой области с применением большего инструментария математических методов исследования зависимостей переменных (нелинейные модели, нейронные сети), а также применения методов анализа экспертных оценок для интерпретации результатов факторного анализа [5].
Литература
1. Болезни сердца и сосудов. Руководство Европейского общества кардиологов / под ред. А. Джона Кэмма, Томаса Ф. Люшера, Патрика В. Серраюса. М. : ГЭОТАР-Медиа, 2011. 1480 с.
2. Бююль А., Цефель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей : пер. с нем. СПб. : ДиаСофтЮП, 2005. 608 с.
3. Ефимов В. М., Ковалева В. Ю. Многомерный анализ биологических данных : учеб. пособие. Горно-Алтайск : РИО ГАГУ, 2007. 75 с.
4. Калинина В. Н., Соловьев В. И. Введение в многомерный статистический анализ : учеб. пособие. М. : Изд-во ГУУ, 2003. 66 с.
5. Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р. и др. Факторный, дискриминантный и кластерный анализ : пер. с англ. ; под ред. И. С. Енюкова. М. : Финансы и статистика, 1989. 215 с.
6. Макаров С. С., Жидкова Т. З., Косенко Е. Ю., Зиборов М. В., Финаев В. И. Моделирование и информационное обеспечение медицинских учреждений. М. : Изд-во МГУП, 2005. 210 с.
7. Методы статистической обработки медицинских данных : метод. реком. для ординаторов и аспирантов мед. учеб. завед., науч. работников / сост. : А. Г. Кочетов, О. В. Лянг, В. П. Масенко, И. В. Жиров, С. Н. Наконечников, С. Н. Терещенко. М. : РКНПК, 2012. 42 с.
8. Микшина В. С., Назина Н. Б. Математические методы, алгоритмы и компьютерные модели управления процессом оказания медицинской помощи на территории ХМАО / Сургут. гос. ун-т. Ханты-Мансийск : Печатное дело, 2010. 180 с.
9. Mikshina V. S., Egorov A. A. Use of Probabilistic Neural Networks to Solve Classification Problems in Surgery // Optical Memory and Neural Networks. 2011. Vol. 20, № 3. Р. 224-231.