Научная статья на тему 'CНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СОСТОЯНИЙ ПАЦИЕНТА В КАРДИОЛОГИИ С ПРИМЕНЕНИЕМ ФАКТОРНОГО АНАЛИЗА МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ'

CНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СОСТОЯНИЙ ПАЦИЕНТА В КАРДИОЛОГИИ С ПРИМЕНЕНИЕМ ФАКТОРНОГО АНАЛИЗА МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
13
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФАКТОРНЫЙ АНАЛИЗ / FACTOR ANALYSIS / УМЕНЬШЕНИЕ РАЗМЕРНОСТИ / DIMENSION REDUCTION / АНАЛИЗ СКРЫТЫХ ЗАВИСИМОСТЕЙ / ANALYSIS OF HIDDEN DEPENDENCIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Микшина В.С., Павлов С.И.

Данная работа рассматривает порядок проведения факторного анализа с анализом главных компонент множества переменных, используемых для описания состояния пациента в кардиологии перед проведением операции аортокоронарного шунтирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DECREASE OF THE DIMENSION OF STATE-SPACE REPRESENTATION OF THE PATIENT’S CONDITIONS IN CARDIOLOGY USING THE FACTOR ANALYSIS OF PRINCIPAL COMPONENTS METHOD

This paper examines the procedure of factor analysis with principal components of variables used to describe the condition of the patient in cardiology prior coronary artery bypass surgery.

Текст научной работы на тему «CНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СОСТОЯНИЙ ПАЦИЕНТА В КАРДИОЛОГИИ С ПРИМЕНЕНИЕМ ФАКТОРНОГО АНАЛИЗА МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ»

УДК 616.1-7:51

Микшина В.С., Павлов С.И.

Mikshina V.S., Pavlov S.I.

СТИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СОСТОЯНИЙ ПАЦИЕНТА В КАРДИОЛОГИИ С ПРИМЕНЕНИЕМ ФАКТОРНОГО АНАЛИЗА МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ

DECREASE OF THE DIMENSION OF STATE-SPACE REPRESENTATION OF THE PATIENT'S CONDITIONS IN CARDIOLOGY USING THE FACTOR ANALYSIS OF PRINCIPAL COMPONENTS METHOD

Данная работа рассматривает порядок проведения факторного анализа с анализом главных компонент множества переменных, используемых для описания состояния пациента в кардиологии перед проведением операции аортокоронарного шунтирования.

This paper examines the procedure of factor analysis with principal components of variables used to describe the condition of the patient in cardiology prior coronary artery bypass surgery.

Ключевые слова: факторный анализ, уменьшение размерности, анализ скрытых зависимостей.

Key words: factor analysis, dimension reduction, analysis of hidden dependencies.

Спустя более пятидесяти лет после изобретения вычислительных машин, человечество использует их мощности повсеместно. Благодаря информационным технологиям, человек может обрабатывать миллионы операций в секунду для своих целей, причем они могут быть абсолютно разными. Одной из целей является улучшение качества медицинского обслуживания. Существует немало примеров использования информационных технологий в медицине, показавших себя как революционные идеи [2; 6; 9]. В данной работе речь идет о применении инструментов математической статистики, а именно факторного анализа для поддержки принятия решений врача-кардиолога при подготовке к одной из наиболее распространенных операций аортокоронарного шунтирования (АКШ) [6; 7].

Организм человека является сложнейшей биодинамической системой с большим количеством переменных, характеризующих его состояние. Диагностируя пациентов, каждый врач выбирает показатели, максимально описывающие состояние этой системы. При подготовке к операции АКШ кардиохирургу приходится оценивать около тридцати показателей. Особую сложность на данном этапе представляет тот факт, что некоторые из этих показателей изменяются непрерывно (например, конечный диастолический размер в сантиметрах), а некоторые дискретно (степень регургитации митрального клапана от 0 до 4). Даже высококвалифицированному специалисту одновременно держать в голове такое количество показателей и анализировать их невозможно. Возникает необходимость введения некоего комплексного интегрального показателя, характеризующего состояние системы органов, а именно сердечно сосудистой системы (ССС) максимально полно.

Одно из решений данной задачи может быть получено с помощью применения факторного анализа для выявления скрытых связей между переменными. Факторный анализ является одним из методов уменьшения размерности фазового пространства состояний за счет нахождения линейных комбинаций исходных переменных. Каждая такая комбинация переменных является новым фактором:

^ = &Х Р2Х X 2 +... + Р„ X Х„ , (1)

где ^ новый фактор;

Р1зР2,...,РП - коэффициенты линейной комбинации (Р1зР2,... Р„ е Я);

Х1,X2,...,Хп - векторы.

В формуле (1) высокие значения коэффициентов Р (в дальнейшем - факторные значения) у переменных указывают на высокое влияние переменной в пределах нового фактора. В данной работе планируется провести анализ данных с помощью одного из методов факторного анализа, а именно анализ главных компонент. Данный метод заключается в поиске направления максимального изменения экспериментальных данных. В общем виде основные этапы проведения анализа будут следующие:

1) определение центра облака данных и перенос туда центра координат -центрирование (данное действие выполняется ввиду того, что используемый алгоритм не учитывает свободных членов);

2) далее, чтобы выровнять вклад разных переменных, производится нормирование (комбинация центрирования и нормирования называется автошкалированием, или 2-норма);

3) выбирается направление максимального изменения данных - это первая главная компонента;

4) если данные описаны не полностью, выбирается еще одно направление, перпендикулярное первому, так чтобы описать оставшееся изменение, и так далее пока не будет описан требуемый процент данных (в настоящей работе ограничимся следующим правилом: количество главных компонент достаточно для описания 80 % выборки называемым критерием доли воспроизводимой дисперсии).

На этом этапе метод анализа главных компонент заканчивается, как результат у нас имеется набор компонент , представляющих из себя линейную комбинацию начальных

переменных X., а также коэффициенты Рг., соответствующие каждой переменной.

Перед проведением анализа следует убедиться в том, что все переменные являются количественными. Действительно, все переменные являются количественными, за исключением дихотомических признаков, если считать, что 0 и 1 являются граничными значениями интервала [0, 1], что допустимо при проведении факторного анализа. Порядковые переменные, которые так же изменяются скачкообразно (степень регургитации митрального клапана от 0 до 4), упорядочим в порядке (0, 1, 2, 3, 4) и присвоим им количественные значения. Стоит отметить, что данное преобразование является грубым приближением, так как в действительности разница между отсутствием и наличием регургитации митрального клапана выражается иначе, нежели 1 = 1 - 0. Данная проблема решается путем присвоения категориям весов, характеризующих отклонение от нормы (выражающееся в увеличении расстояния между категориями), значения весов планируется определять методами экспертной оценки [2; 3; 8].

На первом шаге исследования непрерывные переменные необходимо привести к виду, при котором функция распределения будет изменяться как и у дихотомических переменных, т.е. скачкообразно. Так выглядит функция распределения упорядоченных качественных переменных (порядковых переменных). Для дискретизации переменных можно воспользоваться методом группировки. Имеющиеся значения переменных относят к одной из категорий, каждая из которых соответствует определенному интервалу разбиения области изменения переменных от минимального до максимального значения. В настоящей работе количество категорий равно десяти. Минимальное и максимальное значение определенной переменной определяется из медицинских справочников [1].

Ь = (тах( X) - шт( X)) / к,

где Ь - интервал изменения переменной; к - количество категорий.

В табл. 1 представлены экспериментальные данные и результаты подготовки исходных данных для исследования, проводимого с помощью факторного анализа, полученные из медицинских карт историй болезни пациентов с диагностированной болезнью ССС медицинских учреждений города Сургута.

Таблица 1

Исходные данные для оценки состояния пациента в кардиологии

Фактор (переменная) Обозначение Шкала измерения Ед. изм. Среднее арифметическое значение (категориальное) Стандартное отклонение значения (категориальное)

1. Возраст Относит. г 6,341 1,293

2. Вес Х2 Относит. кг 5,500 2,140

3. Пол Хз Номинал. [0, 11 0,818 0,390

4. Сахарный диабет Х4 Номинал. [0, 11 0,227 0,424

5. Гипертоническая болезнь Х5 Номинал. [0, 11 0,795 0,408

6. Поражение брахио-цефального ствола Хб Номинал. [0, 11 0,045 0,211

7. Нарушения ритма сердца Х7 Номинал. [0, 11 0,023 0,151

8. Гипокинезы Х8 Номинал. [0, 11 0,500 0,506

9. Проходимость левой коронарной артерии (ЛКА) Х9 Относ. % 5,182 3,731

10. Проходимость ветви тупого края (ВТК) Х10 Относ. % 3,068 3,513

11. Проходимость передней межжелудочковой ветви (ПМЖВ) Х11 Относ. % 7,977 2,464

12. Проходимость огибающей ветви (ОВ) Х12 Относ. % 7,295 3,239

13. Проходимость правой коронарной артерии (ПКА) Х13 Относ. % 6,932 3,818

14. Проходимость задней межжелудочковой ветви (ЗМЖВ) Х14 Относ. % 1,432 1,897

15. Фракция выброса Х15 Относ. % 5,227 1,179

16. Конечный диастолический объем Х16 Относ. мл 6,930 1,352

17. Конечный систолический объем Х17 Относ. мл 5,545 1,635

18. Конечный диастолический размер Х18 Относ. см 6,591 1,452

19. Конечный систолический размер Х19 Относ. см 5,864 1,637

20. Удельный объем Х20 Относ. мл 5,818 1,618

21. СДЛА Х21 Относ. мм рт. ст 5,750 2,047

Окончание табл. 1

22. Аортальный клапан градиент давления Х22 Относ. мм рт. ст 2,279 1,260

23. Аортальный клапан скорость кровотока Х23 Относ. м/с 4,159 1,829

24. Аортальный клапан степень регургитации Х24 Порядковая (1, 2, 3, 4) 0,114 0,387

25. Митральный клапан градиент давления Х25 Относ. мм рт. ст 4,977 2,841

26. Митральный клапан скорость кровотока Х26 Относ. м/с 1,614 2,295

27. Митральный клапан степень регургитации Х27 Относ. (1, 2, 3, 4) 0,750 0,651

28. Срок болевого синдрома Х28 Относ. ч 3,341 2,292

29. Тропонины I Х29 Относ. нг/мл 5,205 2,890

30. Тропонины Т Х30 Относ. нг/мл 2,375 2,306

В табл. 1 в первом столбце представлены названия переменных, которые принимает во внимание хирург при подготовке к операции, во втором столбце - обозначения переменных, далее - тип переменной и единицы измерения. В шестом столбце показаны средние арифметические значения переменной, выраженной по шкале категорий. В седьмом столбце показаны стандартные отклонения переменных, выраженных также по шкале категорий.

Факторные нагрузки - это вклад компоненты в дисперсию по переменным: ' в ^

Г =

^ п У

Матрица, составленная из векторов Г., образует матрицу факторных нагрузок Г, коэффициенты р.. отражают связь между переменными X. и Г...

Г =

ГР„ Р12

Р21 Р22

Р.1 Р.2

Рп1 Рп2

Р1, Р

2 .

Р.

Рп

В ^

Р 2ш

Р.ш

Р пш

Для дальнейшей интерпретации полученных факторов Г. необходимо провести

анализ корреляций факторных нагрузок с исходными переменными. Для повышения интерпретируемости факторных нагрузок используют метод варимаксного вращения УАШМАХ, который позволяет добиться большей «выразительности» матрицы факторных нагрузок. Его суть состоит в изменении координатных осей, образуемых факторами, с

целью получить более контрастные нагрузки, так называемой простой факторной структуры. Метод УАШМАХ максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности:

V = 1!«-I К

л2

/ п => Мах1шиш,

} = 1 г = 1 } = 1 ^ г = 1 у

где V - критерий для метода УАШМАХ.

В табл. 2 представлены результаты расчета суммарных факторных нагрузок, а также суммарные факторные нагрузки после вращения осей:

п 2

Р, =т );

г = 1

п

Р, =1 (в,)

г = 1

где Р, суммарные факторные нагрузки до;

, — суммарные факторные нагрузки после поворота координатных осей. Вклад ,-го фактора в дисперсию:

ю, =—]—100 %;

] т '

Ж

г= 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и после вращения:

юю , =-]—100%.

] т

1

IР ,

г= 1

Таблица 2

Факторные нагрузки, повернутые факторные нагрузки и часть дисперсии, которая описывается этими факторами

№ фактора Суммарная факторная нагрузка Г; Процент дисперсии ю; Кумулятивный процент дисперсии Суммарная факторная нагрузка Процент дисперсии Кумулятивный процент дисперсии

1 6,896 21,549 21,549 4,593 14,352 14,352

2 4,446 13,895 35,444 3,483 10,885 25,237

3 2,953 9,228 44,671 2,899 9,059 34,296

4 2,882 9,007 53,679 2,822 8,818 43,114

5 2,141 6,691 60,369 2,535 7,923 51,037

6 1,854 5,793 66,163 2,483 7,758 58,795

7 1,779 5,559 71,722 2,235 6,984 65,779

8 1,458 4,556 76,277 2,211 6,911 72,690

9 1,079 3,372 79,649 1,787 5,585 78,275

10 1,073 3,353 83,002 1,513 4,727 83,002

Во втором и четвертом столбцах показаны суммарные факторные нагрузки, а в третьем и пятом - часть описываемой ими дисперсии. В четвертом и последнем столбцах

показана сумма процента дисперсии, которая объясняется первыми факторами. Всего в таблицу были внесены только десять новых факторов из тридцати, следующие факторы объясняют слишком маленький процент дисперсии (<3 % на каждый) или же равны нулю. Оставшиеся двадцать факторов объясняют всего 17 %. На основании требования о том, что количество факторов должно объяснять более 80 % дисперсии число факторов ш = 10, следовательно, последующие факторы объясняют дисперсию хуже, чем начальные переменные (Х.).

В табл. 3 представлены коэффициенты при переменных для нового фактора после вращения.

Таблица 3

Коэффициенты Р; для первого фактора выражения (1)

Обозначение Обозначение Значение

переменной коэффициента коэффициента

Х16 Р^ 16 0,860

Х18 Р'18 0,896

Х17 Р^ 17 0,895

Х19 Р^ 19 0,862

Х8 Р 18 0,690

Х26 в' 26 0,306

Х21 Р^ 21 0,285

Х20 в' 20 0,280

Х29 Р' 29 0,248

Х2 Р' 16 0,213

Х6 Р'6 -0,250

Х9 Р'9 -0,283

Х5 Р'5 -0,505

В данной таблице приведены коэффициенты для первого фактора больше (0, 1), данные значения могут быть использованы для медицинской интерпретации данного фактора Р\.

Результаты проведенного факторного анализа говорят о взаимосвязи переменных, некоторые из них могут быть очевидны из анализа предметной области (структура сердца), однако более легитимная интерпретация полученной информации может быть получена только при взаимодействии с квалифицированными специалистами. Также следует отметить, что новые переменные, зависящие от старых, претендуют на биологический смысл, являясь математически просто иным способом описания «облака» измерений в пространстве состояний, но факт наличия зависимости между переменными говорит о скрытых взаимодействиях в описываемой системе. Данный факт является ключевым для продолжения исследований в этой области с применением большего инструментария математических методов исследования зависимостей переменных (нелинейные модели, нейронные сети), а также применения методов анализа экспертных оценок для интерпретации результатов факторного анализа [5].

Литература

1. Болезни сердца и сосудов. Руководство Европейского общества кардиологов / под ред. А. Джона Кэмма, Томаса Ф. Люшера, Патрика В. Серраюса. М. : ГЭОТАР-Медиа, 2011. 1480 с.

2. Бююль А., Цефель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей : пер. с нем. СПб. : ДиаСофтЮП, 2005. 608 с.

3. Ефимов В. М., Ковалева В. Ю. Многомерный анализ биологических данных : учеб. пособие. Горно-Алтайск : РИО ГАГУ, 2007. 75 с.

4. Калинина В. Н., Соловьев В. И. Введение в многомерный статистический анализ : учеб. пособие. М. : Изд-во ГУУ, 2003. 66 с.

5. Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р. и др. Факторный, дискриминантный и кластерный анализ : пер. с англ. ; под ред. И. С. Енюкова. М. : Финансы и статистика, 1989. 215 с.

6. Макаров С. С., Жидкова Т. З., Косенко Е. Ю., Зиборов М. В., Финаев В. И. Моделирование и информационное обеспечение медицинских учреждений. М. : Изд-во МГУП, 2005. 210 с.

7. Методы статистической обработки медицинских данных : метод. реком. для ординаторов и аспирантов мед. учеб. завед., науч. работников / сост. : А. Г. Кочетов, О. В. Лянг, В. П. Масенко, И. В. Жиров, С. Н. Наконечников, С. Н. Терещенко. М. : РКНПК, 2012. 42 с.

8. Микшина В. С., Назина Н. Б. Математические методы, алгоритмы и компьютерные модели управления процессом оказания медицинской помощи на территории ХМАО / Сургут. гос. ун-т. Ханты-Мансийск : Печатное дело, 2010. 180 с.

9. Mikshina V. S., Egorov A. A. Use of Probabilistic Neural Networks to Solve Classification Problems in Surgery // Optical Memory and Neural Networks. 2011. Vol. 20, № 3. Р. 224-231.

i Надоели баннеры? Вы всегда можете отключить рекламу.