Научная статья на тему 'Исследование методов анализа непараметрических данных на примере анализа психофизиологических признаков у детей с заболеванием соединительных тканей'

Исследование методов анализа непараметрических данных на примере анализа психофизиологических признаков у детей с заболеванием соединительных тканей Текст научной статьи по специальности «Медицинские технологии»

CC BY
247
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРРЕЛЯЦИЯ / НЕЧИСЛОВАЯ СТАТИСТИКА / АНАЛИЗ СООТВЕТСТВИЙ / CORRELATION / NON-NUMERICAL STATISTICS / CORRESPONDENCE ANALYSIS

Аннотация научной статьи по медицинским технологиям, автор научной работы — Кочетков О. О.

Рассматривается анализ данных нечисловой природы методами классического и структурного анализа. Приведены методы и наиболее эффективные критерии для оценки качества проведенного анализа и сделаны общие выводы, имеющие практическую ценность для исследований заболеваний соединительных тканей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским технологиям , автор научной работы — Кочетков О. О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH INTO ANALYSIS METHODS OF THE NONPARAMETRIC DATA USING THE PSYCHOPHYSIOLOGICAL SYMPTOMS ANALYSIS DATA WITH CHILDREN SUFFERING FROM THE CONNECTIVE TISSUE DISEASE

The article considers the analysis of non-numerical data using the methods of classical and structural analysis. The provided methods and most effective criteria can be utilized for assessment the quality of the offered analysis. The general conclusions are of practical importance for the study of connective tissue diseases.

Текст научной работы на тему «Исследование методов анализа непараметрических данных на примере анализа психофизиологических признаков у детей с заболеванием соединительных тканей»

УДК 31+61

О.О. Кочетков

ИССЛЕДОВАНИЕ МЕТОДОВ АНАЛИЗА НЕПАРАМЕТРИЧЕСКИХ ДАННЫХ НА ПРИМЕРЕ АНАЛИЗА ПСИХОФИЗИОЛОГИЧЕСКИХ ПРИЗНАКОВ

У ДЕТЕЙ С ЗАБОЛЕВАНИЕМ СОЕДИНИТЕЛЬНЫХ ТКАНЕЙ

Рассматривается анализ данных нечисловой природы методами классического и структурного анализа. Приведены методы и наиболее эффективные критерии для оценки качества проведенного анализа и сделаны общие выводы, имеющие практическую ценность для исследований заболеваний соединительных тканей.

Корреляция, нечисловая статистика, анализ соответствий

O.O. Kochetkov

RESEARCH INTO ANALYSIS METHODS OF THE NONPARAMETRIC DATA USING THE PSYCHOPHYSIOLOGICAL SYMPTOMS ANALYSIS DATA WITH CHILDREN SUFFERING FROM THE CONNECTIVE TISSUE DISEASE

The article considers the analysis of non-numerical data using the methods of classical and structural analysis. The provided methods and most effective criteria can be utilized for assessment the quality of the offered analysis. The general conclusions are of practical importance for the study of connective tissue diseases.

Correlation, non-numerical statistics, correspondence analysis

Целью данной работы является выявление зависимости психофизиологических признаков от диагноза заболевания у детей. Сравнительный анализ и экспертная оценка проводятся с использованием методов структурного и классического анализа применительно к качественным признакам порядкового типа.

Исследуемая выборка включает 274 пациентов мужского и женского пола в возрасте от 7 до 15 лет, находившихся на стационарном обследовании и лечении в клинике факультетской педиатрии КБ им. Миротворцева СГМУ. Ниже приведена описательная статистика, более полно характеризующая клиническую картину исследуемой выборки.

Все пациенты оцениваются по 11 психофизиологическим параметрам:

1. Сила нервной системы по критической частоте слияния световых мельканий (Сила нс по КЧСМ);

2. Сила нервной системы по теппинг-тесту (сила нс по теппинг т);

3. Подвижность нервной системы по простой зрительно-моторной реакции (подвижность нс по ПЗМР);

4. Уравновешенность;

5. Самочувствие (С);

6. Активность (А);

7. Настроение (Н);

8. Шкала субъективного благополучия (ШСБ);

9. Информационно-волновая терапия (ИВТ);

10. Вегетативная реактивность (в.реактивность);

11. Вегетативное обеспечение (в. обеспечение).

и имеют один из шести диагнозов:

1. Пиелонефрит острое течение активная фаза (Пн острое теч активная фаза);

2. Вторичный обструктивный пиелонефрит острое течение (Вт обстр пн острое теч);

3. Вторичный обструктивный пиелонефрит хроническое течение (Вт обстр пн хронич теч);

4. Вторичный дисметаболический пиелонефрит хроническое течение (Вт дисмет пн хронич теч);

5. Вторичный дисметаболический пиелонефрит острое течение (Вт дисмет пн острое теч);

6. Вторичный дисметаболический и обструктивный пиелонефрит хроническое течение (Вт дисмет и обстр пн хронич теч).

В дальнейшем для упрощения будем использовать сокращенные обозначения признаков указанные в скобках.

Н нлбл. Мода Чзг г л г і моды Минимум МахСНМуМ Прсцентиль 1-5,00000 П||Пце.ЧП1Пь 7500000

Сил & не ги> НЧСЫ 274 3 030000 1]' 1 .СОЗООО 4,000300 2,000000 3 000000

сила ис по теппинг і 27 і 3 ГЙПГ.Ш Э5 1 .т-эдо 5,000000 4ЯЮ000

понцеч’-кчость нс по ПЗМГ' 274 1 ООООШ 124 1,000000 4,000000 1 .ОЗОООО 2000000

уравжййшенность 27Л 2 РООООО 2ЪП 1 ',1X0000 3,000000 2,000000 £.000000

С 273 3рзоооо 21X 1 .000000 3,000300 3,030000 3,000000

А 273 зпгщло і во 1 .даоооо эшюш 2 датой э.опосоп

Н 273 зшюоо 243 1 .оооооо 3,000000 3,000000 3,000000

ШСБ 273 2ДШ0С 134 1.000000 4.000000 2.00000Г' зхюогао

тт 273 2,000003 214 1,000000 3,000000 2,000000 2,000000

Ї Реаиивнкть 273 :.тосш 173 і оооооо 3.000000 2.000000 2 000000

в. иііеспр^ение 272 2 шиисо 110 1,000000 3,000000 1,000000 2,‘ллхии

Рис. 1. Таблица значений признаков

Описательная статистика включает основную таблицу значений, в которой представлены качественные (порядковые) признаки выборки, их максимальное, минимальное и наиболее часто встречающееся значение, нижние и верхние квартили (25 и 75%).

Так же представлена таблица частот и гистограмма диагноза обследуемых (в произвольном порядке), для более наглядного представления о распределении выборки, с которой проводится анализ.

Описательная статистика. Построенные гистограммы распределения (рис. 3) позволяют более наглядно представить таблицы частот анализируемых признаков. Выделим наиболее информативные гистограммы.

Рис. 2. Гистограмма и таблица значяений диагноза

Из данного графика видно, что среди обследуемых преобладают дети с диагнозом:

Вт.Обстр.и Дисмет.Пн.хронич.теч

Вт.Обстр.Пн.хронич.теч.

Гнстогоэи в Реактивность й-.3390в. р* .01 Пиплиеиорса р<_01 — Ожидаемое нормальное

Вврдаи границы (г 1)»нп|а)

Б

E

F

Рис. 3. Гистограммы распределения категориальных признаков: А - Гистограмма распределения: признак Уравновешенность; В - Гистограмма распределения: признак ИВТ; С - Гистограмма распределения: признак в.Реактивность; О - Г истограмма распределения: признак Самочувствие; Е - Г истограмма распределения: признак Активность Р - Гистограмма распределения: признак Настроение

В результате построения диаграмм выявлены две группы признаков (признаки «С», «А», «Н» и признаки «ИВТ», «Уравновешенность», «в.Реактивность»), которые имеют схожие распределения.

На основе схожести гистограмм были сформулированы гипотезы о корреляции признаков и проведен анализ между данными признаками методами таблиц сопряжённости признаков:

- гипотеза о независимости признаков - распределение по одному признаку не влияет на распределение по другому признаку

и соответствующая ей, альтернативная гипотеза:

- признаки являются зависимыми.

Для проверки нулевой гипотезы по таблицам сопряженности используем критерий «Корреляция Спирмена» на уровне значимости р>0,05. Выбор критерия обусловлен отсутствием нормального распределения признаков. Ниже приведены таблицы частот, необходимые для оценки устойчивости критерия.

С Д 1 А 2 А 3 Всего С Н 1 Н 2 Н 3 Всего А Н 1 Н 2 Н 3 Всего

1 3 0 0 3 1 4 0 4 8 1 4 0 23 27

2 4 34 16 54 2 0 26 28 54 2 0 18 СО 66

3 15 32 164 211 3 0 0 211 211 3 0 8 172 180

Всего 27 66 180 273 Всего 4 26 243 273 Всего 4 26 243 273

Корр.Спирмен тз II о О о о о Кор э. Спирмен р=0 0000 Корр.Спирмен р= 00000

И ВТ в. Реактивность в. Реактивность

Ура вновешен ность 1 2 3 Всего Уравновешенность 1 2 3 Всего И ВТ 1 2 3 Всего

1 31 0 31 1 14 17 а 31 1 12 21 4 37

2 37 170 22 229 2 54 143 27 229 2 32 134 25, 214

Ї 13 а 13 3 0 3 5 12 3 А 13 а 22

Всего 37 214 22 273 Всего 63 173 32 273 Всего 63 173 32 273

Корр.Спирмена 1>=,6%<>9 Корр.Спирмена |>=,00002 К.Спирмен р= ,56551

После того, как были получены значения коэффициента р для таблиц сопряженности, можем интерпретировать результат исследования.

При р>0,05 нулевая гипотеза о независимости признаков не отклоняется

При р<0,05 нулевая гипотеза отклоняется и принимается альтернативная гипотеза о корреляции признаков.

Согласно результатам анализа можем отметить, что признаки «Активность», «Самочувствие», «Настроение» коррелированны, а так же коррелированны признаки «в.Реактивность» и «Уравновешенность».

С целью снижения размерности и предупреждения переизбытка информации, исключим коррелированные переменные «Самочувствие», «Настроение» и «Уравновешенность». Затем проведем анализ соответствия оставшихся признаков совместно с диагнозами для установления групп схожих диагнозов.

Анализ соответствия опирается на статистику хи-квадрат. Можно сказать, что это новая интерпретация статистики хи-квадрат Пирсона.

В данном методе исследуются таблицы сопряженности, а критерием качества воспроизведения многомерной таблицы в пространстве меньшей размерности является значение статистики хи-квадрат.[2]

Строки или столбцы исходной таблицы представляются точками пространства, между которыми вычисляется расстояние хи-квадрат (аналогично тому, как вычисляется статистика хи-квадрат для сравнения наблюдаемых и ожидаемых частот).

Далее требуется найти пространство небольшой размерности, в котором вычисленные расстояния минимально искажаются, и в этом смысле максимально точно воспроизвести структуру исходной таблицы с сохранением связей между признаками.

Имеется только одно существенное ограничение использования критерия Хи-квадрат (кроме очевидного предположения о случайном выборе наблюдений), которое состоит в том, что ожидаемые частоты не должны быть очень малы. Это связано с тем, что критерий Хи-квадрат по своей природе проверяет вероятности в каждой ячейке; и если ожидаемые частоты в ячейках, становятся, маленькими, например, меньше 5, то эти вероятности нельзя оценить с достаточной точностью с помощью имеющихся частот.[3]

Ниже представлены результаты структурного анализа оставшихся признаков совместно с диагнозами для установления групп схожих диагнозов. Результаты представлены в виде двух- и трехмерных диаграмм рассеяния. При данном количестве измерений объясняется 100% инерции таблицы данных.

162

ЗМ график координат строк; измерения: 1x2x3

Таблица ввода (Стр.х Столб.}: 6x4 Стандартизация: Профили строк и столбцов

ЗМ график координат строк; измерения: 1x2x3

Таблица ввода (Стр.х Столб.}: 6x4 Стандартизация: Профили строк и столбцов

вт обстр Пн острое те

A

B

-0,2

-0,3

-0,5

-O.i

2М график координат строк; измерения: 1 х 2 Таблица ввода (Стр.х Столб.): 6x3 Стандартизация: Профили строк и столбцов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вт Дисмет Пн хронич те ° вт обстр Пн хронич те зт обстр и .исмет Пн хронич те о

вт обстр Пн острое

йгтсДьпгв.-гш’-Пйсговшрай ч}иза

-0.4 -0,2 0,0 0,2 0,4 0,6

Измерение 1; Соб.знач.: ,12004 (01,95 % инерции)

2М график координат строк; измерения: 1 х 2 Таблица ввода (Стр.хСтолб.): 6x3 Стандартизация: Профили строк и столбцов

вт обстр Пн острое те О

Пн острое теч активная фаза ° вт обстр Пн хронич те вт обстр и Диёй^1^9ф^йФ¥ёич Т

вт Дмсмет Пн острое те

-2,5 -2,0 -1,5 -1,0 -0,5 0,0

Измерение 1; Соб. знач.: ,22568 (61,45 % инерции )

C

D

Рис. 2. Диаграммы рассеяния: A - Диаграмма рассеяния: признак Сила нс по кчсм;

B - Диаграмма рассеяния: признак подвижность нс по ПЗМР; C - Диаграмма рассеяния: признак Активность; D - Диаграмма рассеяния: признак В.Реактивность

Проведенный анализ показал, что при проекции таблиц сопряженности признаков «Сила нс по кчсм», «подвижность нс по ПЗМР», «Активность», «В.Реактивность» с признаком «Диагноз» на n-мерное пространство, значения последнего расположились таким образом, что диагнозы «Вт обстр пн хронич теч», «Вт Дисмет пн хронич теч» оказались коррелированы.

ЛИТЕРАТУРА

1. Юрьева Э.А. Совершенствование диагностики и профилактики мочекаменной болезни у детей / Э.А. Юрьева, Г.Н. Титов, Л.В. Симанина, Е.С. Воздвиженская // Экспресс-информация. М.: 1985. № 1. С. 26.

2. Калинина В.Н. Введение в многомерный статистический анализ / В.Н. Калинина, В.И. Соловьев. М., 2003.

3. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica / О.Ю. Реброва. М.: МедиаСфера, 2002.

Кочетков Олег Олегович - Oleg O. Kochetkov -

аспирант кафедры «Системы искусственного Postgraduate,

интеллекта» Саратовского государственного Department of Artificial Intellect Systems,

технического университета имени Гагарина Ю.А. Yuri Gagarin State Technical University of Saratov

Статья поступила в редакцию 22.10.13, принята к опубликованию 15.12.13

i Надоели баннеры? Вы всегда можете отключить рекламу.