УДК 616.519.2
А.М. Златорев, Н.Е. Казимирова, М.А. Радченко СРАВНИТЕЛЬНАЯ ОЦЕНКА ЭФФЕКТИВНОСТИ ДИАГНОСТИКИ ЗАБОЛЕВАНИЙ ЛЕГКИХ НА ОСНОВЕ ДИСКРИМИНАНТНОГО АНАЛИЗА
И НЕЙРОННЫХ СЕТЕЙ
Рассматриваются результаты исследования сравнительной эффективности методов статистического анализа и нейронных сетей при диагностике заболеваний легких. Выявлены границы применимости пошагового дискриминантного анализа в создании процедуры медицинской диагностики пневмозаболеваний на основе нейронных сетей двух видов.
Медицина, искусственный интеллект, пошаговый дискриминантный анализ, нейронные сети, диагностика
A.M. Zlatorev, N.E. Casimirova, M.A. Radchenko COMPARATIVE EVALUATION OF THE DIAGNOSIS OF DISEASES LUNG THROUGH DISCRIMINANT ANALYSIS AND NEURAL NETWORKS
Study the comparative effectiveness of statistical analysis and neural networks for the diagnosis of lung diseases. Identification of the boundaries of applicability of step discriminant analysis to establish the procedure for medical diagnosis of lung disease based on neural networks of the two species.
Medicine, artificial intelligence, disassembly, discriminant analysis, neural networks, diagnostics
Введение
Заболевания егких занимают третье место после болезней сердечно-сосудистой системы и злокачественных образований. Актуальность темы обусловливается возрастающей сложностью постановки медицинского диагноза заболеваний. Для повышения оперативности и достоверности этого диагноза необходимо использовать методы искусственного интеллекта, современные информационные технологии для создания систем поддержки принятия решения [1].
Целью данной работы является исследование сравнительной эффективности методов статистического анализа и нейронных сетей для диагностики заболеваний легких.
Новизна работы заключается в выявлении границ применимости пошагового дискриминантного анализа и создании процедуры медицинской диагностики заболеваний в области пульмонологии на основе нейронных сетей двух видов.
Особенности объекта изучения, которые необходимо учитывать при создании математических методов медицинской диагностики заболевания определенного класса: наличие большого числа переменных и параметров, используемых для описания их состояния; их взаимная, изменяющаяся зависимость; часто сильная зашумленность при измерении переменных; пропуски данных; наличие так называемых «диких выбросов» в измерениях; наличие качественных переменных; неопределенность в поведении объектов [2].
322
Эти и другие факторы существенно затрудняют построение регулярных моделей и принятие управляющих решений.
Постановка задачи
Исследования проводились по данным, полученным в результате медицинской диагностики 72 больных. Данные представляют собой карту больного, которая содержит 6 характеристик сердечно-сосудистой системы (ССС): АЯЯ, длительность QRS-комплекса, мода, амплитуда моды, вариационный размах, частота сердечных сокращений (ЧСС). Необходимо выявить наиболее существенные признаки и изучить дискриминацию между следующими стадиями туберкулеза:
- с ограниченными формами (до 1 доли легкого);
- с распространенными формами (более доли легкого) обратимый процесс;
- с распространенными формами (более доли легкого) хронический процесс;
- нет данных за активный туберкулез легких.
Описание и анализ результатов исследования
В процессе дискриминантного анализа найдены средние и действующие значения для каждой совокупности и для комбинации всех групп, построены диаграммы размаха и диаграммы рассеяния корреляций между переменными (рис. 1), а также выполнен пошаговый дискриминантный анализ. Его идея заключается в построении линейных гиперплоскостей для решения задачи классификации заболеваний. На графиках видно, что для этого метода задача является плохо разрешимой [3].
100 ЧСС, уд/мин б
Рис. 1. Диаграммы рассеяния корреляций между: а - АЯЯ и амплитудой моды; б - длительностью ОЯБ-комплекса и ЧСС
а
В рассматриваемой работе использовалась процедура пошагового включения. Для каждой переменной вычисляется значение дискриминантной функции, и включается та переменная, у которой это значение наибольшее и коэффициент значимости р < 0,05. Затем добавляются переменные, до тех пор, пока оставшиеся переменные будут иметь большое значение дискриминантной функции и не превысится критическое значение коэффициента значимости (рис. 2, 3).
N=58 Переменные вне модели (Все_данные.Б1а) Ст.св. для всех Р: 3,54
Уилкса лямбда Частная лямбда Р включит р-уров. Толер. 1 -толер. (Р!-кв.)
с^, мс 0,872486 0,872486 2,630707 0,059306 1,000000 0,00
Длительность С!Р?3-комплекса, мс 0,991438 0,991438 0,155448 0,925732 1,000000 0,00
Мо, мс 0,872053 0,872053 2,640944 0,058595 1,000000 0,00
АМо,% 0,874571 0,874571 2,581526 0,062844 1,000000 0,00
Вариационный размах, мс 0,853728 0,853728 3,084000 0,034839 1,000000 0,00
ЧСС, уд/мин 0,891742 0,891742 2,185213 0,100344 1,000000 0,00
Рис. 2. Результаты на шаге 0
Итоги анализа дискриминант, функций (Все_данные^а) Шаг 1, Переменных в модели: 1; Группир.: Диагноз (4 гр.) Лямбда Уилкса: ,85373 прибл. Р (3,54)=3,0840 р< ,0348
N=58 Уилкса лямбда Частная лямбда Р-исключ (3,54) р-уров. Толер. 1-толер. (Р^-кв.)
Вариационный размах, не 1.000000 .0,853728 3,084000 0,034839 1,000000 0,00
N=58 Переменные вне модели (Все_данные.з1а) Ст.св. для всех Р: 3,53
Уилкса лямбда Частная лямбда Р включит р-уров. Толер. 1-толер. (Р-кв.)
с1Р?Р?, мс 0,799612 0,936612 1,195644 0,320363 0,896311 0,103689
Длительность СИЗЗ-комплекса, мс 0,841758 0,985980 0,251212 0,860120 0,987982 0,012018
Мо, мс 0,787253 0,922136 1,491762 0,227366 0,903113 0,096887
АМо,% 0,793904 0,929926 1,331254 0,274010 0,870335 0,129665
ЧСС, уд/мин 0,785973 0,920636 1,522965 0,219232 0,959635 0,040365
Рис. 3. Результаты на шаге 1
N=58 Итоги анализа дискриминантн. Шаг 4, Переменных в модели: ^ Лямбда Уилкса: ,68216 прибл. функций (Все_данные^а) I; Группир.: Диагноз (4 гр.) - (12,135)=1 ,7527 р< ,0624
Уилкса лямбда Частная лямбда Р-исключ (3,51) р-уров. Толер. 1-толер. (Р-кв.)
Вариационный размах, мс 0,718630 0,949252 0,908846 0,443317 0,798111 0,201889
ЧСС, уд/мин 0,757743 0,900253 1 ,883576 0,144079 0,156602 0,843398
сЛ^, мс 0,739719 0,922189 1 ,434408 0,243563 0,141011 0,858989
АМо,% 0,727302 0,937933 1 ,124965 0,347708 0,789787 0,210213
N=58 Переменные вне модели (Все_данные.з1а) Ст.св. для всех Р: 3,50
Уилкса лямбда Частная лямбда Р включит р-уров. Толер. 1-толер. (Р-кв.)
Длительность ОРЗ-комплекса, мс 0,664835 0,974602 0,434336 0,729359 0,932596 0,067404
Мо, мс 0,679077 0,995479 0,075692 0,972810 0,068662 0,931338
Рис. 4. Результаты на последнем шаге
Частичная статистика Уилкса лямбда показывает, что переменная ЧСС обеспечивает наибольший вклад, переменная АКК - вторая по значению вклада, переменная АМо - третья и переменная “Вариационный размах” вносит в общую дискриминацию наименьший вклад (чем меньше статистика Уилкса лямбда, тем больше вклад в общую дискриминацию).
Далее проведена классификация наблюдений, результаты которой частично отображены на рис. 5.
Таким образом, точность предсказания составила менее 50%.
Интерпретация медицинских данных, полученных в результате диагностики и лечения, является одним из серьезных направлений применения нейронных сетей [4]. Для прогнозирования диагноза спроектированы 10 нейронных сетей, при этом использовалось все множество переменных. Применение следующие виды нейронных сетей: многослойный пер-септрон (МП), радиальная базисная функция (РБФ). Архитектуры некоторых из них представлены на рис. 6.
Наблюдение На олю д. Класс. 1 р=,29310 2 р= ,27586 3 р=,15517 4 р= ,27586
1 6 1:1 0 1:1 0 2:2 0 3:3 0 4:4
2 0 1:1 0 1:1 0 2:2 0 4:4 0 3:3
* 3 6 1:1 0 2:2 0 1:1 0 4:4 0 3:3
* 4 0 1:1 0 2:2 0 1:1 0 4:4 0 3:3
* 5 0 1:1 0 2:2 0 1:1 0 4:4 0 3:3
* 6 0 1:1 0 4:4 0 2:2 0 1:1 0 3:3
* 7 0 1:1 0 4:4 0 2:2 0 1:1 0 3:3
8 0 1:1 0 1:1 0 2:2 0 4:4 0 3:3
9 0 1:1 О 1:1 0 2:2 0 3:3 0 4:4
* 10 0 1:1 0 2:2 0 4:4 0 1:1 0 3:3
* 11 0 1:1 0 4:4 0 1:1 0 3:3 0 2:2
* 12 0 1:1 0 2:2 0 1:1 0 4:4 0 3:3
13 0 1:1 0 1:1 0 3:3 0 2:2 0 4:4
14 0 1:1 0 1:1 0 3:3 0 2:2 0 4:4
15 0 1:1 0 1:1 0 2:2 0 3:3 0 4:4
* 16 0 1:1 0 4:4 0 2:2 0 1:1 0 3:3
17 0 1:1 0 1:1 0 3:3 0 2:2 0 4:4
18 0 2:2 0 2:2 0 4:4 0 1:1 0 3:3
19 0 2:2 0 2:2 0 1:1 0 4:4 0 3:3
20 0 2:2 0 2:2 0 1:1 0 4:4 0 3:3
Рис. 5. Классификация наблюдений, неправильные классификации отмечены
В таблице представлены результаты использования НС. Номер столбца соответствует номеру НС. Строка - тип к которому программа автоматически отнесла наблюдение.
Точность прогнозов для двух видов НС составила не менее 92%.
Заключение
Метод статистического анализа в виде пошагового дискриминантного анализа неудовлетворительно справился с задачей классификации, которая используется для медицинской диагностики легочных заболеваний. Комбинированная процедура, которая использует результаты статического анализа на этапе предварительного анализа для выявления наиболее значимых переменных и в последующем искусственные нейронные сети также оказалась неудовлетворительной по точности диагноза.
Таблица
Предсказания для множества данных
Диагноз Диагноз 1 Диагноз 2 Диагноз 3 Диагноз 4 Диагноз 10
1 Обучающая 1 1 1 1 1 1
2 Обучающая 1 1 1 1 1 1
3 Обучающая 1 1 1 1 1 1
4 Обучающая 1 1 1 1 1 1
5 Обучающая 1 1 1 1 1 1
6 Тестовая 1 1 1 4 1 1
7 Обучающая 1 1 1 1 1 1
8 Обучающая 1 1 1 1 1 1
9 Контрольная 1 1 1 1 1 1
10 Обучающая 1 1 1 1 1 1
11 Обучающая 1 1 1 1 1 1
12 Обучающая 1 1 1 1 1 1
13 Контрольная 1 1 1 1 1 1
14 Обучающая 1 1 1 1 1 1
15 Обучающая 1 1 1 1 1 1
16 Обучающая 1 1 1 1 1 1
17 Контрольная 1 1 1 1 1 1
18 Обучающая 2 2 2 2 2 2
19 Обучающая 2 2 2 2 2 2
20 Тестовая 2 2 2 2 2 2
21 Тестовая 2 1 1 1 1 2
22 Контрольная 2 2 2 2 2 2
23 Обучающая 2 2 2 2 2 2
24 Обучающая 2 2 2 2 2 2
25 Тестовая 2 2 2 2 2 2
26 Тестовая 2 1 2 2 2 2
27 Обучающая 2 3 2 2 2 2
28 Контрольная 2 2 2 2 2 2
29 Обучающая 2 2 2 2 2 2
30 Контрольная 2 3 2 3 3 2
31 Обучающая 2 2 2 2 2 2
32 Обучающая 2 2 2 2 2 2
33 Обучающая 2 2 2 2 2 2
34 Обучающая 3 3 4 3 3 3
35 Тестовая 3 3 3 3 3 3
36 Обучающая 3 4 3 3 3 3
37 Обучающая 3 3 3 3 3 3
38 Обучающая 3 3 3 3 3 3
39 Обучающая 3 3 3 3 3 3
40 Обучающая 3 3 3 3 3 3
а
Рис. 6. Архитектура: а - МП; б - РБФ
Использование нейронных сетей на исходном множестве переменных позволило достигнуть требуемой точности, что подтверждено на контрольной выборке. Это указывает на существенную нелинейность связей входных переменных и выходной, которая не могла быть описана на основе гипотезы линейности зависимости, которая находится в основе статистического анализа на базе математического аппарата дискриминантного анализа
ЛИТЕРАТУРА
1. Бавеский Р.М. Прогнозирование состояний на грани нормы и патологии. М. : Медицина, 1979. 298 с.
2. Большаков А.А. Синтез и реализация автоматизированных интеллектуальных систем управления организационно-техническими процессами. Диссертация на соискание ученой степени доктора технических наук.
3. Большаков А.А., Каримов Р.Н. Методы обработки данных и временных рядов: Учебное пособие для вузов. М.: Горячая Линия-Телеком, 2007. 522 с.
4. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия-Телеком, 2002. 382 с.
Златорев Артем Михайлович -
ассистент кафедры «Фтизиопульмонология» Саратовского государственного медицинского университета имени В.И. Разумовского
Казимирова Наталия Евгеньевна -
доктор медицинских наук, профессор, заведующая кафедрой «Фтизиопульмонология» Саратовского государственного медицинского университета имени В. И. Разумовского
Радченко Мария Анатольевна -
магистрант кафедры «Техническая кибернетика и информатика» Саратовского государственного технического университета имени Гагарина Ю.А.
Статья поступила в редакцию 13.02.12, принята к опубликованию 12.03.12