Применение логических алгоритмов классификации для решения задач диагностики медицинских заболеваний

Кузьмич Р.И.; Масич И.С.

Актуальные проблемы авиации и космонавтики. Информационные технологии

быть проявлением длинного непериодического цикла. Значения ряда при этом приближенно выстраиваются вдоль линии, выражающей такую тенденцию, и в пределе, когда Н = 1, совпадают с этой линией, размерность которой будет Б = 1 [4].

Использование фрактальных свойств временных рядов измерений для целей диагностики технического состояния процессов и систем требует очень большого объема данных (порядка тысячи экспериментальных замеров) Поэтому к результатам исследований, полученных при значительно меньших объемах экспериментальных данных, следует относиться с осторожностью.

Библиографические ссылки

1. Пригожин И., Стенгерс И. Порядок из хаоса. Новый диалог человека с природой ; пер. с англ. М. : Эдитариал УРСС, 2000.

2. Федер Е. Фракталы. М. : Мир, 1991.

3. Мандельброт Б. Фрактальная геометрия природы ; пер. с англ. М. : Ин-т компьютерных исследований, 2002.

4. Сериков А. Е. Фрактальный анализ временных рядов // Социология 4М. Научный журнал РАН. М. : ИС РАН. 2006. № 22.

УДК 519.68

Р. И. Кузьмич Научный руководитель - И. С. Масич Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ПРИМЕНЕНИЕ ЛОГИЧЕСКИХ АЛГОРИТМОВ КЛАССИФИКАЦИИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ДИАГНОСТИКИ МЕДИЦИНСКИХ ЗАБОЛЕВАНИЙ1

Рассматривается эффективность разработанного логического алгоритма классификации для решения задач диагностики медицинских заболеваний: рака молочной железы и гепатита.

Большинство задач диагностики, привлекающих внимание исследователей в медицине, может быть сформулировано следующим образом. Имеется выборка данных, которая состоит из двух непересекающихся множеств и «-мерных векторов. Каждый вектор соответствует некоторому пациенту, векторы множества соответствуют пациентам, находящимся в некотором медицинском состоянии (например, болен или имеет осложнение заболевания), а векторы

не соответствуют этому состоянию. Компоненты векторов, называемые признаками, представляют собой результаты определенных измерений, тестов. Эти компоненты могут быть численными, номинальными или бинарными.

Задача состоит в том, чтобы на основании имеющейся выборки данных (классифицированных ранее наблюдений) извлечь информацию о состоянии «нового» пациента, наблюдение которого не содержится в выборке. Главная цель решения таких задач - на основе анализа данных и вычислительных систем диагностики определить индивидуальную терапию для пациента.

В основе предлагаемого подхода к классификации данных лежит метод, происходящий из теории комбинаторной оптимизации и называемый логическим анализом данных.

Разработанный алгоритм классификации данных состоит из этапов, на каждом из которых требуется решение серии задач комбинаторной оптимизации. Критерий и ограничения в задачах заданы псевдобулевыми функциями, характеризующимися наличием свойств унимодальности и монотонности. От эффективности решения этих задач зависит точность и трудоемкость метода.

Построение эффективных правил и модели классификации является сложной комбинаторной задачей. Результаты ее решения определяются видом сформированных критериев и ограничений, а также используемыми алгоритмами оптимизации [1].

Разработанный алгоритм классификации данных рассмотрим на примере задачи диагностики рака молочной железы.

Для проведения испытаний использовалась выборка данных, состоящая из 211 пациентов со злокачественной опухолью (положительные объекты) и 357 объектов с доброкачественной опухолью (отрицательные объекты). 20 % из них использовалась для тестирования и в построении решающей модели не участвовала. В результате бинаризации из 30 признаков было получено 120 бинарных признаков.

В табл. 1 представлены результаты испытаний с использованием двух оптимизационных моделей: с ограничением, исключающим захват правилом объекта другого класса, и с ограничением, позволяющим покрытие правилом нескольких объектов другого класса. Приведены средние значения покрытий и степени для наборов правил.

Следующей задачей диагностики, к которой применен разработанный алгоритм классификации данных, является задача диагностики гепатита.

В испытании участвовали 32 положительных (летальный исход) и 123 отрицательных (выжившие) объектов. 15 % выборки использовалось при тесте. Бинарных признаков 37 из 20 исходных. В табл. 2 представлены результаты испытаний с использованием двух оптимизационных моделей.

1 Работа выполнена при финансовой поддержке гранта Президента РФ (код проекта МК-463.2010.9).

Секция «Математические методы моделирования, управления и анализа данных»

Таблица 1

Задача оптимизации Множество правил Покрытие отрицательных объектов Покрытие положительных объектов Степень правила Точность классификации, %

Оптимизационная модель с ограничением, исключающим захват правилом объекта другого класса Отрицательные 172 0 4 95

Положительные 0 106 4 96

Оптимизационная модель с ограничением, позволяющим покрытие правилом объекта другого класса Отрицательные 250 5 2 98

Положительные 5 127 4 95

Таблица 2

Задача оптимизации Множество правил Покрытие отрицательных объектов Покрытие положительных объектов Степень правила Точность классификации, %

Оптимизационная модель с ограничением, исключающим захват правилом объекта другого класса Отрицательные 61 0 4 67

Положительные 0 7 4 85

Оптимизационная модель с ограничением, позволяющим покрытие правилом объекта другого класса Отрицательные 61 5 4 71

Положительные 5 7 4 78

Проведенные эксперименты показали высокую точность классификации для решения задач диагностики медицинских заболеваний. Степень правил в данных задачах небольшая, поэтому построенные правила являются наглядными и простыми для классификации объектов без помощи вычислительной системы.

Библиографическая ссылка

1. Головенкин С. Е. Гулакова Т. К., Кузьмич Р. И., Масич И. С., Шульман В. А. Модель логического анализа для решения задачи прогнозирования инфаркта миокарда // Вестник СибГАУ. Вып. 4 (30). 2010. С. 68-73.

УДК 519.68

Д. В. Малухин Научный руководитель - В. В. Тынченко Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

КОЭВОЛЮЦИОННЫЙ ГЕНЕТИЧЕСКИЙ АЛГОРИТМ ФОРМИРОВАНИЯ СЕТИ КОХОНЕНА ДЛЯ ДВУМЕРНОГО ВХОДНОГО ПРОСТРАНСТВА

Рассматривается коэволюционный генетический алгоритм, позволяющий формировать сеть Кохонена. Алгоритм не требует от аналитика задания таких настроек, как характер уменьшения скорости и радиуса обучения, что позволяет использовать его даже человеку, не имеющему большого опыта работы с самоорганизующимися картами Кохонена.

Нейронные сети, называемые самоорганизующимися картами Кохонена (СКК), представляют собой одну из разновидностей искусственных нейронных сетей, принципиальное отличие которой заключается в том, что такие сети используют неконтролируемое обучение - когда сеть подстраивается не под эталонное значение выхода, а под закономерности во входных данных [1] СКК могут использоваться для решения разнообразных задач, таких как кластеризация, прогнозирование, поиск закономерностей в больших

массивах данных, выявление наборов независимых признаков, сжатие информации.

Для обучения СКК необходимо задать множество настроек алгоритма обучения. По большинству настроек существуют довольно универсальные рекомендации, но имеются настройки, например, характер изменения скорости и радиуса обучения или количество эпох обучения, выбор которых полностью ложится на плечи аналитика. При отсутствии у аналитика достаточного опыта в использовании алгоритма

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузьмич Р.И., Масич И.С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кузьмич Р.И., Масич И.С.

Текст научной работы на тему «Применение логических алгоритмов классификации для решения задач диагностики медицинских заболеваний»