Научная статья на тему 'Применение алгоритмов аппроксимации экспериментальных данных в задаче выявления значимых медико-социальных факторов'

Применение алгоритмов аппроксимации экспериментальных данных в задаче выявления значимых медико-социальных факторов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
87
33
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горнов Александр Юрьевич, Кузьменко Елена Тадэушевна, Аникин Антон Сергеевич, Зароднюк Татьяна Сергеевна

В статье рассматривается использование технологий математического моделирования на основе методик аппроксимации экспериментальных данных для задачи выявления значимых медико-социальных факторов. Приводятся результаты численных экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Горнов Александр Юрьевич, Кузьменко Елена Тадэушевна, Аникин Антон Сергеевич, Зароднюк Татьяна Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение алгоритмов аппроксимации экспериментальных данных в задаче выявления значимых медико-социальных факторов»

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

Горнов А.Ю., Кузьменко Е.Т., Аникин А.С., Зароднюк Т.С. УДК 519.652

ПРИМЕНЕНИЕ АЛГОРИТМОВ АППРОКСИМАЦИИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В ЗАДАЧЕ ВЫЯВЛЕНИЯ ЗНАЧИМЫХ МЕДИКО-СОЦИАЛЬНЫХ ФАКТОРОВ

1. Введение.

Бесплодие в браке остается важной медицинской и социальной проблемой, прежде всего для развитых стран с низким уровнем рождаемости. По данным Всемирной организации здравоохранения (ВОЗ), при частоте бесплодия 15% и выше, его влияние на демографические показатели значительно превышает суммарное влияние других важных факторов, например, таких как невынашивание и перинатальные потери [1]. Кроме того, неспособность иметь детей изменяет социальную и психологическую адаптацию в обществе и ведет к снижению качества жизни.

Актуальными проблемами являются нахождение наиболее значимых медико-социальных факторов, влияющих на риск возникновения бесплодия, и определение причин нарушений репродуктивной функции.

В работе предлагается использовать два подхода к математическому моделированию обозначенных проблем. Первый из них основывается на использовании искусственных нейронных сетей (ИНС), второй — на аппроксимации экспериментальных данных с помощью специальной математической технологии, предложенной в работе [2].

2. Постановка задачи.

Экспертом-медиком — Е.Т. Кузьменко —

специалистом ГУ Научного Центра Медицинской экологии ВСНЦ СО РАМН, поставлена следующая задача: выявить наиболее значимые медико-социальные факторы, влияющие на ухудшение способности воспроизводства, для своевременной профилактики и определения причин нарушения репродуктивной функции на примере населения Иркутской области. Которая, в свою очередь, приводит к следующей актуальной проблеме, связанной с получением экспертного медицин-

ского заключения о состоянии здоровья пациентки на основе определенных значений наиболее влиятельных факторов.

В качестве статистических данных использовались результаты индивидуального анкетного опроса и амбулаторных карт 434 пациенток (225 горожанок, 209 сельских жительниц) с различным статусом репродуктивной способности (фертильности) из следующих населенных пунктов: п. Белореченский, с. Хо-мутово, г. Иркутск и г. Шелехов. Специализированная анкета включает 103 показателя [3], из которых определяются наиболее значимые факторы. Участницы опроса в соответствии со стандартной классификацией ВОЗ подразделяются на следующие категории: фер-тильные, предполагаемо фертильные, первично бесплодные, вторично бесплодные и женщины с неизвестной фертильностью.

На первом этапе ставится задача распределения пациенток по 2-м группам — фертильности и бесплодия. Для этого составляется выборка, включающая 245 женщин, относящихся к одной из представленных групп. На следующем этапе, на основании гипотезы о существовании особенностей процесса формирования риска бесплодия, выполняется более детальная классификация женщин в зависимости от места жительства и наличия в прошлом беременности.

3. Дробно-рациональная аппроксимация.

Задача выявления значимых медико-социальных факторов при формировании нарушений репродуктивной функции решалась с помощью подхода, основанного на дробно-рациональной аппроксимации экспериментальных данных. Предложенный в работе [2] способ аппроксимации функции многих переменных основывается на отношении сумм дроб-

е

УПРАВЛЕНИЕ В ТЕХНИЧЕСКИХ СИСТЕМАХ

но-рациональных функций. Сведений о прецедентах использования этой конструкции для решения задач распознавания найти не удалось, нет их и в оригинальной статье. Для построения рассматриваемого аппроксиманта (назовем его Б-аппроксимант) необходимо иметь набор измерений (экспериментальных данных), при этом никаких ограничений на сетку измерений не накладывается. Аппроксимант являет собой непрерывную бесконечно дифференцируемую функцию, точно проходящую через значения в точках измерений, т.е., строго говоря, эта функция является интерполянтом. Для генерации аппроксимирующей функции не требуется решать задачу обучения (задачу поиска глобального экстремума функции многих перемен- ных), как во многих других способах аппроксимации; для вычисления функции в одной точке необходимо всего около 4• п • к операций, где п -число показателей, к - число элементов обучающей выборки.

Для проверки возможностей Р-аппрокси-манта мы используем принцип тестирования исходных данных на самих себе ("метод комитетов"). Разбиваем исходные данные на две части — обучающую и тестирующую. Обучающая часть выборки используется для построения функции (Р -аппроксиманта), а тестирующая выборка — для проверки качества этой функции. В каждой точке тестирующей выборки вычисляется значение функции, которое сравнивается с известным результатом, после чего производится подсчет числа "промахов" и "попаданий". В данной задаче функцию можно считать бинарной (здоров/болен, 1/0), поэтому для оценки "попадания" полученного значения в область правильного ответа считается, что значения функции, не превосходящие 0.5 равны 0, все остальные — 1. Для правдоподобности результатов тестирования исходные данные разбиваются в пропорции 80/20, где 80% попадает в обучающую выборку, а 20% — в тестирующую. Такое разбиение производится случайным (псевдослучайным) образом, процедура тестирования повторяется достаточно большое число раз. Для каждой из 4-х выборок производится по 1000 тестов с усреднением полученных ре- зульта-тов. Интересующей нас величиной яв- ляется погрешность построенной модели, ко- торая вычисляется по формуле А = (СЕ/СТ)-100%, где СЕ- число "промахов", СТ- число элементов обучающей выборки. Чем меньше данная величина, тем более точной является построенная аппроксимация.

Для улучшения качества получаемой аппроксимации можно применить два способа: а) уточнение самого аппроксиманта путем использования значений производных; б) "чистку" исходных данных. В данной задаче метод а) не может быть признан корректным, поскольку, выходные данные имеют всего два значения — 0 и 1, и эти значения являются экстремальными значениями функции, соответственно, производные в этих точках будут с большой вероятностью нулевыми. Метод б) реализован в двух вариантах — "чистка по горизонтали" и"чистка по вертикали".

Под "чисткой по горизонтали" понимается удаление строк (элементов обучающей выборки), которые создают "шум" и увеличивают погрешность аппроксимации. Для выявления таких строк производится процедура циклического удаления текущих строк обучающей выборки с вычислением разницы между погрешностями модели до удаления и после него. Если эта разница положительная, то удаляемая строка вносит погрешность, если отрицательная — то нет. Данная процедура повторяется достаточно большое число раз — 1000 — со случайным распределением между обучающей и тестирующей выборкой в пропорции 80/20, для каждой строки исходных данных накапливается сумма таких разностей. По полученным результатам строка с максимальной суммой удаляется как элемент, вносящий максимальную погрешность. После этого данная операция рекурсивно применятся к оставшимся строкам требуемое количество раз. Анализ произведенных тестовых расчетов показал, что данный метод не позволил получить приемлемые по точности результаты.

Второй метод, метод "вертикальной чистки", ориентирован на удаление параметров (показателей), которые также могут вносить "шум". Алгоритм работы этого метода похож на предыдущий, только при каждом тестовом расчете удаляется не строка обучающей выборки, а отдельный параметр (столбец), и так же рассчитывается разница между погрешностями до удаления параметра и после удаления. По результатам вычислений выбирается параметр, который вносит наибольший "шум". Использование этого метода показало более приемлемые результаты, поскольку позволило снизить погрешность и достаточно сильно уменьшить размерность задачи, тем самым, уменьшить сложность построенного ап-проксиманта и увеличить скорость вычислений. Предложенные методики программно реализованы А.С. Аникиным на языке С++, ре-

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

зультаты численных экспериментов (см. рис. 1, 2) продемонстрировали высокую адекватность сгенерированных моделей.

Рис. 1. Результаты расчетов для группы городских женщин (Р-аппроксимант, метод "вертикальной чистки")

Рис. 2. Результаты расчетов для группы сельских женщин (Р-аппроксимант, метод "вертикальной чистки")

Таким образом, для городских и сельских женщин определены факторы риска возникновения первичного и вторичного бесплодия. Установлено, что для сельских жительниц основным фактором риска возникновения как первичного, так и вторичного бесплодия являются нарушения менструального цикла; для городских женщин нарушения менструального цикла являются фактором риска развития только первичного бесплодия, а для развития вторичного бесплодия наиболее значимы эндометриоз и перенесенная внематочная беременность. Помимо этого существенное влияние на развитие риска возникновения заболевания городских женщин оказали такие факторы, как работа за компьютером и длинный рабочий день.

По желанию эксперта минимальный набор наиболее влиятельных медико-социальных факторов расширен до 30 наименований, что повысило некоторую трудоемкость задачи создания "виртуальных экспертов", но позво-

лило повысить достоверность получаемых результатов.

4. Аппроксимация с помощью искусственных нейронных сетей.

В ряде слабоформализованных областей (медицине, экологии, географии, геологии и других) традиционно и успешно применяется аппарат ИНС для решения задач распознавания, классификации, прогнозирования, аппроксимации временных рядов и др. (например, [4], [5]). В данной работе нейронные сети применялись для решения задачи получения автоматического медицинского заключения о состоянии здоровья пациентки на основе определенных значений наиболее влиятельных факторов, другими словами предпринята попытка создания "электронных экспертов".

Нейронная функция, составляющая основу структуры сети, традиционно строится из сумматора я и нелинейного функционального преобразователя ф. Входные и выходной сумматоры для сети с двумя входами вычисляются по формулам я. = а ,х1 +а + к-1 х2, . =1,к-1 и

Ек-1 3 3 3

а2к-2ф. соответственно, здесь к- количество нейронов. Функциональный преобразователь имеет следующий вид ф = ^(Л + |я|), Л-характеристика крутизны преобразователя

[4].

Нейронная сеть, получающая на входе некоторый сигнал, способна после прохода его по нейронам выдавать на выходе определенные ответ, который зависит от весовых коэффициентов а. Для определения значений этих параметров необходимо провести обучение нейронной сети, представляющее собой автоматический поиск закономерности между совокупностью обучающих данных и заранее известным результатом. С математической точки зрения эта задача может быть классифицирована как задача параметрической идентификации. Используемый нейросетевой эмулятор, сконструированный по традиционным технологиям, реализован на языке С (Горнов А.Ю., Зароднюк Т.С., [6]). Результатом работы алгоритма является аппроксимирующая экспериментальные данные нейрон- ная функция г(а,х) = а3к-2 фк с известными зна- че-ниями параметров а.

Для решения задачи сформирована выборка, состоящая из 80 % всех измерений (строк анкетных данных) с известными результатами на выходе. Эта выборка используется в качестве обучающей — с помощью нее производится настройка весовых коэффици-

е

УПРАВЛЕНИЕ В ТЕХНИЧЕСКИХ СИСТЕМАХ

ентов нейронной функции. Остальные 20 % данных используются для проверки работоспособности обученной сети. В настоящее время не существует универсальных методик, позволяющих для любой задачи построить ИНС наилучшей структуры, количество слоев и нейронов в каждом слое определяется экспериментально. Поэтому для решения рассматриваемой задачи формируется несколько сетей, состоящих из 1-го, 2-х и 3-х слоев. Количество нейронов в каждом слое выбирается равным 5, 10 и 20. Таким образом, генерируется 9 ИНС разной структуры. Каждая из сетей имеет 30 входов и 1 выход — значение, по которому определяется принадлежность набора входных данных к той или иной группе (1 — бесплодные, 0 — фертильные). В первую группу попадают значения из отрезка [0.5,1], во вторую [0,0.5). С помощью многовариантных расчетов в этой задаче не удалось получить удовлетворительных аппроксимаций. Это, по нашему мнению, связано с тем, что влияние выбранных параметров на уровень репродуктивности у сельских и у городских женщин имеет различный характер.

На следующем этапе выполнено разбиение исходных данных на две категории в зависимости от значений влиятельного фактора, отражающего место жительства пациентки (1 группа — город; 2 группа — село). В каждой категории выделяется две подгруппы: пациентки с первичным и вторичным бесплодием, что приводит к формированию 4-х независимых задач, для каждой из которых строился свой набор ИНС. Лучший результат в задаче определения заболеваемости городских вторично бесплодных пациенток получен с помощью однослойной сети, состоящей из 20 нейронов, показатель правильных ответов которой равен 72,73 % (табл. 1).

На рис. 3. по вертикали отражена эффективность сформированных сетей, по горизонтали их порядковый номер.

Такие "электронные эксперты" способны на основе новых данных, не входящих в исходную выборку, выдавать с определенной степенью уверенности экспертные заключения.

5. Заключение.

В слабоформализуемых областях не всегда приемлемый с математической точки зрения результат является удовлетворительным для эксперта, что приводит к необходимости учитывать опыт специалиста в рассматриваемой области. Построение моделей на основе анкетных статистических данных приводит к

Таблица 1

Структуры и результативность используемых ИНС

№ Структура сети (слои/нейроны) Результат

1 1/5 63,64%

2 1/10 63,64%

3 1/20 72,73%

4 2/5 63,64%

5 2/10 54,55%

6 2/20 63,64%

7 3/5 63,64%

8 3/10 63,64%

9 3/20 63,64%

Рис. 3. Результаты расчетов для группы городских вторично бесплодных женщин (метод ней-ромоделирования)

определенным трудностям, из-за высокой доли субъективной и недостоверной информации. Для решения этой проблемы использовались методы "вертикальной чистки" и "горизонтальной чистки", а также "метод комитетов" для повышения эффективности процесса тестирования создаваемой математической модели.

Понимание основных закономерностей нарушений репродуктивного здоровья женщин при воздействии различных факторов важно в практическом плане для формирования групп повышенного риска. Рассмотренные аппроксимации позволили найти удовлетворительный метод решения поставленных задач аппроксимации экспериментальных данных. С помощью предлагаемых подходов удалось проанализировать исходные данные и построить "электронных экспертов", способ-

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

ных с достаточно высокой вероятностью про- 3. гнозировать диагнозы для новых пациенток. Методика моделирования, основанная на дробно-рациональных аппроксимантах, оказалась адекватной при нахождении минимальных наборов наиболее влиятельных медико-социальных показателей, отражающих нарушение репродуктивной функции пациенток. 4.

Проведенные расчеты позволяют утверждать, что с использованием формальных методов можно выявлять значимые факторы и строить правдоподобные математические мо- 5. дели.

БИБЛИОГРАФИЯ

1. Моргиани, Ф.А. Женское бесплодие: медицинские и социальные аспекты / Ф.А. Моргиани // Проблемы репродуктологии. — М., 2002. - Т.5. - С. 28-32.

2. Neumaier A. Rational functions with prescribed global and local minimizers //J. Global Optimization, 25 (2003), pp. 175-181.

6.

Кузьменко, Е.Т. Опыт проведения эпидемиологического исследования частоты и структуры бесплодия в браке при анкетировании женщин репродуктивного возраста в г. Шелехов Иркутской области / Е.Т. Кузьменко, Л.В. Сутурина, Н.Р. Викулова [и др.] // Бюл. ВСНЦ СО РАМН. - 2005. -№ 5. - С. 49-53.

Горбань, А.Н., Россиев, Д.А. Нейронные сети на персональном компьютере // Новосибирск: Наука. Сибирская издательская фирма РАН, 1996. - 276 с. Уоссермен, Ф. Нейрокомпьютерная техника: теория и практика. - М.: Мир, 1992. -184 с.

Зароднюк, Т.С. Применение нейронной сети для решения модельной задачи оптимального управления с обратной связью // Материалы IX школы-семинара молодых ученых "Математическое моделирование и информационные технологии" 22 - 27 октября 2007. Издательство ИДСТУ СО РАН, 2007. - С. 77-78.

Зароднюк Т.С. УДК 519.714.3

ЧИСЛЕННОЕ ИССЛЕДОВАНИЕ СВОЙСТВ АЛГОРИТМОВ ПАРАМЕТРИЧЕСКОГО СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ

1. Введение.

Задачи построения управления в виде закона с обратной связью возникают при описании динамики многих технических процессов. На сегодняшний день классический синтез оптимального управления (СОУ) сводится к решению уравнения Беллмана [например, 1], которое для многомерных нелинейных объектов сталкивается с непреодолимыми трудностями при приближенном численном решении. Построение точных решений возможно лишь для линейно-квадратичных задач [2, 3]. Однако реальные практические задачи редко удается свести к линейным моделям и квадратичным функционалам.

В данной работе для численного решения задачи построения управления в виде закона с

обратной связью предлагается использовать подходы, основанные на алгоритмах параметрического СОУ.

Рассмотрим постановку задачи СОУ, для решения которой предлагается использовать исследуемые алгоритмы. Поведение модели объекта управления описывается системой обыкновенных дифференциальных уравнений х = /(х,и,(), где х = х(() - вектор фазовых координат размерности п, и = и(х,р,() - вектор управляющих функций размерности г, р - скалярный параметр модели, принимающий значение из интервала [р, ,рд ], t еТ = ] - интервал времени функционирования системы. Вектор-функция / (х,и,() размерности п предполагается непрерывно дифференцируемой по всем аргументам, кроме t. Начальный фазовый век-

i Надоели баннеры? Вы всегда можете отключить рекламу.