2. Impact анализ на примере инфраструктуры корпоративного хранилища данных. [Электронный ресурс]. Режим доступа: https://habrahabr.ru/company/tinkoif/blog/270 373/ (дата обращения: 16.04.2017).
3. Bouloutas A.T., Calo S. and Finkel А. Alarm correlation and fault identification in communication networks. IEEE Transactions on Communications. Р. 523-533, 1994.
4. De Boer F.S, Bonsangue M.M., Groenewegen L.P.J., Stam A. W., Stevens S. and Van Der Torre L. Change impact analysis of enterprise architectures. In IRI '05: IEEE International Conference on Information Reuse and Integration. Р. 177-181, 2005.
МОДЕЛЬ НАПРАВЛЕННОГО УСТРАНЕНИЯ НЕОПРЕДЕЛЕННОСТИ ПРИ БАЙЕСОВСКОМ ВЫВОДЕ В ЗАДАЧЕ ЭКСТРЕННОЙ МЕДИЦИНСКОЙ ДИАГНОСТИКИ
Герман К.А.
Герман Кирилл Андреевич - бакалавр, магистрант,
кафедра автоматических систем управления, факультет автоматики и вычислительной техники, Новосибирский государственный технический университет, г. Новосибирск
Аннотация: в данной работе описана модель последовательного устранения неопределённости для задачи экстренной медицинской диагностики. Предложены и проанализированы критерии для решения задачи выбора диагностических тестов на каждом шаге работы байесовского классификатора.
Ключевые слова: медицинская диагностика, диагностический тест, байесовский классификатор, машинное обучение, отбор признаков, устранение неопределенности, экспертная система.
В настоящее время существует множество экспертных систем, решающих задачу медицинской диагностики и основанных на различных формальных моделях вывода знаний, но большая часть из них не осуществляет процесс выбора наиболее ценной информации на каждом этапе диагностики [1].
Для задачи экстренной медицинской диагностики была предложена система критериев для выбора наиболее предпочтительного алгоритма управления источниками информации: диагностичность информации, время постановки диагноза, его инвазивность и танатогенность заболевания [2].
Целью данной работы является разработка модели последовательного устранения неопределенности при байесовском выводе для постановки диагноза в приемлемые сроки с использованием критериев диагностичности.
Модель выбора наиболее ценного АДТ с целью последовательного устранения неопределённости в задаче медицинской диагностики состоит из пяти элементов:
М = { X ,У, А, , (1)
где х = х X X2 X ... X Xп - пространство показателей пациента, где в каждом множестве имеется два элемента:
• 01, определяющий устранимое пропущенное значение:
• О , определяющий неустранимое пропущенное значение;
У = ^yi ^ - множество диагнозов;
А = . - множество АДТ, где каждый АДТ определяется подмножеством номеров уточняемых показателей;
Г) - базовая модель, на основе которой вычисляется критерий у/ ; у/ '. А X X I—> М. - функционал диагностичности.
В данной работы рассматривается случай, когда I = П и всякий АДТ уточняет
только один показатель: Щ = {-}, I = 1, П. В качестве базовой модели выступает
байесовский классификатор с предположением об условной независимости между признаками и наличии взаимоисключающих диагнозов [3].
На вход модели подаётся вектор показателей х, содержащий один или более неопределённый показатель. Затем производится отбор подмножества АДТ В С А, которые могут уточнить пропущенное значение в х, вычисление диагностичности
УЬк Е В : , х) , и дальнейшее ранжирование множества АДТ по полученным
значениям диагностичности.
Решающее правило модели заключается в выборе АДТ с наибольшим значением диагностичности:
к = аг§тах^( Ьк, х ). (2)
В дальнейшем критерии рассматриваются при условии наблюдения некоторого вектора параметров х, содержащего как минимум одно устранимое пропущенное значение.
Предлагается три альтернативных критерия диагностичности: 1. - диагностичность АДТ на основе отношения правдоподобия [4]:
т _
^ОП (а, х)=£ р (у) £ р (х I у-) ОП (х,1у,)
j=1
(3)
ОП i x | x y )- Ä) =
ОП ^ У ) P (x,|.Vj ) X Р (x,|y,) Р (y, )■
У1 eY\{ yj }
(4)
2. - энтропийная диагностичность АДТ.
Критерий основывается на приросте информативности при дополнении системы новым квантом информации /-го показателя:
IG(Y| | Y\Xt) = H(Y) -H(Y| X) (5)
В (5) можно опустить значение H (Y ), т.к. он не зависит от выбора показателя и
не влияет на решающее правило (2). Таким образом, получается конечная формула энтропийной диагностичности АДТ для данной модели:
__m
¥э (а,, x) = X P(x )£ Р (У, | X,) log Р (yj | X,), (6)
X GXi j=1
m
где по формуле полной вероятности Р (x.) = X Р(X. | y )Р(У ).
j=1
В данной работе был реализован критерий диагностичности в двух вариантах:
• пошаговый - на каждом шаге критерий вычисляется с новым квантом информации;
• однопроходный - значения критерия вычисляются для всех АДТ один раз при X = }"=1, и в дальнейшем эти значения используются для ранжирования АДТ, что уменьшает количество вычислений.
3. №сл - случайный критерий.
Случайный критерий диагностичности введён с целью дальнейшего сравнительного анализа, как возможный случай случайного блуждания при выборе показателей. Критерий является случайной вещественной величиной, имеющей стандартное непрерывное распределение:
уСл ~ £/[0,1] (7)
Рис. 1. График результатов проверки работы критериев
Модель направленного устранения неопределенности, описанная выше, была реализована на языке программирования Python в виде отдельного модуля, позволяющего специфицировать модель D на произвольных наборах прецедентов и вычислять значения критериев для вектора показателей внутри заданной модели.
Эффективность критериев была проверена на наборе данных о сердечных заболеваниях из репозитория машинного обучения UCI (результаты на рис. 1). Потери вычислялись как отношение количества неверно классифицированных наблюдений к объёму проверочной выборки.
Список литературы
Modeling Paradigms for Medical Diagnostic Decision Support: A Survey and Future Directions / Wagholikar K.B., Sundararajan V., Deshpande A.W. // Journal of medical systems, 2012. Vol. 36. Issue 5. P. 3029-3049.
Шегал Б.Р. Модель выбора информации в экстренной медицинской диагностике / Б.Р. Шегал // Сборник научных трудов Новосибирского государственного технического университета, 2013. № 2 (72). С. 68-77.
3. Bishop C. Pattern Recognition and Machine Learning - Springer Verlag New York, 2007. 738 p.
4. Экспертные системы. Принципы работы и примеры: Пер. с англ. / А. Брукинг, П. Джонс, Ф. Кокс и др.; Под ред. Р. Форсайта. М.: Радио и связь, 1987. 224 с.
МЕТОДЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ, ОСНОВАННЫЕ НА СЕГМЕНТАЦИИ Маркин А.Е.
Маркин Андрей Евгеньевич - студент магистратуры, бакалавр, кафедра робототехники и мехатроники, отдел магистратуры, Донской государственный технический университет, г. Ростов-на-Дону
1. Сегментация
Мозг человека, получая изображения от глаз, предоставляет его в качестве однородного объекта, не разбивая его на точки в матрице. И уже далее обрабатывает полученный цельный объект. Данный процесс (объединение точек (слияние)) получил название - сегментация. Сложностей при обработке у человека не происходит, все действия происходят на уровне подсознания. А при компьютерной обработке изображения реализация происходит программно. На начальных этапах анализа изображения происходит сегментация. Основное воздействие на точность, скорость, а также последующую релевантность обработки изображения несет качество сегментации.
Интенсивные исследования в области сегментации изображения производились и ведутся отечественными и зарубежными учеными. В рамках заданной области исследования хотелось бы выделить работы таких авторов, как Баяковский Ю.М., Богуславский A.A., Б. Рассел, Дж. Малик, М. Андретто, Андреев Ю.С., Юй-Ли, Юй-Цзинь Чжан, Дж. Ши, П. Виола, М. Джонс, Вежневец В.П., Казанов М.Д., Сергеев В.В.
Уже было разработано большое количество подходов к сегментации изображения, но до сих пор нет ни одного универсального способа. Применимость методов сегментации зависит от текстуры, качества, размера, происхождения, предмета исследования, а также множества различных параметров. Исходя из запросов, применяются разные способы. Зачастую выбранный метод сегментации применим только для конкретного типа исследования, как правило, методы узкоспециализированы и не могут быть использованы для изображений, несоответствующих «типичным случаям».
2. Методы, основанные на сегментации
Важный этап в задачах распознавания образов является формирование входного вектора, то есть набора важных признаков (параметров), на основе которого возможно осуществить обработку информации и определить наличие тех или иных образов в массиве данных. В задачах анализа изображений такими параметрами считают наборы контуров и однородных областей, а также данные о них, периметр, площадь, центры масс и оси симметрии выделенных областей и контуров. Из этого следует, что важнейший этап к распознаванию образов - сегментация, то есть деление изображения на однородные области по критерию [2].
2.1. Иерархическая кластеризация
Методы, основанные на поочередном объединении (или разъединении) кластеров согласно принципу близости друг к другу, относят к иерархическим. Иерархические методы разделяют на две стратегии, на агломеративные и дивизионные.