Научная статья на тему 'Принятие решений с использованием ансамбля классификаторов'

Принятие решений с использованием ансамбля классификаторов Текст научной статьи по специальности «Математика»

CC BY
200
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНСАМБЛЬ КЛАССИФИКАТОРОВ / МАШИННОЕ ОБУЧЕНИЕ / SVM / KNN / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / ПРИНЯТИЕ РЕШЕНИЙ / CLASSIFIER ENSEMBLE / MACHINE LEARNING / LOGISTIC REGRESSION / DECISION MAKING

Аннотация научной статьи по математике, автор научной работы — Микшина Виктория Степановна, Павлов Сергей Игоревич

В работе описан подход к получению ансамбля классификаторов для задачи прогнозирования результатов операции аортокоронарного шунтирования при остром инфаркте миокарда. В работе показано что при одинаковой точности уменьшении размеров обучающей выборки ансамбль алгоритмов демонстрирует более высокую точность проноза, по сравнению с отдельными моделями.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DECISION SUPPORT USING THE ENSEMBLE OF CLASSIFIERS

The paper describes an approach to obtaining an ensemble of classifiers for the task of predicting the results of coronary artery bypass surgery in acute myocardial infarction. It is shown that, with the same accuracy, the reduction in the size of the training sample, the ensemble of algorithms demonstrates a higher accuracy of pronosis, compared with individual models.

Текст научной работы на тему «Принятие решений с использованием ансамбля классификаторов»

Литература

1. Juanes R. Displacement theory and multiscale numerical modeling of three-phase flow in porous media, Ph. D. Thesis, University of California, Berkeley, California, 2003.

2. Брусиловский А.И. Фазовые превращения при разработке месторождений нефти и газа. -М.: «Грааль», 2002. 575 с.

3. Пирвердян А.М. Физика и гидравлика нефтяного пласта. - М.: Недра, 1982. 192 с

5. АзизХ., Сеттари Э. Математическое моделирование пластовых систем: Пер. с англ. / Под ред. М.М. Максимова. - М.-Ижевск: Институт компьютерных исследований, 2004. 416 с. Репринтное издание. Оригинальное издание: М.: «Недра», 1982 г.

6. Каневская Р. Д. Математическое моделирование гидродинамических процессов разработки месторождений углеводородов. - Москва-Ижевск: Институт компьютерных исследований, 2002. 140 с.

7. Bear J. Dynamics of fluids in porous media, Dover, New York, 2005. Reprint. Originally published: American Elsevier, New York, 1972. 764 р.

Сведения об авторах Information about authors

Сергей Сергеевич Мирошниченко Sergey Sergeevich Miroshnichenko

асп. каф. дистанционные технологии Postgraduate Student, Dep. of Remote Technologies

ИжГТУ имени М. Т. Калашникова Izhevsk State Tech. University. M.T. Kalashnikova

Россия, Удмуртия, г. Ижевск Russia, Udmurtia, Izhevsk

Эл. почта: [email protected] Email: [email protected]

Вадим Евгеньевич Лялин Vadim Evgenevich Lyalin

Д-р техн. наук, д-р геол.-минер. наук, д-р экон. Doctor of Technical Sciences, Doctor of Geological Sciences,

наук Doctor of Economics

Проф. каф. Дистанционные технологии Professor of the Department of Remote Technologies

ИжГТУ имени М. Т. Калашникова Izhevsk State Tech. University. M.T Kalashnikova

Россия, Удмуртия, г. Ижевск Russia, Udmurtia, Izhevsk

Эл. почта: [email protected] E-mail: [email protected]

УДК 004.8 В.С. Микшина, С.И. Павлов

ГРНТИ 28.23.25 Сургутский государственный университет

ПРИНЯТИЕ РЕШЕНИЙ С ИСПОЛЬЗОВАНИЕМ АНСАМБЛЯ КЛАССИФИКАТОРОВ

В работе описан подход к получению ансамбля классификаторов для задачи прогнозирования результатов операции аортокоронарного шунтирования при остром инфаркте миокарда. В работе показано что при одинаковой точности уменьшении размеров обучающей выборки ансамбль алгоритмов демонстрирует более высокую точность проноза, по сравнению с отдельными моделями.

Ключевые слова: Ансамбль классификаторов, машинное обучение, SVM, kNN, логистическаяре-грессия, принятие решений

V.S. Mikshina, S.I. Pavlov

Surgut State University

DECISION SUPPORT USING THE ENSEMBLE OF CLASSIFIERS

The paper describes an approach to obtaining an ensemble of classifiers for the task of predicting the results of coronary artery bypass surgery in acute myocardial infarction. It is shown that, with the same accuracy, the reduction in the size of the training sample, the ensemble of algorithms demonstrates a higher accuracy of pronosis, compared with individual models.

Ключевые слова: Classifier ensemble, machine learning, SVM, kNN, logistic regression, decision making Введение

Технологии анализа данных активно применяются в различных областях науки, техники и социальной сферы с помощью информационных технологий. Одной из самых распространенных задач анализа данных является задача классификации. Классификатор - математическая модель, позволяющая вычислить, к какому из заранее определенных классов стоит отнести тот или иной

объект, представленный в виде вектора значений. Задача получения такого классификатора относится к задачам "обучения с учителем" (Supervised learning). Такой подход зарекомендовал себя в области задач поддержки принятия решений.

В данной работе обсуждается задача выбора способа кардиоплегии (комплекса мероприятий, направленных на снижение двигательной активности миокарда для уменьшения количества потребляемого кислорода крови во время операции аортокоронарного шунтирования (АКШ). В настоящее время широко распространены: кровяная кардиоплегия и кардиоплегия с использованием раствора «Кустодил». При принятии решения врачу необходимо, одновременно учитывать множество дооперационных показателей пациента, иногда даже в условиях дефицита времени. В такой ситуации использование математических моделей, могущих предсказать исход наступления благоприятного или наоборот летального исхода, в зависимости от выбранного способа кардио-плегии, окажет информационную поддержку врачу кардиохирургу при подготовке к операции.

Для получения таких моделей требуется огромное количество экспериментальных данных при увеличении размерности пространства, описывающего объект. В условиях ограниченного количества экспериментального материала, большее внимание стоит уделить моделям c высокими показателями предсказательной способностью, при этом полученных на небольших объемах данных. Одним из способов получения таких моделей является комбинация нескольких классификаторов, называемая ансамблем. На основании этого целью настоящей работы является, разработка ансамбля математических моделей исхода операции АКШ, при различных способах кардиоплегии [1,2,3].

Используемые модели

В качестве базовых алгоритмов были использованы логистическая регрессия, машина опорных векторов, деревья решений и k - ближайших соседей [4].

Логистическая регрессия - статистическая модель, используемая для прогнозирования вероятности наступления некоторого события. Расчет вероятности осуществляется за счет "подгонки" наблюдаемых данных к логистической кривой.

Делается предположение о том, что вероятность наступления события y=1 равна: P{y = 1 I х} = f(z), где z = 8Tx = 80 + 81х1 + —\-Qnxn, x и 8, — векторы-столбцы значений независимых переменных 1,х1,.,хп и параметров (коэффициентов регрессии) - вещественных чисел 80,..,8П соответственно, а f(z) — так называемая логистическая функция (иногда также называемая сигмоидом или логит-функцией) P (z) = 1+g_z.

Машина опорных векторов (support vector machine - SVM) - - математическая модель классификации, основанная на понятии оптимальной разделяющей гиперплоскости (). При невозможности разделения классов линейной поверхностью (гиперплоскостью). Применяется прием называемый (kernel trick - подмена ядра), заключающийся перенесением выборки из исходного пространства в пространство более высокой размерности.

Метод k ближайших соседей (k Nearest neighbours - kNN) - метрический алгоритм классификации в котором объект относится к тому классу, который является наиболее распространённым среди k соседей данного элемента, классы которых уже известны.

Деревья решений (Classification and regression trees CART) - Решающие деревья воспроизводят логические схемы, позволяющие получить окончательное решение о классификации объекта с помощью ответов на иерархически организованную систему вопросов. Причём вопрос, задаваемый на последующем иерархическом уровне, зависит от ответа, полученного на предыдущем уровне. Каждой из вершин дерева за исключением листьев соответствует некоторый вопрос, подразумевающий несколько вариантов ответов, соответствующих выходящим рёбрам. В зависимости от выбранного варианта ответа осуществляется переход к вершине следующего уровня. Концевым вершинам поставлены в соответствие метки, указывающие на отнесение распознаваемого объекта к одному из классов. Решающее дерево называется бинарным, если каждая внутренняя или корневая вершина инцидентна только двум выходящим рёбрам.

Постановка задачи получения ансамбля алгоритмов

Пусть имеется множество П = меток классов и пусть x= [х1,.,хс]Т ERm -

набор признаков, описывающих объект данных. Классификотором называется следующее отображение: D: Rm ^ [0,1]с где D(x) - вектор размерности с, у которого i-й компонент определяет степень принадлежности x классу W(,i= 1,..,с. При использовании k классификаторов, выходы классификаторов агрегируются для получения окончательного решения: D(x) = F(D1(x),..,Dfc(x)),

где F - оператор агрегирования. Выходом каждого отдельного классификатора для объекта данных x является c-мерный вектор Di = [е?(д(х),..,^с(х)] ,i = 1,..,k. Выходом комбинации (ансамбля) классификаторов является c-мерный вектор - D^ = [цгд(х),.., Мч,с(х)] . При необходимости выбора лишь одной метки из множества А, то класс должен соответствовать максимальному значению степеней принадлежности значению dis(x) >d(j(x)V/ = 1, ...,c среди всех классификаторов и ns(x) >^t(x)Vt = 1,..,c для всего ансамбля.

В качестве операторов агрегирования используем "большинство голосов" и "усреднение" ввиду простоты реализации и возможности интуитивной интерпретации результатов.

Пусть существует c-мерный вектор Di = [dj 1(x),.,djC(x)] 6 [0,1]с для любого объекта x. Некоторое значение d(j(x) 6 [0,1] будет являться "голосом" классификатора Di, который он подает за определение объекта x к классу ^. При требовании голосования классификатора лишь за один из классов из , будем огрублять значения выхода классификатора в сторону

максимального значения степени принадлежности к некоторому классу. <=Ф dis(x) =

max (d(j(x)j.

Решение "большинством голосов" Fma]- на основе с-мерного вектора, рассчитывается следующим образом:

F(x) = |l, 2 = max*=i.....с ^^ d(x)j;

^ 0,

Решение "усреднением" Fmean на основе с-мерного вектора, рассчитывается следующим образом:

F(x) = D(x) = [dx(x).....dc(x)]T,d,(x) 6 [0,1],j = 1.....c

dj = round

^d(x)

i,J

где round- функция округления в сторону ближайшего целого [5,6,7].

Результаты

Для представления результатов работы классификатора удобно использовать таблицы сопряженности. Строки таблицы сопряженности количеству реальных значений зависимой переменной, столбцы - значениям, полученным с помощью математической модели. На пересечении строки и столбца указывается количество совместных появлений соответствующих событий. В табл. 1 представлены результаты расчетов точности отдельных классификаторов, а также ансамбля алгоритмов для кровяной кардиоплегии и кардиоплегии с использованием Кустодиола [7.-154].

Таблица 1.

Таблицы сопряженности и точность различных классификаторов

Результаты предсказания модели

Кустодиол Кровяная кардиплегия

Алгоритм Выжило Умерло точность Выжило Умерло точность

Логистическая регрессия Выжило 80 6 83% 76 0 100%

Умерло 16 20 77% 0 8 100%

k - Nearest Neighbors Выжило 86 0 100% 50 26 89%

Умерло 0 36 100% 6 2 7%

CART Выжило 86 0 100% 76 0 100%

Умерло 0 36 100% 0 8 100%

SVM Выжило 86 0 100% 76 0 90%

Умерло 0 36 100% 8 0 0%

Ансамбль алгоритмов Выжило 86 0 100% 76 0 100%

Умерло 0 36 100% 0 8 100%

Несмотря на то, что точность некоторых моделей в отдельности, как точность ансамбля моделей, является максимальной, при уменьшении размеров обучающей выборки ансамбль классификаторов демонстрирует большую точность по сравнению с самостоятельными классификаторами (рис. 1).

100% 80% 60% 40%

100% 75% 50% 25%

^^—Логистическая регрессия kNN

CART SVM

Ансамбль алгоритмов

Рис 1. Зависимость точности прогноза благоприятного исхода операции от доли обучающей выборки от общего количества образцов

На рисунке наблюдается уменьшение точности классификации с уменьшением размера обучающей выборки для всех моделей. Среди всех представленных моделей у ансамбля классификаторов наблюдается наибольшая точность при минимальном размере обучающей выборки. Аналогичная ситуация обстоит и с точностью прогноза результатов операции и для кровяной кардиоплегии.

Заключение

Выявлено что ансамбль алгоритмов демонстрирует большую точность по сравнению с отдельными классификаторами при небольших размерах обучающей выборки (вплоть до n = 21) в рамках задачи прогноза результата операции аортокоронарного шунтирования при остром инфаркте при использовании двух способов кардиоплегии: кровяной или способа с использованием раствора Кустодиол.

Работа выполнялась в рамках гранта РФФИ 18-07-00175 А.

Литература

1. Schapire R.E. "The Strength of Weak Leamability". Mach Learn (1990) 5: 197.

2. David H. Wolpert, "Stacked Generalization". Neural Networks Volume 5, Issue 2, Pages 241259,1992

3. Multiple Classifier Systems / J. Kittler & F. Roli (editors) // Proc. of 2nd International Workshop, MCS2001,(Cambridge, UK, 2-4 July 2001) / Lecture Notes in Computer Science. Vol. 2096. -Springer-Verlag, Berlin.

4.OdedM., Lior R., Data Mining and Knowledge Discovery Handbook Second Editi. Springer, 2010.1241 p.

5. NovoselovaNatalia & Tom Igar & Ablameyko Sergey. (2011). Evolutionary design of the classifier ensemble. Штучний штелект. 3. 429-438.

6. Igor A. Kuznetsov, Vasiliy S. Kireev Development of an Ensemble of Classification Algorithms Using the Entropy Quality Measure for Solving the Problem of Behavioral Scoring DAMDID/RCDL 2016: 37-43

7. Multiple Classifier Systems / J. Kittler & F. Roli (editors) // Proc. of 2nd International Workshop, MCS2001, (Cambridge, UK, 2-4 July 2001) / Lecture Notes in Computer Science. Vol. 2096. -Springer-Verlag, Berlin.

Сведения об авторах

Виктория Степановна Микшина

канд. техн. наук

зав. каф. Информатики и Вычислительной техники Сургутский государственный университет Россия, Тюменская обл, Ханты-Мансийский автономный округ, г. Сургут Эл. почта: [email protected] Сергей Игоревич Павлов

преп. каф. Информатики и Вычислительной техники Сургутский государственный университет Россия, Тюменская обл, Ханты-Мансийский автономный округ, г. Сургут Эл. почта: [email protected]

Information about authors

Viktoria Stepanovna Mikshina

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Candidate of Technical Sciences

Head of the Department of Informatics and Computer

Engineering of the Surgut State University

Russia, Tyumen region, Khanty-Mansi Autonomous

Area, Surgut

E-mail [email protected] Sergey Igorevich Pavlov

Lec. at the Dep. of Informatics and Computer Engineering Surgut State University

Russia, Tyumen region, Khanty-Mansi Autonomous Area. Surgut

E-mail [email protected]

УДК 574.64-0.36 + 628.355 Я.В. Саванина1, Е.Л. Барский1, И.А. Фомина2, Е.С. Лобакова1

ГРНТИ 34.27.49 1МГУ имени М.В.Ломоносова

2РОСПРИРОДНАДЗОР по ЦФО

ЗАГРЯЗНЕНИЕ ВОДНОЙ СРЕДЫ МИКРОПЛАСТИКОМ: ВОЗДЕЙСТВИЕ НА БИОЛОГИЧЕСКИЕ ОБЪЕКТЫ, ОЧИСТКА.

Рассмотрены аспекты загрязнения водной среды микропластиком: характеристики загрязнителей, влияние на живые организмы, возможность удаления из водной среды с использованием методов биологической очистки.

Ключевые слова: микропластик, пластиковое загрязнение, водная токсикология, биологическая очистка, полисахариды, биофлокулянт, активный ил.

Ya.V. Savanina1, E.L. Barsky1, I.A. Fomina2, E.S. Lobakova1

1M.V.Lomonosov Moscow State University 2ROSPRIRODNADZOR in the Central Federal district

POLLUTION OF AQUATIC MEDIUM BY MICROPARTICLE OF POLYMERS

Aspects of the water environment pollution are considered by microplastic: characteristics ofpollutants, influence on live organisms, a possibility of removal from the water environment with use of biological cleaning methods.

Keywords: microplastic, plastic pollution, water toxicology, biological cleaning, polysaccharides, bio-flocculant, activated sludge, immobilized cultures.

Введение. Материалы, содержащие полимеры природного происхождения: дерево, растительные волокна (хлопок, лен), а также крахмал, полимерные смолы на основе изопрена (каучук), полиамиды (шелк), - использовали на протяжении длительного времени. Развитие химии органического синтеза в ХХ в. привело к появлению синтетических полимеров - пластмасс, волокон. Помимо их несомненных полезных свойств, облегчающих жизнь, возникли и проблемы, связанные с охраной здоровья человека и защитой окружающей среды. Пластиковое загрязнение — процесс накопления продуктов из пластмасс в окружающей среде, его распространение коррелирует с невысокой ценой и долговечностью пластмасс, что определяет высокий уровень их использования человеком [1.2].

В 1960-х гг. пластмассы составляли менее 1 %, в 2011 г. - более 12 % твёрдых бытовых отходов. В период с 1950-2018 гг. во всем мире произведено до 6.3 млрд. т. различных пластмасс, из них было переработано около 9%, сожжено - до 12 % [3].

Цель работы. Проанализировать различные аспекты одного из видов загрязнения водной среды синтетическими полимерами: характеристики загрязнителей, влияние на живые организмы, а также возможность их удаления из водной среды.

Пластиковое загрязнение представлено множеством форм, одной из которых является «микропластик». В настоящее время этот термин означает частицы синтетических полимеров

i Надоели баннеры? Вы всегда можете отключить рекламу.