УДК 681.518.5
ВЫБОР МЕТОДА БИНАРНОЙ КЛАССИФИКАЦИИ ПРИ ТЕХНИЧЕСКОЙ ДИАГНОСТИКЕ С ПРИМЕНЕНИЕМ МАШИННОГО ОБУЧЕНИЯ
© 2018 В.Н. Клячкин, Ю.Е. Кувайскова, Д.А. Жуков
Ульяновский государственный технический университет
Статья поступила в редакцию 01.11.2018
Для проведения технической диагностики могут быть использованы различные методы машинного обучения. Основная задача бинарной классификации применительно к диагностике технических объектов - определить по заданным параметрам функционирования объекта, является ли он исправным. Предполагается, что имеется множество прецедентов: ситуаций с заданными параметрами функционирования и известным состоянием объекта. Задача разделения объектов на два класса - исправных и неисправных, может быть решена как с применением классических статистических методов, например, дискриминантного анализа, так и с использованием современных компьютерных технологий, основанных на методах машинного обучения. Можно попытаться построить композиции различных алгоритмов. Опыт показывает, что два главных метода построения композиции - бэггинг и бустинг - дают значительно более точный результат, чем применение отдельного алгоритма на конкретном наборе данных. При этом качество бинарной классификации (состояние объекта работоспособное или неработоспособное) оценивается по различным критериям: проценту ошибок в контрольной выборке, Б-мере и критерию ЛИС-КОС - площади под кривой ошибок. Рассматривается задача выбора наилучшего метода классификации по заданному критерию.. Ключевые слова: техническая диагностика, машинное обучение, бинарная классификация, меры качества.
Работа выполнена при поддержке гранта РФФИ и Правительства Ульяновской области, проект 18-48-730001
Диагностика состояния технического объекта проводится для повышения его надёжности. Под распознаванием понимают отнесение состояния объекта к одному из классов - диагнозов. Часто решение задачи сводится к разделению состояний объекта на работоспособное и неработоспособное. Это задача бинарной классификации и может решаться как классическими статистическими методами (например, с применением байесовского классификатора, или дискриминантного анализа Фишера), так и методами машинного обучения.
Диагностика проводится по результатам контроля косвенных показателей функционирования объекта в процессе эксплуатации [1]. При этом всегда имеется риск ложной тревоги (исправный объект будет признан неисправным) или, наоборот, (пропуск цели), когда неисправность объекта не выявлена.
В качестве исходных данных рассматриваются результаты оценки состояния объекта
Клячкин Владимир Николаевич, доктор технических наук, профессор кафедры «Прикладная математика и информатика». E-mail: [email protected] Кувайскова Юлия Евгеньевна, кандидат технических наук, доцент кафедры «Прикладная математика и информатика». E-mail: [email protected] Жуков Дмитрий Александрович, аспирант. E-mail: [email protected]
(при заданных значениях контролируемых показателей техническая система работоспособна или неработоспособна). Существует некоторая неизвестная зависимость между показателями функционирования объекта и его состояниями. На основе выборки исходных данных требуется восстановить зависимость, то есть построить алгоритм, способный для заданного набора показателей функционирования объекта выдать достаточно точный ответ о его состоянии.
Цель исследования - разработать технологию поиска наилучшего метода классификации состояний объекта.
Исходные данные для диагностики - :это матрица X показателей функционирования системы, элементы которой х.. - результат г-го наблюдения по ;-му показателю; г = 1, ..., /, ) = 1, ..., р (/ - количество строк или число наблюдений, р - количество столбцов или число показателей) и вектор-столбец ответов У, состоящий из 1 (для тех опытов, в которых объект исправен) и 0 при неисправном объекте. Каждой строке х. матрицы X соответствует определённое значение у. вектора У.
Задача состоит в построении функции а : X ^ У, которая спрогнозирует ответ У для любого заданного X [2-4]. При числовых признаках х,, часто используют линейные модели с вектором параметров w = w1... wp)
a{ x, w) = w0 + wlxl +... + wpxp
(1)
при этом в задачах бинарной классификации обычно вместо нуля и единицы используют множество ответов У = {-1; +1}. В этом случае модель алгоритма примет вид:
г( x, w) = sign ^
j=о
wjxj
(X = 1) ■ (2)
Параметры w. подбираются по исходным данным; процесс подбора оптимальных параметров называется обучением алгоритма. Найденные параметры должны обеспечить оптимальное значение функционала качества. В рассматриваемой задаче минимизируется функционал ошибок - это среднее количество несовпадений, где L(a,x) называют функцией потерь:
1 1 1 1 Q{a, X) = - £ L{a, xt) =- £ [a(xt) - yt ] ^ min. (3)
i=i
/
i=l
Алгоритм а, который минимизирует функционал (3), может не обеспечивать хорошее прогнозирование исправности объекта. Ситуация, когда качество работы алгоритма на новых объектах значительно хуже, чем на исходной выборке, свидетельствует о переобучении: алгоритм слишком хорошо подогнан под обучающую выборку и не способен к обобщению на другие выборки. Таким образом, построенный алгоритм не сможет предсказывать состояние исследуемого объекта при новых параметрах функционирования.
Для оценки качества модели с точки зрения возможности прогнозирования исходную выборку из I опытов разбивают на два непересекающихся подмножества: собственно обучающую выборку объёма 1о, с помощью которой и решается задача обучения (3), и контрольную (или тестовую) объёма 1к = I - 1о, не используемую для обучения. При использовании кросс-валидации выборка разбивается на N частей (на практике обычно принимают N = 5 или N = 10). Часть N - 1) используется для обучения, а оставшаяся -для контроля. Последовательно перебираются все варианты. Для каждого разбиения решается задача обучения по выборке 1о и вычисляется функция ошибок 0(а, X) на контрольной выборке 1к. Среднее значение этой функции по всем вариантам разбиения и характеризует обобщающую способность алгоритма.
При несбалансированных классах (а при решении задач технической диагностики классы практически всегда несбалансированны: работоспособных состояний аппаратуры значительно больше, чем неработоспособных) доля ошибок не может объективно оценивать качество классификации [5-6]. Более информативны точность
P = tp/(tp + fp)
и полнота
R = tp/(tp + fn),
где tp - количество правильно классифицированных работоспособных состояний, fp - количество неправильно классифицированных работоспособных состояний, fn - количество неправильно классифицированных неработоспособных состояний. На основе этих двух показателей может быть сформирован единый критерий
F = 2PR/(P + R) -
это гармоническое среднее точности и полноты (F-мера): чем ближе значение F к единице, тем качество классификации выше.
Еще один распространенный функционал качества бинарной классификации - площадь под ROC-кривой (receiver operating characteristics): AUC (area under the curve). ROC-кривая образуется, если по оси абсцисс откладывать значения fp(c), а по оси ординат tp(c), где c - порог. Площадь под ROC-кривой позволяет оценить модель в целом, не привязываясь к конкретному порогу. Значение AUC автоматически учитывает диспропорцию в представителях класса, а также имеет простую вероятностную интерпретацию: это вероятность того, что ответ на случайном объекте из класса 1 будет больше ответа на случайном объекте из класса 0.
Методы машинного обучения активно применяют в самых разных областях деятельности. Используется множество различных подходов к классификации. Это и классические статистические методы [7-8], и методы, специально ориентированные на машинное обучение (метод опорных векторов, нейронные сети), композиционные методы (бэггинг, бустинг), агрегированный подход и другие [8-10].
Проблема состоит в том, что нельзя заранее определить, какой из выбранных методов обеспечит корректное решение задачи, поэтому часто используется множество различных методов или их комбинации, а решение о применении принимается по результатам исследования функционала качества для контрольной выборки.
Иногда строят композиции алгоритмов. Опыт показывает, что два главных метода построения композиции (бэггинг и бустинг) дают более точный результат, чем применение отдельного алгоритма на конкретном наборе данных.
Бэггинг используют при наличии небольших обучающих выборок: из имеющейся выборки исходных данных случайным образом с возвратом формируется несколько подмножеств такого же объёма, как и исходная выборка. На основе каждого подмножества строится классификатор, а результаты комбинируются путём голосования или усреднения. Часто в качестве базовых алгоритмов используются деревья решений.
Таблица 1. Меры качества при различных методах классификации
Б-критерий AUC
логистическая регрессия 0.845 0.796
дискриминантный анализ 0.815 0.708
наивный байесовский классификатор 0.817 0.736
нейронная сеть 0.862 0.933
метод опорных векторов 0.825 0.802
бэггинг деревьев решений 0.874 0.911
градиентный бустинг 0.862 0.897
AdaBoost 0.851 0.887
Ьо^Вооз! 0.839 0.887
GentleBoost 0.841 0.782
RUSBoost 0.811 0.830
Эффективным методом машинного обучения является и бустинг. Итоговое правило в бустинге определяется путём взвешенного голосования композиции базовых правил. При этом используется информация об ошибках предыдущих правил: веса объектов выбирают таким образом, чтобы новое правило точнее работало на тех объектах, на которых с предыдущими правилами чаще возникали ошибки. В различных модификациях используются разные аппроксимации функции потерь в формуле (3): в наиболее распространенном методе AdaBoost - экспонента, в методе LogitBoost (используется при наличии шумовых данных) - аппроксимация, основанная на логистической регрессии, и другие.
Исследование проводилось в пакете Ма^аЬ, позволяющим использовать различные методы бинарной классификации, а также обеспечивающим разбивку выборки на обучающую и контрольную части с проведением кросс-валидации - последовательном использовании одной части выборки в качестве контрольной, а остальных частей - в качестве обучающей выборки. В качестве исходных данных использовались результаты 348 наблюдений за объектом, при этом объект оказался неработоспособным в 47 случаях. Критериями качества служили Б-критерий и площадь под кривой ошибок. Результаты исследования представлены в таблице 1.
Видно, что по Б-критерию наилучшими оказались бэггинг деревьев решений (Б = 0,874), также неплохой результат показали нейронная сеть и градиентный бустинг (Б = 0, 862). По площади под кривой ошибок наилучшим методом оказалась нейронная сеть (ЛИС = 0,933), неплохой результат имеет бэггинг деревьев решений (ЛИС = 0,911). Окончательное решение о том, какой из методов предпочесть, принимает пользователь.
Отметим, что все три статистических метода, используемые для решения этой задачи (логистическая регрессия, дискриминантный
анализ и наивный байесовский классификатор), показали низкий результат как по одному, так и по другому критерию. Это, конечно, не всегда так, поэтому целесообразно при решении конкретных задач проводить апробацию множества методов бинарной классификации.
СПИСОК ЛИТЕРАТУРЫ
1. Биргер И. А. Техническая диагностика. М.: Машиностроение, 1978. 240 с.
2. Witten I.H., Frank E. Data mining: practical machine learning tools and techniques. 2nd ed. San Francisco: Morgan Kaufmann Publishers, 2005. 525 p.
3. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. М.: Едиториал УРСС, 2011. 256 с.
4. Воронцов К.В. Машинное обучение. Композиция классификаторов // https://yadi.sk/i/FItIu6V0beBmF
5. Соколов Е.А. ФКН ВШЭ. Лекция 4. Линейная классификация URL: https://github.com /esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/ lecture04-linclass.pdf (дата обращения 14.09.2018).
6. Дьяконов A.M. AUC ROC (площадь под кривой ошибок). URL: https:// dyakonov.org/2017/07/28/auc-roc-morn;aflb-nofl-KpHBoft-offlH6oK/#more-5362 (дата обращения 14.09.2018).
7. Теория и практика машинного обучения : учеб. пособие / В.В. Воронина, A.B. Михеев, Н.Г. Ярушки-на, К.В. Святов. Ульяновск: УлГТУ, 2017. 290 с.
8. Клячкин В.Н. Статистические методы в управлении качеством: компьютерные технологии. М.: Финансы и статистика, ИНФРА-М, 2009. 304 с.
9. Bersimis S., Psarakis S., Panaretos J. Multivariate Statistical Process Control Charts: An Overview //
Quality and reliability Engeneering International. 2007. V. 23. pp. 517-543. 10. Клячкин B.H., Кувайскова Ю.Е., Жуков Д. А. Диагно-
стика технического состояния аппаратуры с использованием агрегированных классификаторов // Радиотехника. 2018. №6. С. 46-49.
THE CHOICE OF METHOD OF BINARY CLASSIFICATION WITH TECHNICAL DIAGNOSIS USING MACHINE LEARNING
© 2018 V.N. Klyachkin, Yu.E. Kuvayskova, D.A. Zhukov
Ulyanovsk State Technical University
For carrying out technical diagnostics can be used various methods of machine learning. The main task of binary classification in relation to the diagnosis of technical objects is determined by the specified parameters for the functioning of the object, whether it is healthy. It is assumed that there are many precedents: situations with the specified parameters of the functioning and the famous State of the object. The task of separating objects into two classes-serviceable and unserviceable may be solved as using classical statistical methods, for example, discriminant analysis, and using modern computer technologies based on machine learning methods. You can try to build compositions of various algorithms. Experience shows that two of the main compositional method-bjegging and busting-give much more accurate results than using a separate algorithm on a specific set of data. The quality of binary classification (healthy or unhealthy state of the object) is estimated by various criteria: percentage of errors in the control sample, F-measure and the criterion of AUC-ROC-area under the curve of errors. The problem of selecting the best method of classification by the specified criteria. Keywords: technical Diagnostics, machine learning, binary classification, quality measures.
Vladimir Klyachkin, Doctor of Technics, Professor at the Applied Mathematics and Informatics Department. E-mail: [email protected]
Yulia Kuvayskova, Candidate of Technics, Associate Professor at the Applied Mathematics and Informatics Department. E-mail: [email protected] Dmitriy Zhukov, Postgraduate Student. E-mail: [email protected]