Научная статья на тему 'Применение критерия "сигнал/шум" для определения эффективности методов машинного обучения'

Применение критерия "сигнал/шум" для определения эффективности методов машинного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
243
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / МАШИННОЕ ОБУЧЕНИЕ / КРИТЕРИЙ "СИГНАЛ/ШУМ" / ОЦЕНКА ЭФФЕКТИВНОСТИ / INTELLECTUAL DATA ANALYSIS / MACHINE LEARNINQ / "SIQNAL / NOISE" CRITERION / EFFICIENCY EVALUATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белов Юрий Сергеевич, Козина Анастасия Валерьевна, Гришунов Степан Сергеевич

Рассматриваются основные проблемы, возникающие при использовании методов машинного обучения. Особое внимание уделяется проблеме оценки эффективности работы таких алгоритмов. Приводится методика расчета дополнительного параметра оценки эффективности статистики «сигнал/шум», позволяющего сделать выбор при прочих равных условиях. Также приводится пример расчета данного параметра для задачи диагностики болезней сердца с применением методов машинного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Белов Юрий Сергеевич, Козина Анастасия Валерьевна, Гришунов Степан Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF SIGNAL / NOISE CRITERION FOR DETERMINING EFFICIENCY OF MACHINE LEARNING METHODS

This article deals with the problems that arise when usinq machine learninq methods. Particular attention is paid to the problem of evaluatinq the effectiveness of such alqo-rithms. The technique of calculation of an additional parameter of an estimation of efficiency statistics "siqnal / noise", allowinq to make a choice with other thinqs beinq equal is resulted. An exampl e of cal cul ati nq thi s parameter for the di aqnosi s of heart di sease us nq machi ne learninq methods is also qiven.

Текст научной работы на тему «Применение критерия "сигнал/шум" для определения эффективности методов машинного обучения»

УДК 004.9

ПРИМЕНЕНИЕ КРИТЕРИЯ «СИГНАЛ/ШУМ» ДЛЯ ОПРЕДЕЛЕНИЯ ЭФФЕКТИВНОСТИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

Ю.С. Белов, А.В. Козина, С.С. Гришунов

Рассматриваются основные проблемы, возникающие при использовании методов машинного обучения. Особое внимание уделяется проблеме оценки эффективности работы таких алгоритмов. Приводится методика расчета дополнительного параметра оценки эффективности - статистики «сигнал/шум», позволяющего сделать выбор при прочих равных условиях. Также приводится пример расчета данного параметра для задачи диагностики болезней сердца с применением методов машинного обучения.

Ключевые слова: интеллектуальный анализ данных, машинное обучение, критерий «сигнал/шум», оценка эффективности.

Современное общество производит огромное количество информации - каждую секунду миллионы датчиков сигнализируют о своем состоянии, а миллионы людей обмениваются различными сообщениями. Всю эту информацию необходимо хранить и обрабатывать с целью получения новых данных. Ни один человек не в силах самостоятельно обработать такое количество данных за приемлемое время, поэтому для data-minig^ (извлечения новых данных на основе имеющейся информации) применяются различные инструменты, позволяющие автоматизировать данный процесс[1].

Одним из самых эффективных инструментов является машинное обучение, позволяющее создать самоорганизующуюся с помощью обучающей выборки модель. Может показаться, что машинное обучение просто в использовании, т. к. программисту нет необходимости производить вручную настройку модели, однако, применение методов машинного обучения порождает ряд проблем, наиболее важные из которых:

1. Подбор репрезентативной обучающей выборки. Для того чтобы гарантировать адекватное поведение модели необходимо обучить ее на максимальном доступном множестве данных, покрывающем все возможные исключительные ситуации, возникающие в пространстве входных данных [2]. Данная проблема специфична для каждой отдельной области и должна решаться конкретными специалистами, разбирающимися в своем предмете.

2. Определение параметров, которые необходимо учитывать для верного функционирования модели. Добавление лишних параметров, которые «возможно влияют» на систему, не только усложняет процесс обучения, но также вносит дополнительные шумы, усложняющие работумодели. Поэтому поведение модели становится менее предсказуемым и часто несоответствующим истине. Данная проблема решается путем тестирования различного набора входных данных с целью определения действительно значащих параметров и исключения ложных [3].

3. Оценка эффективности работы модели. Так как чаще всего многомерное пространство входных данных неограниченно и недискретно, эффективность работы модели можно определить только на каком-то конечном подмножестве тестовых данных [4]. Поэтому необходимо аналогично обучающей выборке подбирать и репрезентативную тестовую выборку данных.

Вопрос определения эффективности наиболее остро встает при выборе метода машинного обучения: каким образом сравнить между собой эффективность различных алгоритмов? Чаще всего в качестве меры эффективности модели используется вероятность верной работы модели на тестовой выборке, т. е. отношение количества верных выходных значений модели к общему объему тестовой выборки. Однако, данный параметр не всегда позволяет сделать выбор в пользу какой-либо модели - в случае прибли-

292

зительного равенства вероятностей нельзя определенно сказать какой алгоритм лучше, так как при другой тестовой выборке значения могут измениться в обратную сторону. Следовательно, нужно использовать какие-то дополнительные параметры модели.

В качестве дополнительного параметра авторами предлагается использовать критерий «сигнал/шум».

Для нахождения данного критерия необходимо разбить тестовую выборку на п равных частей. п следует подбирать так, чтобы каждая из частей отвечала требованиям репрезентативности, но в тоже время было достаточным для достоверного определения критерия. Далее необходимо провести серию испытаний на каждом из наборов данных и заполнить табл. 1.

Таблица 1

Образец таблицы результатов экспериментов

Метод Наборы данных № ( у^ ) уг Б С/Ш

1 2 3 4 5 6 7 8 п

Метод 1

Метод 2

Метод т

На каждом из наборов данных необходимо определить эффективность работы модели и определить статистику по формуле:

С/Ш = 101ов

' у2 ^

V Б

V у

где у - математическое ожидание; Б - дисперсия. Дисперсия определяется по формуле:

Б = п -

1 п 2 -Г X (у - у) '

1 г=1

где п - количество выборок тестовых данных [5].

Критерий «сигнал/шум» можно рассматривать как оценку эффективности -чем критерий выше, тем меньше разброс данных и более точной является оценка эффективности, найденная традиционным образом.

Рассмотрим применение данного критерия на примере. В работе [6] изучалось применение методов машинного обучения для диагностики болезней сердца [7]. Одной из решаемых задач являлось нахождение оптимального алгоритма классификации входных данных. В результате проведенных экспериментов наиболее эффективным оказался метод, основанный на Байесовой статистике с незначительной дельтой 3,7 % от метода, основанного на деревьях решений.

Выполним аналогичный анализ, используя статистику «сигнал/шум». Для этого произвольно разобьем тестовую выборку из 920 элементов на 10 подвыборок по 92 элемента.

Результаты вычислений представлены в табл.2.

Таблица 2

Расчет критерия «сигнал/шум»

Метод Наборы данных № (уг) Уг Б С/Ш

1 2 3 4 5 6 7 8 9 10

Дерево решений 88,9 77,8 72,2 77,8 83,3 72,2 55,6 72,2 61,1 55,6 71,67 126,3 16,1

Байесовастатис-тика 66,7 72,2 72,2 83,3 77,8 77,8 61,1 64,4 61,1 61,1 69,77 65,3 18,7

К ближ. соседей 66,7 72,2 66,7 66,7 66,7 77,8 55,6 44,4 61,1 38,9 61,68 147,4 14,1

Машина опорных векторов 66,7 72,2 66,7 83,3 66,7 77,8 61,1 38,9 55,6 55,6 64,46 158,9 14,2

Из полученных результатов видно, что методы, основанные на дереве решений и Байесовойстатистике показали наибольшую вероятность верной работы модели. Однако, разница в 2 % между этими двумя методами не позволяет сделать однозначный обоснованный выбор в пользу метода, основанного на дереве решений (показательно, что в работе [б], в которой использовался другой набор тестовых данныхболее эффективным оказался метод, основанный на Байесовой статистике). В то же время критерий «сигнал/шум» метода Байесовой статистики заметно выше, а, следовательно, при большом объеме входных данных разброс значений будет меньше и большая часть тестовых примеров будет выполняться с найденной эффективностью 70 %. Т. е. найденная оценка эффективности более точная, нежели оценки эффективности остальных методов. В случаях, требующих высокой степени надежности, к которым можно отнести задачи, касающиеся здоровья человека [В], выбор стоит сделать в пользу алгоритма, оценка которого более надежная.

Таким образом, на основе критерия «сигнал/шум» в качестве дополнительного параметра определения эффективности метода классификации на основе машинного обучения можно делать вывод о целесообразности использования конкретных методов машинного обучения в задачах, требующих максимальной надежности.

Список литературы

1. Aксютина Е.М., Белов Ю.С. Использование облачных технологий для обработки больших данных // Электронный журнал: наука, техника и образование. 201б. №2 (б). С. б7-73. [Электронный ресурс] URL: http://nto-journal.ru/ uploads/articles/ be482078853dc5fBedddef62912d1a7a.pdf (дата обращения: 2B.10.2017).

2. Aксютина Е.М., Белов Ю.С. Обзор архитектур и методов машинного обучения для анализа больших данных // Электронный журнал: наука, техника и образование. 201б. №1 (5). С. 132-139.[Электронный ресурс] URL: http://nto-journal.ru/ uploads/articles/0b9bdбd9B33003ed0dбf9bb1бfabB1f1.pdf (дата обращения: 2В.10.2017).

3. Han J., Kamber M. Data Mining Concepts and Techniques. Morgan Kaufmann Publishers, 2011.P. 291-310.

4. Bramer M. Principles of data mining. Springer, 2013.P. 21-37.

5. Aнцева Н.В., Витчук H.A. Обоснование комбинации методов управления качеством для совершенствования производственных процессов изготовления машиностроительной продукции по критерию «сигнал/шум» // Интернет-журнал «HAУКОBЕДЕHИЕ».201б. Том В. №б.

6. Белов Ю.С., Козина A^., Носова Ю.С., Гришунов С.С. К вопросу о применении методов машинного обучения для решения задачи диагностики болезней сердца // Электронный журнал: наука, техника и образование. 201В. №3 (21). С. 1-В.

7. Rajkumar M., Reena G.S. Diagnosis of Heart Disease using Datamining Algorithm. Global Journal of Computer Science and Technology, 2010.V.10.P. 3В-43.

В. Mack M, Gopal A. Epidemiology, traditional and novel risk factors in coronary artery disease. HeartFailClin, 2016.V.12(1).P. 1-10.

Белов Юрий Сергеевич, канд. физ.-мат. наук, доцент, fn I-kfamail. ru, Россия, Калуга, Калужский Филиал Московского Государственного Технического Университета им. Н.Э. Баумана,

Козина Анастасия Валерьевна, асистент, anastasiya-kozinalist.ru, Россия, Калуга, Калужский Филиал Московского Государственного Технического Университета им. Н.Э. Баумана,

Гришунов Степан Сергеевич, асистент, stepangrishunov@yandex. com, Россия, Калуга, Калужский Филиал Московского Государственного Технического Университета им. Н.Э. Баумана

APPLICA TION OF SIGNAL / NOISE CRITERION FOR DETERMINING EFFICIENCY

OF MACHINE LEARNING METHODS

Y.S. Belov, A.V. Kozina, S.S. Grishunov

This article deals with the problems that arise when using machine learning methods. Particular attention is paid to the problem of evaluating the effectiveness of such algorithms. The technique of calculation of an additional parameter of an estimation of efficiency - statistics "signal/noise", allowing to make a choice with other things being equal is resulted. An example of calculating this parameter for the diagnosis of heart disease using machine learning methods is also given.

Key words: intellectual data analysis, machine learning, "signal / noise" criterion, efficiency evaluation.

Belov Yuri Sergeevich, candidate of physical and mathematical sciences, docent, fnl— kf@,mail.ru, Russia, Kaluga, Kaluga Branch of Bauman Moscow State Technical University,

Kozina Anastasiya Valer'evna, assistant, anastasiya-kozin@list. ru, Russia, Kaluga, Kaluga Branch of Bauman Moscow State Technical University,

Grishunov Stepan Sergeevich, assistant, stepangrishunov@yandex. com, Russia, Kaluga, Kaluga Branch of Bauman Moscow State Technical University

УДК 004.942

ПРИМЕНЕНИЕ СЕТЕЙ ПЕТРИ-МАРКОВА В ЗАДАЧАХ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ ПАРАЛЛЕЛЬНЫХ СИСТЕМ

В В. Котов, НА. Котова, НИ. Хохлов, О.А. Боровых

Рассмотрены вопросы применения сетей Петри-Маркова в задачах моделирования параллельных систем. Построена сетевая модель системы управления огнём, позволяющая оценить временные характеристики, а также влияние параметров отдельных узлов на эффективность работы системы в целом. Описано программное обеспечение имитационного моделирования для выполнения расчётов на выбранной сети.

Ключевые слова: сеть Петри-Маркова, параллельная система, имитационное моделирование.

Математический аппарат сетей Петри-Маркова (СПМ) [1-2] является эффективным средством для моделирования параллельных систем, общий процесс функционирования которых может быть представлен совокупностью взаимодействующих процессов, протекающих параллельно в отдельных подсистемах. В качестве примера рассмотрим использование сетей Петри-Маркова для моделирования работы системы управления огнём (СУО).

i Надоели баннеры? Вы всегда можете отключить рекламу.