АВТОМАТИЗИРОВАННОЕ ПОСТРОЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ В ПРАКТИЧЕСКИХ ЗАДАЧАХ АНАЛИЗА ДАННЫХ

Д.С. Русин; Е.А. Сопов

УДК 004.89

АВТОМАТИЗИРОВАННОЕ ПОСТРОЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ В ПРАКТИЧЕСКИХ ЗАДАЧАХ АНАЛИЗА ДАННЫХ

Д. С. Русин Научный руководитель - Е. А. Сопов

Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 E-mail: rusin199812@mail.ru

Представляется автоматизированное построение модели машинного обучения с использованием различных алгоритмов глобальной оптимизации в совокупности с нейросетевой библиотекой Kerns.

Ключевые слова: нейронные сети, методы глобальной оптимизации, задачи анализа данных, машинное обучение

AUTOMATED CONSTRUCTION OF MACHINE LEARNING MODELS USING DATA ANALYSIS IN PRACTICAL TASKS

D. S. Rusin Scientific Supervisor - E. A. Sopov

Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation E-mail: rusin199812@mail.ru

In this paper, we present an automated construction of a machine learning model using various global optimization algorithms in conjunction with the Keras neural network library.

Keywords: neural networks, global optimization methods, data analysis tasks, machine learning

В предыдущей работе [1] была поставлена задача, создать модель машинного обучения на основе искусственных нейронных сетей, способную автоматически определять свои наилучшие параметры под каждую задачу индивидуально, но для нахождения данных параметров и обучения модели тратилось большое количество машинного времени. Поэтому было решено провести эксперимент построения нейронной сети с помощью нейросетевой библиотеки Keras, а также сравнить качество обучения на модели с использования Keras и без него.

Сам процесс построения модели заключается в получении количества нейронов на каждом слое. При большом количестве нейронов модель обычно переобучается [2], поэтому необходимо получить минимально необходимое количество нейронов. Поиск структуры нейронной сети будет осуществляться с помощью генетического алгоритма (ГА) [3]. После выбора количества нейронов происходит случайная инициализация весов и их подбор с помощью дифференциальной эволюции (ДЭ). Алгоритм дифференциальной эволюции применяется для того чтобы во время обучения самой модель снизить риск попадания в локальный минимум функции ошибки обучения.

Для исследования эффективности подхода были использованы несколько задач машинного обучения из репозитория UCI Irvine Machine Learning [4]. Описание задач представлено в табл.1.

Секция «Математические методы моделирования, управления и анализа данных»

Предложенный подход для обучения НС

Таблица 1

Описание наборов данных

Наименование Количество записей Количество атрибутов Количество классов

Вино 4898 12 5

Рак груди 569 32 2

Кредиты Австралия 690 14 2

Кредиты Германия 1000 20 2

Автомобили 1728 6 4

Титаник 2224 9 2

Параметры используемых методов показаны в Таблице 2.

Таблица 2

Параметры ДЭ и ГА

Параметр ДЭ ГА

Коэффициент мутации 0.2 0.2

Размер популяции 150 100

Кол-во итераций 300 300

Рекомб./ Кол. скрытых слоев 0.7 5

Мы также сравнили полученные результаты с некоторыми известными подходами в области машинного обучения, а именно, метод к-ближайших соседей, метод опорных векторов, случайный лес, наивный байесовский классификатор и метод деревьев решений. В качестве метрики оценки качества использовалась метрика: Б -мера. Диапазон выбора количества нейронов составляет от 1 до 32 нейронов на слое. Результаты решения задач показаны в таблице 3.

Таблица 3

Результаты решения задач

Имя Рак груди Кредит Австралия Кредиты Германия Качество вина Титаник Качество автомобиля

KNNClassifier 0,917474 0,549056 0,540291 0,233974 0,8474 0,995876

SVC 0,950649 0,485556 0,525159 0,27524 0,8384 0,93

RandomForest 0,949735 0,57598 0,639463 0,319674 0,8676 0,989691

GaussianNB 0,938648 0,515955 0,652406 0,272864 0,7228 0,956785

DecisionTree 0,956162 0,563131 0,638095 0,318444 0,8676 0,804391

GA+DE+BP 0,925 0,864 0,85 0,625 0,9145 0,997576

GA+DE+BP+Keras 0,987654 0,920635 0,855088 0,703454 0,9031 0,997576

Данная работа показывает, что применение глобальных методов оптимизации значительно повышает точность решения различных задач анализа данных. Как можно видеть две последние модели показывают значительно лучшие результаты по сравнению с другими алгоритмами. Во время проведения эксперимента скорость выполнения итераций с использованием Keras'a была выше, ранее для выполнения одной итерации требовалось порядка 7-10 минут, в данной модели скорость выполнения одной итерации занимает 2-3 минуты, но не всегда результаты получались лучше, чем без его использования. В дальнейшем планируется провести автоматизацию настройки параметров алгоритмов, предназначенных для настройки модели нейронной сети. А также добавить прореживание весовых коэффициентов и правильно подобрать функцию активации на каждом нейроне.

Библиографические ссылки

1. Русин Д. С., Сопов Е. А. Гибридный метод обучения нейронной сети на основе дифференциальной эволюции // Решетневские чтения. 2019. № 2. С. 211-213

2. Нейроинформатика / А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин, Е.М.Миркес, А.Ю.Новоходько, Д.А.Россиев, С.А.Терехов, М.Ю.Сенашова, В.Г.Царегородцев - URL: http://dalab.unn.ru/Gorban/neiroinformatika.pdf

3. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы // М.: Горячая линия - Телеком 2006. С. 17-19.

4. UCI machine learning repository University of California, Irvine, School of Information and Computer Sciences [URL]: https://archive.ics.uci.edu/ml/index.php

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Д.С. Русин, Е.А. Сопов

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Д.С. Русин, Е.А. Сопов

AUTOMATED CONSTRUCTION OF MACHINE LEARNING MODELS USING DATA ANALYSIS IN PRACTICAL TASKS

Текст научной работы на тему «АВТОМАТИЗИРОВАННОЕ ПОСТРОЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ В ПРАКТИЧЕСКИХ ЗАДАЧАХ АНАЛИЗА ДАННЫХ»