Научная статья на тему 'ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА ДЛЯ ПРОГНОЗИРОВАНИЯ УСЛОВИЙ ПРОТЕКАНИЯ ХИМИЧЕСКИХ РЕАКЦИЙ'

ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА ДЛЯ ПРОГНОЗИРОВАНИЯ УСЛОВИЙ ПРОТЕКАНИЯ ХИМИЧЕСКИХ РЕАКЦИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
63
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННАЯ СЕТЬ / МАШИННОЕ ОБУЧЕНИЕ / ХИМИЧЕСКИЕ РЕАКЦИИ / ПЕРСЕПТРОН / NEURAL NETWORK / MACHINE LEARNING / CHEMICAL REACTION / PERCEPTRON

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Стрелец А.И., Протопопова Ю.Д., Тоичкин Д.В., Ключникова Б.В.

В современном мире нейронные сети являются популярным и незаменимым инструментом для решения задач, алгоритмическое решение которых невозможно или сильно затруднено. Нейронные сети, обученные ответствующим образом, предсказывают погоду, находят походящие товары, ранжируют поисковую выдачу. В химии существует проблема прогнозирования условий протекания химических реакций. С помощью нейронной сети на основе персептрона, описанной в данной статье, проблема может быть решена с высокой точностью.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTILEVEL PERCEPTRON BASED NEURAL NETWORK FOR PREDICTION OF CHEMICAL REACTION CONDITION

Neural network is one of most the popular, important and powerful instrument in the modern life. Networks can resolve algorithmically unsolvable problems. Humanity uses neural networks for advertising, search result ranging, weather prediction. The problem of chemical reactions predictions exists for many years. Neural networks from this article can resolve this problem more accuracy than algorithm-based solution.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА ДЛЯ ПРОГНОЗИРОВАНИЯ УСЛОВИЙ ПРОТЕКАНИЯ ХИМИЧЕСКИХ РЕАКЦИЙ»

УДК 004.35

Стрелец А.И. студент магистратуры 1 курса кафедра «Компьютерные системы и технологии»

Протопопова Ю.Д. студент специалитета 5 курса кафедра «Компьютерные системы и технологии» Национальный исследовательский ядерный университет «МИФИ»

Россия, г. Москва Тоичкин Д.В. студент бакалавриата 4 курса кафедра Компьютерной инженерии Донецкий Национальный Технический Университет

Украина, г. Донецк Ключникова Б.В. студент бакалавриата 4 курса кафедра «Биохимия и биотехнология» Казанский (Приволжский) федеральный университет

Россия, г. Казань ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА ДЛЯ ПРОГНОЗИРОВАНИЯ УСЛОВИЙ ПРОТЕКАНИЯ ХИМИЧЕСКИХ РЕАКЦИЙ Аннотация: в современном мире нейронные сети являются популярным и незаменимым инструментом для решения задач, алгоритмическое решение которых невозможно или сильно затруднено. Нейронные сети, обученные ответствующим образом, предсказывают погоду, находят походящие товары, ранжируют поисковую выдачу. В химии существует проблема прогнозирования условий протекания химических реакций. С помощью нейронной сети на основе персептрона, описанной в данной статье, проблема может быть решена с высокой точностью.

Ключевые слова: нейронная сеть, машинное обучение, химические реакции, персептрон.

Strelets A.I., graduate student, first course Department of Computer Systems and Technologies National Research Nuclear University MEPhI

Moscow, Russia

Protopopova Ju.D., undergraduate student, fifth course Department of Computer Systems and Technologies National Research Nuclear University MEPhI

Moscow, Russia

Toichkin D. V., undergraduate student fourth course Department of Computer Engineering Donetsk National Technical University

Donetsk, Ukraine

Klyuchnikova B. V., undergraduate student, fourth course Deparment of

Biochemistry and Biotechnology Kazan (Volga region) Federal University

Kazan, Russia

MULTILEVEL PERCEPTRON BASED NEURAL NETWORK FOR PREDICTION OF CHEMICAL REACTION CONDITION

Annotation: neural network is one of most the popular, important and powerful instrument in the modern life. Networks can resolve algorithmically unsolvable problems. Humanity uses neural networks for advertising, search result ranging, weather prediction. The problem of chemical reactions predictions exists for many years. Neural networks from this article can resolve this problem more accuracy than algorithm-based solution.

Key words: neural network, machine learning, chemical reaction, perceptron.

Введение

В настоящее время построение, обучение и предсказание при участии нейронных сетей является в достаточной мере развитым направлением, позволяющим решать задачи в сферах, где нельзя добиться решения задач при использовании стандартных алгоритмов.

Одной из таких сфер является область предсказания химических свойств в зависимости от химической структуры. Существующие алгоритмические методы не позволяют решить проблему с точностью, достаточной для использования в производстве [1]. Альтернативным вариантом решения проблемы является использование машинного обучения для создания обученной нейронной сети, способной решить данную проблему. Многослойный перцептрон, обученный на данных для определенных веществ способен решить проблему с большей точностью, чем алгоритмические методы [2].

2. Описание системы

Нейронная сеть, разработанная в рамках решения проблемы прогнозирования условий протекания химических реакций. В качестве алгоритма обучения нейронной сети использован многослойный перцептрон (Multi Layer Perceptron) на основе случайного леса (random tree). С помощью многослойного перцептрона был получены новые дескрипторы растворителей, а случайный лес был использован для того, чтобы оценить описательную способность полученных дескрипторов и сравнить с другими вариантами.

Метод многослойного перцептрона подразумевает наличие как минимум трёх слоёв элементов (входных, выходных и промежуточных слоёв нейронов), в которых не учитываются обратные связи. В методе случайного дерева используется ансамбли решающих деревьев (которые также называют классификационными и регрессионными деревьями).

Предсказательная способность каждого ансамбля невелика, но за счёт большого количества таких ансамблей она повышается.

Структура дерева представляет собой «листья» и «ветви». На ребрах («ветвях») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи.

Для оценки успешности подборки параметров обучающей модели, применяется метод скользящего контроля (кросс-валидации). Выборка разбивается на десять примерно равных частей. На каждом этапе одна часть временно изымается из обучающей выборки, на ней в дальнейшем проводится проверка точности предсказания. Все части выборки последовательно удаляются и предсказываются.

Точность предсказания обученной нейронной сети оценивается с помощью f2 меры. Если сеть предсказывает отсутствие прохождения реакции при данном растворителе, а на самом деле она идёт при данных условиях, то ошибка имеет в два раза больший "вес", чем утверждение о протекании реакции при её отсутствии. Лояльность к ложноположительным результатам обусловлена стремлением составления полной картины на начальном этапе. Чем выше предсказательная точность сети, тем ближе значение f2 меры к 1.

Результаты работы представлены в виде дендрограмм, для этого был применен метод иерархического кластерного анализа. Дендрограмма иначе является деревом или графом без циклов. Для её построения требуется задать матрицу расстояний. Расстояние между объектами можно оценивать разными способами, один из наиболее часто используемых методов - оценка Евклидова расстояния, применён в этой работе. Данная метрика представляет собой геометрическое расстояние в многомерном пространстве

[3].

3. Описание технических средств и слоёв нейронной сети

Нейронная сеть разработана с помощью Jupyter notebook пакета Anaconda (версия 5.0.1) и RStudio (1.1.383). Языки разработки - Python (3.6), R (3.4.3). Основные используемые модули Python - os, numpy,itertools, scikit,random, metrics,shelve,pickle.

Для успешного обучения нейронной сети по алгоритму многослойного перцептрона важен подбор оптимальных параметров — количество скрытых слоёв, количество нейронов в скрытом слое и значение параметра альфа. Были приняты следующие значения для количества нейронов скрытых слоев — (2), (4), (6), (8), (10), (20), (30), (40), (50), (60), (70), (80), (90), (100), (5,5), (10,10), (20,20), (100,100), (100, 100, 100). Значения параметра альфа — (0.1), (0.01), (0.001), (0.0001), (0.00001), (0.000001), (0.0000001).

После задания параметров была проведена кросс-валидация, и оценка f2 меры. Параметры 5 моделей с наиболее близкими к единице значениями f2 меры были приняты как параметры моделей для дообучения нейронной сети, без этапа кросс-валидации. Далее файл с дескрипторами

преобразовывался в файл формата csv (comma separated values) для обработки данных и их визуализации в RStudio. Данные из csv файла импортировались и преобразовывались в матрицу различий, и на основании близости расположения векторов дескрипторов в многомерном пространстве строилась дендрограмма. Иерархическая кластеризация была осуществлена несколькими методами: одиночной, средней и полной связи для модели с наибольшим значением f2 меры, и методом средней связи для остальных четырёх моделей.

В ходе построения моделей методом случайного дерева было использовано три типа файлов фрагментарных дескрипторов в качестве входных данных — файл только с фрагментарными дескрипторами, файл с дескрипторами растворителей предыдущего исследования, и 5 файлов (по количеству моделей), в котором были записаны дескрипторы растворителей, полученные в ходе данной практической работы и фрагментарные дескрипторы.

4. Результаты

Данные по результатам сравнения f2 меры с учётом растворителя и без учёта растворителя: 0.071 — максимальное значение f2 меры без учёта растворителя; 0.03 — максимальное значение f2 меры с учётом растворителя. В случае многослойного перцептрона наивысшую f2 оценку имеют модели с небольшим количеством нейронов (70-90 штук), что обусловлено переобучением моделей с большим числом нейронов. Данные по построению моделей методом "случайного леса" отражены на диаграмме

(рисунок 1). Точность предсказания модели составляет 99.87%.

Рисунок 1 - Значение значения 12 меры модели, построенной по фрагментарные дескрипторам и дескрипторам растворителей.

Заключение

Разработанная и обученная модель, построенная на базе многослойного персептрона, позволяет прогнозировать результат протекания химических реакций в растворителях с точностью до 99.87%. Данная точность позволяет использовать обученную сеть на производстве или для дальнейших научных исследований. Максимальное значение меры f2 достигает 0.72. Наиболее оптимальное поведение показали модели с количеством нейронов порядка ста штук.

Использованные источники:

1. Breiman L. Bagging predictors // Machine Learning. — Springer, 1996. — С.124.

2. Чернодуб А. Н., Дзюба Д. А. Обзор методов нейроуправления // Проблемы программирования. — 2011. — No 2. — С. 79—94.

3. Williams S., Waterman A., Patterson D. Roofline: an insightful visual performance model for multicore architectures //Communications of the ACM. -2009. - Т. 52. - No. 4. - С. 65-76.

i Надоели баннеры? Вы всегда можете отключить рекламу.