УДК 004.8
ПРИМЕНЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ПРИ РЕШЕНИИ ЗАДАЧ
ПРОГНОЗИРОВАНИЯ
Пономарева Катерина Андреевна, аспирант; Сибирский федеральный университет, Красноярск, РФ
В статье рассматривается и описывается одна из современных технологий интеллектуального анализа данных, предназначенных для решения задач прогнозирования -искусственная нейронная сеть. Представлен процесс моделирования нейронной сети для решения задачи прогнозирования «закончит ли студент университет» с помощью надстройки для MS Excel Neural Excel. Сделаны выводы о преимуществах и недостатках нейронных сетей.
Ключевые слова: интеллектуальный анализ данных; задачи прогнозирования; нейронные сети; образовательные данные; технологии прогноза.
APPLICATION OF ARTIFICIAL NEURAL NETWORKS IN SOLVING FORECASTING
PROBLEMS
Ponomareva Katerina Andreevna, postgraduate; Siberian Federal University, Krasnoyarsk, Russian Federation
The article discusses and describes one of the modern technologies of data mining, designed to solve forecasting problems - artificial neural network. The process of modeling a neural network to solve the problem of forecasting «whether a student will graduate from University»> using the add-in for MS Excel Neural Excel is presented. Conclusions are drawn about the advantages and disadvantages of neural networks.
Keywords: data mining; forecasting tasks; neural networks; educational data; forecasting technologies.
Для цитирования: Пономарева К.А. Применение искусственных нейронных сетей при решении задач прогнозирования // Наука без границ. 2020. № 1(41). С. 42-47.
Современные информационные технологии сделали сбор и организацию данных достаточно легкой задачей. Однако, чтобы стать полезными, полученные данные должны быть преобразованы в информацию и знания. Традиционно задача извлечения полезной информации из записанных данных выполнялась аналитиками, однако растущий объем данных в современном бизнесе и науке для решения этой задачи требует применения компьютерных методов. Поскольку наборы данных увеличились в разме-
рах и усложнились, произошел неизбежный переход от прямого практического анализа данных к косвенному, автоматическому анализу, в котором аналитик работает с помощью более сложных инструментов. Весь процесс применения компьютерной методологии, включая новые методы обнаружения знаний на основе данных, часто называют интеллектуальным анализом данных [1].
В течение последних двух десятилетий интерес к интеллектуальному анализу данных значительно возрос. Ин-
теллектуальный анализ данных был создан в качестве надежной парадигмы для получения знаний из больших, гетерогенных потоков данных, часто с использованием вычислительных методов. Он по-прежнему продолжает привлекать исследователей из различных дисциплин, включая компьютерные науки, статистику, исследование операций, информационные системы и науку управления.
Целями данной статьи являются изучение задач прогнозирования и обоснование эффективности построения нейронных сетей при решении задач интеллектуального анализа образовательных данных. Для реализации поставленной цели необходимо рассмотреть задачи интеллектуально анализа данных и, в частности, задачи прогнозирования, искусственные нейронные сети и их применение на практике.
Понятие «интеллектуальный анализ данных» основывается на объединении понятий «анализ данных» и «искусственный интеллект». Так, под интеллектуальным анализом данных (ИАД) понимается исследование данных, которое использует методы искусственного интеллекта и ориентируется на придание системе свойств искусственного интеллекта, т.е. это процесс обнаружения в сырых данных ранее неизвестных, практически полезных, доступных для интерпретации знаний или закономерностей, необходимых для принятия решений [2, 3].
Интеллектуальный анализ данных применяется для обнаружения неявных закономерностей в наборах данных. При его проведении происходит исследование множества вариантов. Интеллектуальный анализ данных в большинстве случаев можно представить в виде таблицы, в которой каждая
строка содержит один из вариантов, а столбец - значение параметров, характеризующих его. Основными задачами интеллектуального анализа данных являются задача классификации, задача регрессии, задача прогнозирования, задача кластеризации, задача определения взаимосвязей, анализ последовательностей и анализ отклонений [3].
Как правило, на практике двумя основными целями интеллектуального анализа данных являются прогнозирование и описание. Прогнозирование включает использование некоторых переменных или полей в наборе данных для прогнозирования неизвестных или будущих значений других переменных, представляющих интерес. Описание, с другой стороны, фокусируется на поиске закономерностей, описывающих данные, которые могут быть интерпретированы людьми. Поэтому деятельность по интеллектуальному анализу данных можно разделить на две категории:
- интеллектуальный анализ прогнозных данных, который создает модель системы, описываемую определенным набором данных;
- описательный интеллектуальный анализ данных, который создает новую нетривиальную информацию на основе доступного набора данных.
Для данного исследования наибольший интерес представляют задачи прогнозирования. Под прогнозированием понимают научное предвидение результатов какой-либо деятельности, основанное на определенных данных. При прогнозировании целью интеллектуального анализа данных является создание модели, выраженной в виде исполняемого кода, который может быть использован для выпол-
нения классификации, оценки или других подобных задач [1]. В общем виде задача прогнозирования формулируется как задача идентификации зависимости данных от моментов речи или от предыдущих значений. Прогнозирование решает задачу вычисления нового, ранее неизвестного значения по накопленным данным на основе некоторой модели зависимости. Представить такую модель можно как в виде параметрической функции, параметры которой необходимо оценить, так и на основе некоторых правил следования, которые извлекаются из данных [4].
Прогнозирование является важнейшим элементом при принятии решений. Оценить эффективность того или иного решения можно уже только после его принятия, поэтому применение прогноза для таких событий позволяет сделать наилучший выбор, который без прогнозирования мог бы быть не таким удачным. Прогнозирование является одной из самых востребованных задач интеллектуального анализа данных для бизнес-аналитики, а также для экономического прогнозирования и маркетинговых прогнозов. Однако это не единственные сферы, где необходим прогноз. Прогнозирование также необходимо в сфере образования. Интеллектуальный анализ образовательных данных - это новая область исследований, связанная с разработкой методов изучения уникальных типов данных, поступающих из образовательного контекста. Эти данные позволяют заинтересованным сторонам в образовании открывать для себя новые, интересные и ценные знания о студентах.
Важность интеллектуального анализа образовательных данных основана
на том факте, что он позволяет преподавателям и исследователям извлекать полезные выводы из сложных и запутанных вопросов. В то время как традиционные запросы к базам данных могут отвечать только на такие вопросы, как «найти студентов с низкой производительностью», интеллектуальный анализ данных может дать ответы на более абстрактные вопросы, такие как «найти студентов, которые будут демонстрировать низкую производительность». Таким образом, применение интеллектуального анализа образовательных данных в основном сосредоточено на разработке точных моделей, которые предсказывают характеристики учащихся с целью улучшения эффективности обучения [5].
Для решения задач прогнозирования применимы разные методы, среди которых перспективным направлением являются искусственные нейронные сети. Под искусственной нейронной сетью понимают математическую модель, ее программное или аппаратное воплощение, построенную по принципу функционирования биологических нейронных сетей. В свою очередь, искусственный нейрон - это функция, которая преобразует несколько входных фактов в один выходной. Актуальность применения нейронных сетей возрастает тогда, когда возникает необходимость решения плохо формализованных задач, т.е. задач, где традиционные вычисления трудоемки, малоэффективны или физически неадекватны [2].
В интеллектуальном анализе образовательных данных интерес представляет задача прогнозирования успеваемости студентов. Другими словами, поиск ответа на вопрос «закончит ли студент университет». Прежде чем
приступать к прогнозированию, нейронную сеть необходимо обучить. Сеть обучается для того, чтобы для некоторого множества входов давать желаемое множество выходов. Обучение нейронной сети предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход.
Для обучающей и тестируемой выборок была использована информация об успеваемости двух учебных групп по результатам первого семестра. На вход подавались следующие статистические данные: средний балл, количество пропусков за семестр в часах и наличие пересдач. На выходе получаем два значения - «студент закончит обучение» и «студент будет отчислен». Вход «средний балл» может принимать следующие значения:
3,0-3,5 - 1; 3,5-4,0 - 2; 4,0-4,5 - 3; 4,5-5,0
- 4. У входа «наличие пересдач» два значения: «есть пересдачи» - 0, «нет пересдач» - 1. Вход «количество пропусков за семестр в часах» принимает следующие значения» 0-10 - 5; 10-30 -4; 30-50 - 3; 50-80 - 2; 80-100 - 1; более 100 - 0. На выходе получаем два значения - «закончит» - 1, «будет отчислен»
- 0.
Для построения нейронной сети будем использовать надстройку для MS Excel Neural Excel. Были заданы следующие параметры нейронной сети: нейронов на скрытом слое - 2; первоначальный вес - 0,30; скорость обучения -0,5.
В табл. 1 приведены входные данные обучающей выборки нейронной сети, а также значения, полученные на выходе, т.е. моделируемые данные.
Таблица 1
Студент Средний балл Количество пропусков Наличие пересдач Закончил/ Отчислен Выход (моделируемые данные)
Студент 1 3,25 1 0 0 0,099
Студент 2 3,00 1 0 0 -0,061
Студент 3 4,25 4 0 1 1,005
Студент 4 4,75 5 0 1 1,034
Студент 5 2,00 0 0 0 -0,112
Студент 6 4,50 5 0 1 1,020
Студент 7 3,75 5 0 0 0,550
Студент 8 4,00 5 0 1 0,889
Студент 9 3,00 2 0 0 -0,078
Студент 10 3,00 5 0 0 -0,104
Студент 11 4,00 4 0 1 0,935
Студент 12 2,33 1 0 0 -0,109
Студент 13 3,25 3 0 0 -0,024
Студент 14 2,75 3 0 0 -0,105
Студент 15 2,75 2 0 0 -0,101
Студент 16 3,75 4 1 1 1,026
Студент 17 2,75 3 0 0 -0,105
Студент 18 4,00 5 0 1 0,889
Студент 19 4,00 4 0 1 0,935
Далее исследуем данные по второй рые не входили в процесс обучения, и учебной группе студентов. В табл. 2 на основе которых можно понять, на-приведены тестируемые данные, кото- сколько точно обучилась сеть.
Таблица 2
Тестируемая выборка
Студент Средний балл Количество пропусков Наличие пересдач Выход (моделируемые данные)
Студент 1 3,75 3 0 0,506
Студент 2 4,50 4 1 1,095
Студент 3 3,75 4 0 0,507
Студент 4 3,75 5 1 1,010
Студент 5 4,50 2 0 1,081
Студент 6 4,33 2 0 1,060
Студент 7 4,75 4 1 1,098
Студент 8 3,50 2 0 0,178
Студент 9 4,25 5 1 1,086
Студент 10 4,25 3 0 1,041
Студент 11 4,25 4 0 1,040
Студент 12 4,50 4 1 1,095
Студент 13 4,25 2 0 1,042
Студент 14 4,50 3 0 1,079
Студент 15 4,00 4 0 0,895
Студент 16 4,75 5 1 1,097
Студент 17 4,50 5 1 1,094
Сравнительная диаграмма реальных и моделируемых данных представлена на рис. Реальные данные отмечены синим цветом, моделируемые - зеленым.
Тг=птд соггр^е. ЕросНз: 393 \Veight Пе^з: 3,036&Ё55
Рис. Сравнительная диаграмма реальных и моделируемых данных
Так, по полученным моделируемым данным можно сделать вывод, что при прогнозировании закончит студент университет или нет большее значение имеют средний балл и количество пропусков. Такой показатель, как наличие или отсутствие пересдач, влияет в меньшей степени.
Искусственные нейронные сети являются важным расширением понятия вычисления. На сегодняшний день нейронные сети выполняют функции, которые ранее были исключительно прерогативой человека. Нейронную сеть научили превращать текст в фонетическое представление, распознавать рукописные буквы. Задачи, которые решают искусственные нейронные
сети, простираются от управления боем до присмотра за ребенком и, как можно заметить по проведенному исследованию, нейронные сети эффективны и при решении задач интеллектуального анализа образовательных данных. Тем не менее, стоит отметить, что, прежде чем использовать нейронные сети для решения задач, где на карту поставлена человеческая жизнь или ценное имущество, необходимо решить вопрос об их надежности и интерпретируемости полученных данных, поскольку искусственные нейронные сети сохраняют определенную непредсказуемость, подобно структуре человеческого мозга, которую они копируют.
СПИСОК ЛИТЕРАТУРЫ
1. Kantardzic, Mehmed. Data mining: concepts, models, methods, and algorithms / Mehmed Kantardzic. 2nd ed. 2011. - 550 p.
2. Мусаев А.А. Интеллектуальный анализ данных: учебное пособие. - СПб.: СПбГ-ТИ(ТУ), 2018. - 56 с.
3. Дядичев В.В., Ромашка Е.В., Голуб Т.В. Задачи и методы интеллектуального анализа данных: научная статья // Геополитика и экогеодинамика регионов. 2015. Том 1 (11). Вып. 3. С.23-29.
4. Афанасьева Т.В., Афанасьев А.Н. Введение в проектирование систем интеллектуального анализа данных: учебное пособие. - Ульяновск: УлГТУ, 2017. - 64 с.
5. Livieris I.E., Mikropoulos T.A., Pintelas P.A decision support system for predicting students' performance // Themes in Science and Technology Education. 2016. No. 9(1). pp. 43-57.
REFERENCES
1. Kantardzic, Mehmed. Data mining: concepts, models, methods, and algorithms / Mehmed Kantardzic. 2nd ed. 2011. 550 p.
2. Musaev A.A. [Data Mining: a textbook]. Saint-Petersburg, SpbSTI(TU), 2018, 56 p.
3. Dyadichev V.V., Romashka E.V., Golub T.V. [Tasks and methods of data mining: article]. Geopolitics and ecogeodynamics of regions. 2015. Release 1 (11). Vol. 3. pp. 23-29.
4. Afanasyeva T.V., Afanasiev A.N. [Introduction to the design of data mining systems: a textbook]. Ulyanovsk: UlSTU, 2017, 64 p.
5. Livieris I.E., Mikropoulos T.A., Pintelas P. A decision support system for predicting students' performance // Themes in Science and Technology Education, 2016, no. 9(1), pp. 43-57.
Материал поступил в редакцию 09.01.2020
© Пономарева К.А., 2020