Научная статья на тему 'Применение искусственных нейронных сетей при решении задач прогнозирования'

Применение искусственных нейронных сетей при решении задач прогнозирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
642
109
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / ЗАДАЧИ ПРОГНОЗИРОВАНИЯ / НЕЙРОННЫЕ СЕТИ / ОБРАЗОВАТЕЛЬНЫЕ ДАННЫЕ / ТЕХНОЛОГИИ ПРОГНОЗА / DATA MINING / FORECASTING TASKS / NEURAL NETWORKS / EDUCATIONAL DATA / FORECASTING TECHNOLOGIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пономарева Катерина Андреевна

В статье рассматривается и описывается одна из современных технологий интеллектуального анализа данных, предназначенных для решения задач прогнозирования искусственная нейронная сеть. Представлен процесс моделирования нейронной сети для решения задачи прогнозирования «закончит ли студент университет» с помощью надстройки для MS Excel Neural Excel. Сделаны выводы о преимуществах и недостатках нейронных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Application of artificial neural networks in solving forecasting problems

The article discusses and describes one of the modern technologies of data mining, designed to solve forecasting problems artificial neural network. The process of modeling a neural network to solve the problem of forecasting «whether a student will graduate from University» using the add-in for MS Excel Neural Excel is presented. Conclusions are drawn about the advantages and disadvantages of neural networks.

Текст научной работы на тему «Применение искусственных нейронных сетей при решении задач прогнозирования»

УДК 004.8

ПРИМЕНЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ПРИ РЕШЕНИИ ЗАДАЧ

ПРОГНОЗИРОВАНИЯ

Пономарева Катерина Андреевна, аспирант; Сибирский федеральный университет, Красноярск, РФ

В статье рассматривается и описывается одна из современных технологий интеллектуального анализа данных, предназначенных для решения задач прогнозирования -искусственная нейронная сеть. Представлен процесс моделирования нейронной сети для решения задачи прогнозирования «закончит ли студент университет» с помощью надстройки для MS Excel Neural Excel. Сделаны выводы о преимуществах и недостатках нейронных сетей.

Ключевые слова: интеллектуальный анализ данных; задачи прогнозирования; нейронные сети; образовательные данные; технологии прогноза.

APPLICATION OF ARTIFICIAL NEURAL NETWORKS IN SOLVING FORECASTING

PROBLEMS

Ponomareva Katerina Andreevna, postgraduate; Siberian Federal University, Krasnoyarsk, Russian Federation

The article discusses and describes one of the modern technologies of data mining, designed to solve forecasting problems - artificial neural network. The process of modeling a neural network to solve the problem of forecasting «whether a student will graduate from University»> using the add-in for MS Excel Neural Excel is presented. Conclusions are drawn about the advantages and disadvantages of neural networks.

Keywords: data mining; forecasting tasks; neural networks; educational data; forecasting technologies.

Для цитирования: Пономарева К.А. Применение искусственных нейронных сетей при решении задач прогнозирования // Наука без границ. 2020. № 1(41). С. 42-47.

Современные информационные технологии сделали сбор и организацию данных достаточно легкой задачей. Однако, чтобы стать полезными, полученные данные должны быть преобразованы в информацию и знания. Традиционно задача извлечения полезной информации из записанных данных выполнялась аналитиками, однако растущий объем данных в современном бизнесе и науке для решения этой задачи требует применения компьютерных методов. Поскольку наборы данных увеличились в разме-

рах и усложнились, произошел неизбежный переход от прямого практического анализа данных к косвенному, автоматическому анализу, в котором аналитик работает с помощью более сложных инструментов. Весь процесс применения компьютерной методологии, включая новые методы обнаружения знаний на основе данных, часто называют интеллектуальным анализом данных [1].

В течение последних двух десятилетий интерес к интеллектуальному анализу данных значительно возрос. Ин-

теллектуальный анализ данных был создан в качестве надежной парадигмы для получения знаний из больших, гетерогенных потоков данных, часто с использованием вычислительных методов. Он по-прежнему продолжает привлекать исследователей из различных дисциплин, включая компьютерные науки, статистику, исследование операций, информационные системы и науку управления.

Целями данной статьи являются изучение задач прогнозирования и обоснование эффективности построения нейронных сетей при решении задач интеллектуального анализа образовательных данных. Для реализации поставленной цели необходимо рассмотреть задачи интеллектуально анализа данных и, в частности, задачи прогнозирования, искусственные нейронные сети и их применение на практике.

Понятие «интеллектуальный анализ данных» основывается на объединении понятий «анализ данных» и «искусственный интеллект». Так, под интеллектуальным анализом данных (ИАД) понимается исследование данных, которое использует методы искусственного интеллекта и ориентируется на придание системе свойств искусственного интеллекта, т.е. это процесс обнаружения в сырых данных ранее неизвестных, практически полезных, доступных для интерпретации знаний или закономерностей, необходимых для принятия решений [2, 3].

Интеллектуальный анализ данных применяется для обнаружения неявных закономерностей в наборах данных. При его проведении происходит исследование множества вариантов. Интеллектуальный анализ данных в большинстве случаев можно представить в виде таблицы, в которой каждая

строка содержит один из вариантов, а столбец - значение параметров, характеризующих его. Основными задачами интеллектуального анализа данных являются задача классификации, задача регрессии, задача прогнозирования, задача кластеризации, задача определения взаимосвязей, анализ последовательностей и анализ отклонений [3].

Как правило, на практике двумя основными целями интеллектуального анализа данных являются прогнозирование и описание. Прогнозирование включает использование некоторых переменных или полей в наборе данных для прогнозирования неизвестных или будущих значений других переменных, представляющих интерес. Описание, с другой стороны, фокусируется на поиске закономерностей, описывающих данные, которые могут быть интерпретированы людьми. Поэтому деятельность по интеллектуальному анализу данных можно разделить на две категории:

- интеллектуальный анализ прогнозных данных, который создает модель системы, описываемую определенным набором данных;

- описательный интеллектуальный анализ данных, который создает новую нетривиальную информацию на основе доступного набора данных.

Для данного исследования наибольший интерес представляют задачи прогнозирования. Под прогнозированием понимают научное предвидение результатов какой-либо деятельности, основанное на определенных данных. При прогнозировании целью интеллектуального анализа данных является создание модели, выраженной в виде исполняемого кода, который может быть использован для выпол-

нения классификации, оценки или других подобных задач [1]. В общем виде задача прогнозирования формулируется как задача идентификации зависимости данных от моментов речи или от предыдущих значений. Прогнозирование решает задачу вычисления нового, ранее неизвестного значения по накопленным данным на основе некоторой модели зависимости. Представить такую модель можно как в виде параметрической функции, параметры которой необходимо оценить, так и на основе некоторых правил следования, которые извлекаются из данных [4].

Прогнозирование является важнейшим элементом при принятии решений. Оценить эффективность того или иного решения можно уже только после его принятия, поэтому применение прогноза для таких событий позволяет сделать наилучший выбор, который без прогнозирования мог бы быть не таким удачным. Прогнозирование является одной из самых востребованных задач интеллектуального анализа данных для бизнес-аналитики, а также для экономического прогнозирования и маркетинговых прогнозов. Однако это не единственные сферы, где необходим прогноз. Прогнозирование также необходимо в сфере образования. Интеллектуальный анализ образовательных данных - это новая область исследований, связанная с разработкой методов изучения уникальных типов данных, поступающих из образовательного контекста. Эти данные позволяют заинтересованным сторонам в образовании открывать для себя новые, интересные и ценные знания о студентах.

Важность интеллектуального анализа образовательных данных основана

на том факте, что он позволяет преподавателям и исследователям извлекать полезные выводы из сложных и запутанных вопросов. В то время как традиционные запросы к базам данных могут отвечать только на такие вопросы, как «найти студентов с низкой производительностью», интеллектуальный анализ данных может дать ответы на более абстрактные вопросы, такие как «найти студентов, которые будут демонстрировать низкую производительность». Таким образом, применение интеллектуального анализа образовательных данных в основном сосредоточено на разработке точных моделей, которые предсказывают характеристики учащихся с целью улучшения эффективности обучения [5].

Для решения задач прогнозирования применимы разные методы, среди которых перспективным направлением являются искусственные нейронные сети. Под искусственной нейронной сетью понимают математическую модель, ее программное или аппаратное воплощение, построенную по принципу функционирования биологических нейронных сетей. В свою очередь, искусственный нейрон - это функция, которая преобразует несколько входных фактов в один выходной. Актуальность применения нейронных сетей возрастает тогда, когда возникает необходимость решения плохо формализованных задач, т.е. задач, где традиционные вычисления трудоемки, малоэффективны или физически неадекватны [2].

В интеллектуальном анализе образовательных данных интерес представляет задача прогнозирования успеваемости студентов. Другими словами, поиск ответа на вопрос «закончит ли студент университет». Прежде чем

приступать к прогнозированию, нейронную сеть необходимо обучить. Сеть обучается для того, чтобы для некоторого множества входов давать желаемое множество выходов. Обучение нейронной сети предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход.

Для обучающей и тестируемой выборок была использована информация об успеваемости двух учебных групп по результатам первого семестра. На вход подавались следующие статистические данные: средний балл, количество пропусков за семестр в часах и наличие пересдач. На выходе получаем два значения - «студент закончит обучение» и «студент будет отчислен». Вход «средний балл» может принимать следующие значения:

3,0-3,5 - 1; 3,5-4,0 - 2; 4,0-4,5 - 3; 4,5-5,0

- 4. У входа «наличие пересдач» два значения: «есть пересдачи» - 0, «нет пересдач» - 1. Вход «количество пропусков за семестр в часах» принимает следующие значения» 0-10 - 5; 10-30 -4; 30-50 - 3; 50-80 - 2; 80-100 - 1; более 100 - 0. На выходе получаем два значения - «закончит» - 1, «будет отчислен»

- 0.

Для построения нейронной сети будем использовать надстройку для MS Excel Neural Excel. Были заданы следующие параметры нейронной сети: нейронов на скрытом слое - 2; первоначальный вес - 0,30; скорость обучения -0,5.

В табл. 1 приведены входные данные обучающей выборки нейронной сети, а также значения, полученные на выходе, т.е. моделируемые данные.

Таблица 1

Студент Средний балл Количество пропусков Наличие пересдач Закончил/ Отчислен Выход (моделируемые данные)

Студент 1 3,25 1 0 0 0,099

Студент 2 3,00 1 0 0 -0,061

Студент 3 4,25 4 0 1 1,005

Студент 4 4,75 5 0 1 1,034

Студент 5 2,00 0 0 0 -0,112

Студент 6 4,50 5 0 1 1,020

Студент 7 3,75 5 0 0 0,550

Студент 8 4,00 5 0 1 0,889

Студент 9 3,00 2 0 0 -0,078

Студент 10 3,00 5 0 0 -0,104

Студент 11 4,00 4 0 1 0,935

Студент 12 2,33 1 0 0 -0,109

Студент 13 3,25 3 0 0 -0,024

Студент 14 2,75 3 0 0 -0,105

Студент 15 2,75 2 0 0 -0,101

Студент 16 3,75 4 1 1 1,026

Студент 17 2,75 3 0 0 -0,105

Студент 18 4,00 5 0 1 0,889

Студент 19 4,00 4 0 1 0,935

Далее исследуем данные по второй рые не входили в процесс обучения, и учебной группе студентов. В табл. 2 на основе которых можно понять, на-приведены тестируемые данные, кото- сколько точно обучилась сеть.

Таблица 2

Тестируемая выборка

Студент Средний балл Количество пропусков Наличие пересдач Выход (моделируемые данные)

Студент 1 3,75 3 0 0,506

Студент 2 4,50 4 1 1,095

Студент 3 3,75 4 0 0,507

Студент 4 3,75 5 1 1,010

Студент 5 4,50 2 0 1,081

Студент 6 4,33 2 0 1,060

Студент 7 4,75 4 1 1,098

Студент 8 3,50 2 0 0,178

Студент 9 4,25 5 1 1,086

Студент 10 4,25 3 0 1,041

Студент 11 4,25 4 0 1,040

Студент 12 4,50 4 1 1,095

Студент 13 4,25 2 0 1,042

Студент 14 4,50 3 0 1,079

Студент 15 4,00 4 0 0,895

Студент 16 4,75 5 1 1,097

Студент 17 4,50 5 1 1,094

Сравнительная диаграмма реальных и моделируемых данных представлена на рис. Реальные данные отмечены синим цветом, моделируемые - зеленым.

Тг=птд соггр^е. ЕросНз: 393 \Veight Пе^з: 3,036&Ё55

Рис. Сравнительная диаграмма реальных и моделируемых данных

Так, по полученным моделируемым данным можно сделать вывод, что при прогнозировании закончит студент университет или нет большее значение имеют средний балл и количество пропусков. Такой показатель, как наличие или отсутствие пересдач, влияет в меньшей степени.

Искусственные нейронные сети являются важным расширением понятия вычисления. На сегодняшний день нейронные сети выполняют функции, которые ранее были исключительно прерогативой человека. Нейронную сеть научили превращать текст в фонетическое представление, распознавать рукописные буквы. Задачи, которые решают искусственные нейронные

сети, простираются от управления боем до присмотра за ребенком и, как можно заметить по проведенному исследованию, нейронные сети эффективны и при решении задач интеллектуального анализа образовательных данных. Тем не менее, стоит отметить, что, прежде чем использовать нейронные сети для решения задач, где на карту поставлена человеческая жизнь или ценное имущество, необходимо решить вопрос об их надежности и интерпретируемости полученных данных, поскольку искусственные нейронные сети сохраняют определенную непредсказуемость, подобно структуре человеческого мозга, которую они копируют.

СПИСОК ЛИТЕРАТУРЫ

1. Kantardzic, Mehmed. Data mining: concepts, models, methods, and algorithms / Mehmed Kantardzic. 2nd ed. 2011. - 550 p.

2. Мусаев А.А. Интеллектуальный анализ данных: учебное пособие. - СПб.: СПбГ-ТИ(ТУ), 2018. - 56 с.

3. Дядичев В.В., Ромашка Е.В., Голуб Т.В. Задачи и методы интеллектуального анализа данных: научная статья // Геополитика и экогеодинамика регионов. 2015. Том 1 (11). Вып. 3. С.23-29.

4. Афанасьева Т.В., Афанасьев А.Н. Введение в проектирование систем интеллектуального анализа данных: учебное пособие. - Ульяновск: УлГТУ, 2017. - 64 с.

5. Livieris I.E., Mikropoulos T.A., Pintelas P.A decision support system for predicting students' performance // Themes in Science and Technology Education. 2016. No. 9(1). pp. 43-57.

REFERENCES

1. Kantardzic, Mehmed. Data mining: concepts, models, methods, and algorithms / Mehmed Kantardzic. 2nd ed. 2011. 550 p.

2. Musaev A.A. [Data Mining: a textbook]. Saint-Petersburg, SpbSTI(TU), 2018, 56 p.

3. Dyadichev V.V., Romashka E.V., Golub T.V. [Tasks and methods of data mining: article]. Geopolitics and ecogeodynamics of regions. 2015. Release 1 (11). Vol. 3. pp. 23-29.

4. Afanasyeva T.V., Afanasiev A.N. [Introduction to the design of data mining systems: a textbook]. Ulyanovsk: UlSTU, 2017, 64 p.

5. Livieris I.E., Mikropoulos T.A., Pintelas P. A decision support system for predicting students' performance // Themes in Science and Technology Education, 2016, no. 9(1), pp. 43-57.

Материал поступил в редакцию 09.01.2020

© Пономарева К.А., 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.