Метод прогнозирования результатов ЕГЭ на основе объединения моделей ARIMA и нейронной сети моделей ARIMA и нейронной сети

Сырцова Анастасия Олеговна

The method of predicting the results of the exam based on the combination of models of

ARIMA and neural network

Сырцова Анастасия Олеговна

Студент 6 курса Факультет Информатика и системы управления Московский государственный технический университет имени Н.Э. Баумана

105005, Москва, 2-я Бауманская ул., д. 5, стр. 1 e-mail: syrtsova@inbox.ru

Syrtsova Anastasija Olegovna

Student 6 term

Faculty of Computer science and control systems Moscow State Technical University named after N.E. Bauman 105005, Moscow, 2 nd Baumanskaya ul. 5, bld. 1 e-mail: syrtsova@inbox.ru

Научный руководитель Григорьев Юрий Александрович

Доктор технических наук Московский государственный технический университет имени Н. Э. Баумана

105005, Москва, 2-я Бауманская ул., д. 5, стр. 1

e-mail:

Scientific adviser Grigoriev Yuri Alexandrovich

Doctor of Technical Sciences Moscow State Technical University named after N.E. Bauman 105005, Moscow, 2 nd Baumanskaya ul. 5, bld. 1

e-mail:

Аннотация.

В статье описан метод автоматизированного отслеживания успешности обучения ученика общеобразовательной школы и получения прогноза результатов сдачи ЕГЭ.

Annotation.

student's learning and the prediction of the results of passing the USE.

Ключевые слова: обучение, успешность, прогнозирование, нейтронные сети, единый экзамен. Key words: training, success, prediction, neutron networks, unified exam.

Согласно Федеральному закону "Об образовании" [1] в образовательных учреждениях, имеющих государственную аккредитацию, освоение образовательных программ завершается обязательной государственной (итоговой) аттестацией (ГИА) обучающихся. ГИА обучающихся, освоивших образовательные программы среднего (полного) общего образования, проводится в форме единого государственного экзамена (ЕГЭ).

Таким образом, ЕГЭ отражает оценку качества образования или знаний, полученного обучающимся за период нахождения в заведениях среднего (полного) общего или профессионального образования. Следовательно, важным вопросом, встающим как перед обучающимися, так и перед их учителями, является предварительная оценка знаний, позволяющая определить успешность сдачи ГИА в форме ЕГЭ.

Для успешного прохождения ГИА и последующего зачисления в высшее учебное заведение, обучающийся должен обладать навыками решения задач, включаемых в КИМ ЕГЭ. Такие навыки

вырабатываются в ходе освоения образовательных программ среднего (полного) общего образования. В течение всего периода обучения проводится контроль получаемых знаний в формах самостоятельных или контрольных работ, а также домашних заданий. Каждая из данных работ оценивается, фиксируется в журнале, после преобразовываясь в показатель успешности усвоения материала, закреплённого за временным периодом, за который происходит оценивание.

Данная методика оценивания показывает средний результат по всему предмету и не позволяет точно спрогнозировать результат сдачи ГИА в форме ЕГЭ. Обучающийся вынужден прибегать к сторонней оценке результатов будущей сдачи, не опираясь на статистику, накопленную за весь период его обучения.

Необходимо отметить, что факт успешной сдачи ГИА в форме ЕГЭ интересен не только самому обучающемуся, на чьё будущее результат сдачи этого экзамена оказывает непосредственное влияние, но и школе. Школа собирает результаты сдачи ГИА в форме ЕГЭ всех своих выпускников, усредняя оценку и преобразуя её в показатель качества образования, предоставляемого ею. В дальнейшем данная статистика проводится по всем субъектам страны, отражая динамику образования в Российской Федерации.

Обучающимся важно конвертировать свои знания в оценку, которую они смогут заработать в ходе экзамена, следовательно, преобразование простой школьной успеваемости в оценку ЕГЭ будет стимулировать улучшение результата и помогать контролировать проблемные для понимания темы, что также важно учителям. Для этого необходима система, позволяющая не только конвертировать оценки в баллы ЕГЭ, но и отслеживающая успеваемость обучающегося в общем за счёт сдачи контрольных и домашних работ, предусмотренных учебным планом.

В связи с изложенным целью настоящей работы определена разработка модели прогнозирование успешности сдачи Единого государственного экзамена на основе результатов контроля знаний учеников в ходе его обучения без дополнительного контроля в виде решения пробных заданий ЕГЭ.

Процессы, перспективы которых необходимо предсказывать, чаще всего описываются временными рядами, то есть последовательностью значений некоторых величин, полученных в определенные моменты времени. [2] Временной ряд включает в себя два обязательных элемента - отметку времени и значение показателя ряда, полученное тем или иным способом и соответствующее указанной отметке времени. [3]

Таким образом, можно сказать, что данные, получаемые от ученика, необходимо преобразовать к временному ряду, выделив критерий, изменяющийся во времени.

Согласно постановке задачи, таким критерием может выступать только оценка знаний школьника, получаемая в процессе его обучения. При этом, нельзя сформировать временной ряд из всех оценок, полученным школьником по предмету, на основе которого в дальнейшем проводить прогнозирование результатов ЕГЭ, так как оценки в этом временном ряду отражают общую тенденцию обучения по предмету и зачастую не связаны друг с другом.

Каждая задача ЕГЭ имеет свой уровень сложности (базовый, повышенный, высокий), в зависимости от чего за неё начисляются определённые баллы, установленные нормативными актами. Для каждого предмета критерии выставления баллов определяются в отдельности, однако существуют закономерности, позволяющие понять общий принцип начисления баллов вне зависимости от предмета.

Каждая из задач относится к определённой тематике - одному из основных разделов предмета, по которому проводится ЕГЭ. Данные тематики не являются широкими, а достаточно узко направлены.

Соответственно, можно выявить несколько критериев, характерных для вопроса ЕГЭ:

• Тематика вопроса;

• Тип вопроса;

• Сложность вопроса.

Оценка ответов обучающегося также должна быть коррелирована с методикой оценки ответов на ЕГЭ. Данная постановка задачи предполагает, что за каждый ответ обучающийся получает определённое количество баллов. Минимальное и максимальное их количество жёстко закреплены рамками предмета и сложностью вопроса.

Необходимо также ввести дополнительные характеристики оценивания ответа обучающегося, а именно - время ответа на вопрос. Таким образом можно спрогнозировать среднее время ответа обучающегося на вопрос поставленной тематики и сложности, что в дальнейшем позволит определить предполагаемое время, за которое обучающийся ответит на все вопросы ЕГЭ.

Для прогнозирования результатов ЕГЭ необходимо составить прогноз по каждой из подтем (далее - тем), которая может попасться в ЕГЭ по выбранному предмету. Как говорилось выше, каждый из вопросов экзамена строго соответствует тематикам, заявленным в спецификации по каждому предмету, поэтому прогноз ответа на каждый из вопросов ЕГЭ исходит из прогноза на ответ по каждой из тематик. Прогноз на конечный результат ЕГЭ - классический - сумма прогнозируемых баллов на каждый из вопросов.

Набирая пул ответов, а также статистику по этим ответам, для каждой подтемы, обучающийся создаёт временной ряд, показывающий динамику изменения его оценки и времени ответа в ходе процесса обучения в зависимости от подтемы вопроса. Однако прогноз может быть некорректным, если обучающийся будет отвечать на один и тот же вопрос несколько раз. Необходимо ввести штрафные баллы для дальнейшего прогнозирования на вопросы, которые давались обучающимся не в первый раз. Таким штрафным баллом может выступать запись количества попыток ответа на вопрос. Каждый последующий ответ на один и тот же вопрос должен оказывать меньшее влияние на прогноз ответа по теме в целом.

Схематичный процесс прогноза представлен на рис. 1.

Вопросы студенческой науки

Выпуск №5 (33), май 2019

ВОПРОС

Категория

п Тема Тип сложности

вопроса'задачи вопроса'задачи вопроса

вопроса задачи

О

ОТВЕТ

Категория

Обучающийся вопроса' сложности Оценка за Время ответа

задачи

О

ПОДГОТОВЛЕННЫЕ ДАННЫЕ

для прогноза оценки за ответ:

Обучающийся Тема Категория сложности Оценки за ответы

для прогноза времени ответа:

Обучающийся Тема Категория сложности Время ответов

о

ПРОГНОЗИРОВАНИЕ

Обучающийся Тема Категория сложности Прогноз по теме н категории сложности

о

СВЕДЕНИЕ ПРОГНОЗОВ ПО ТЕМЕ В ПРОГНОЗ ЕГЭ

Рисунок 1. Схематичная последовательность прогноза. Перед тем, как выбирать прогнозную модель, необходимо провести анализ среднестатистического временного ряда, получаемого в ходе процесса сбора данных, описанного выше (пример такого ряда представлен на рис. 2).

1

I 0,8 I 0,6

8 0,4 § 0,2

№

0

8 9 10 11 № решенной задачи

12 13 14 15 16 17

18

Рисунок 2. Временной ряд, сформированный на основе баллов, получаемых учеником во время решения задач

1-го уровня сложности. В среднем, характеристики рядов следующие:

• Нестационарные;

• Не обладают сезонностью.

На основании характеристик ряда, выбор модели прогнозирования проводился по следующим критериям:

• К1 - популярность модели;

2

3

4

5

6

7

• К2 - работа с нестационарными рядами;

• КЗ - работа с рядами без сезонной составляющей;

• К4 - работа с историческими ошибками;

• К5 - работа с рядами, не имеющими тренда;

• К6 - возможность установки приоритета новых полученных значений над старыми;

• К7 - возможность настройки модели для потокового анализа.

Для сравнения выбраны наиболее популярные модели прогнозирования. Результаты представлены в

таблице 1.

Таблица 1. Результаты сравнения моделей прогнозирования

K1 K2 K3 K4 K5 K6 K7 Сумма

ARIMA 1 1 1 1 1 1 1 1,00

Нейронная сеть 1 0,75 1 1 1 1 1 0,95

Тренд 0,25 1 1 0 0 0,5 0,5 0,59

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Модель Хольта-Винтерса 0,75 0 0 1 0 1 1 0,49

Вес критерия ,05 ,2 ,2 ,1 ,1 ,1 ,25 1

Наиболее подходящими для дальнейшей работы выбраны модель ARIMA и модель прогнозирования на основе нейронной сети.

Результаты сравнения прогнозов двух моделей представлены в таблицах 2-5.

Таблица 2. Сравнение прогнозов моделей при 5 решённых задачах (баллы)

Набор Нейронная сеть ARIMA Экспертная

данных Прогноз Ошибка Результат Прогноз Ошибка Результат оценка

1 4.00 1.00 4 3.00 0.01 3 3

2 1.75 1.57 2 3.94 0.02 4 2

3 1.33 0.44 1 2.00 0.00 2 2

4 1.25 0.56 1 0.00 0.04 0 1

Таблица 3. Сравнение прогнозов моделей при 15 решённых задачах (баллы)

Набор данных Нейронная сеть ARIMA Экспертная оценка

Прогноз Ошибка Результат Прогноз Ошибка Результат

1 2.89 0.01 3 2.95 0.53 3 3

2 1.31 2.82 1 0.62 0.21 1 1

3 1.84 0.02 2 2.00 0.01 2 2

4 0.60 0.18 1 1.21 2.01 1 1

5 1.85 0.01 2 1.00 1.31 1 1

6 1.66 0.52 2 1.43 0.44 1 2

Вопросы студенческой науки

Выпуск №5 (33), май 2019

7 0.06 0.00 0 0.47 0.76 0 1

8 2.68 0.08 3 2.63 0.92 3 3

Таблица 4. Сравнение прогнозов моделей при 5 решённых задачах (время)

Набор Нейронная сеть ARIMA Экспертная

данных Прогноз Ошибка Прогноз Ошибка оценка

1 252.72 4939.51 287.18 15.07 >200 <325

2 17.04 1517.80 56.00 36.00 >50 <60

3 23.22 45.98 27.09 3.38 >20 <32

Таблица 5. Сравнение прогнозов моделей при 15 решённых задачах (время)

Набор Нейронная сеть ARIMA Экспертная

данных Прогноз Ошибка Прогноз Ошибка оценка

1 235.33 12268.17 348.03 4088.07 >300 <400

2 76.12 67.98 87.18 31.43 >80 <95

3 16.50 0.24 22.27 76.67 >15 <20

При прогнозировании баллов обе модели улучшают свои показатели с увеличением числа решённых

задач. Отметим, что расхождения между ними довольно редки, но при малом количестве решённых задач обе

модели показывают не лучший результат. Проведенный анализ показал, что усреднённое значение прогнозов

обеих моделей даёт в спорных ситуациях результаты близкие к экспертной оценке.

При прогнозировании времени решения задачи модель ARIMA показала себя лучше нейронной сети,

чаще попадая в доверительные интервалы, установленные экспертом. Однако, в зависимости от сложности ряда,

каждая из моделей адаптировалась к нему по-своему. И хотя модель ARIMA чаще оказывалась лучше,

прослеживается закономерность, что чем меньше ошибка прогнозирования, тем больше вероятность попадания

в доверительный интервал. Соответственно, при прогнозировании времени необходимо использовать обе

модели, но брать за основной результат тот, у которого ошибка прогнозирования оказалась ниже.

Формулы, по которым происходит формирование конечного прогноза по теме следующие:

• для прогнозирования баллов:

П ,, лптмл (л ARlMAerror\ ( NNerror \ Result = ARIMAvred (1 - „,w,-—-) + NNvred (1 - „,w,-—-); (1)

pred\ ARIMA„rrnr + NNprrnJ pred\ ARIMA„rrnr + NNprrnr v J

для прогнозирования времени:

(ARIMApred, ARIMAerror < NNerror Result { NNpred, NNerror<ARIMAerror; (2)

где АШМАргеа, ММргеа - предсказание моделей, АШМАеггог, ИИеггог - ошибка моделей. Результат объединения моделей показан в таблицах 6-7.

Таблица 6. Сравнение прогнозов моделей при 5 решённых задачах и их общий вывод (баллы)

Набор данных Нейронная сеть ARIMA Общий результат Экспертная оценка

Прогноз Ошибка Результат Прогноз Ошибка Результат

1 0.665 0.536 1 0.705 0.071 1 1 1

2 0.978 0.0 1 1.0 0.0 1 1 1

3 0.127 0.663 0 0.705 0.068 1 1 1

4 0.666 0.111 1 0.940 0.024 1 1 1

5 0.068 0.437 0 0.125 0.667 0 0 0

Таблица 7. Сравнение прогнозов моделей при 15 решённых задачах и их общий вывод (баллы)

Набор данных Нейронная сеть ARIMA Общий результат Экспертная оценка

Прогноз Ошибка Результат Прогноз Ошибка Результат

1 2,355 0,126 2 2 0,563 2 2 2

2 1,754 0,061 2 2 0 2 2 2

3 1,229 1,510 1 0 4 0 1 1

4 1,784 3,183 2 0 4 0 1 1

5 1,031 0,938 1 2 0 2 1 1

Согласно спецификатору, одна задача ЕГЭ может быть задана на разные темы, закреплённые в нормативных актах. То есть, нельзя заранее предугадать какая их предложенных тем попадётся на экзамене. Для того, чтобы составить прогноз на одну задачу ЕГЭ, необходимо обратится к открытому банку задач ЕГЭ и вычислить вероятность попадания определённой темы (учитывая её категорию сложности) в определённом вопросе. Тогда формула для прогноза по одному вопросу ЕГЭ следующая:

Score = ^ PresultnResult п > (3)

где presuit - вероятность попадания темы c определённой сложностью, по которой получен прогноз Result, п - порядковый номер темы и её сложности в программе.

Формула конечного прогноза:

Total = ^Scorem, (4)

где т - номер задачи ЕГЭ.

Список используемой литературы:

1. Федеральный закон от 09.02.2007 № 17-ФЗ (ред. от 01.12.2007) "О внесении изменений в Закон Российской Федерации "Об образовании"

2. Бокс Дж., Дженкинс Г.М. Анализ временных рядов, прогноз и управление. М.: Мир, 1974. 406 с.

3. Чучуева И. А. Модель прогнозирования временных рядов по выборке максимального подобия : дис. -Московский государственный технический университет им. НЭ Баумана, 2012.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сырцова Анастасия Олеговна,

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сырцова Анастасия Олеговна,

The method of predicting the results of the exam based on the combination of models of ARIMA and neural network

Текст научной работы на тему «Метод прогнозирования результатов ЕГЭ на основе объединения моделей ARIMA и нейронной сети моделей ARIMA и нейронной сети»