Научная статья на тему 'Методы интеллектуального анализа данных в задачах оценки результатов дистанционного обучения'

Методы интеллектуального анализа данных в задачах оценки результатов дистанционного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
237
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
дистанционное образование / МООК / системы дистанционного обучения / интеллектуальный анализ данных / e-learning / MOOC / learning management system / data mining

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нестеров Сергей Александрович, Смолина Елена Михайловна

В статье описаны результаты проведения онлайн-курса «Управление данными» на портале Открытого образования openedu.ru. Рассматриваются подходы к анализу результатов дистанционного обучения, в том числе, использование технологии интеллектуального анализа данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF DATA MINING IN ANALYSIS OF THE RESULTS OF DISTANCE LEARNING

The paper describes the results of MOOC "Data management” on the portal of open education openedu.ru. Some approaches to the analysis of results of distance learning, including technologies of data mining, are discussed.

Текст научной работы на тему «Методы интеллектуального анализа данных в задачах оценки результатов дистанционного обучения»

УДК 004.62, 004.85, 378.147

Нестеров Сергей Александрович,

канд. техн. наук, доцент, Смолина Елена Михайловна,

студент

МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ОЦЕНКИ РЕЗУЛЬТАТОВ ДИСТАНЦИОННОГО

ОБУЧЕНИЯ

Россия, Санкт-Петербург, Санкт-Петербургский политехнический университет Петра Великого, nesterov@saiu.ftk.spbstu.ru, smolensk9595@mail.ru

Аннотация. В статье описаны результаты проведения онлайн-курса «Управление данными» на портале Открытого образования openedu.ru. Рассматриваются подходы к анализу результатов дистанционного обучения, в том числе, использование технологии интеллектуального анализа данных.

Ключевые слова: дистанционное образование, МООК, системы дистанционного обучения, интеллектуальный анализ данных.

Sergei A. Nesterov, PhD in Technical Sciences, Associate Professor,

Elena M. Smolina, Student

METHODS OF DATA MINING IN ANALYSIS OF THE RESULTS OF

DISTANCE LEARNING

Russia, St-Petersburg, Peter the Great Saint-Petersburg

Polytechnic University, nesterov@saiu.ftk.spbstu.ru, smolensk9595@mail.ru

Abstract. The paper describes the results of MOOC "Data management" on the portal of open education openedu.ru. Some approaches to the analysis of results of distance learning, including technologies of data mining, are discussed.

Keywords: e-learning, MOOC, learning management system, data mining.

В настоящее время активно развивается электронное образование и, как следствие, происходит распространение формата массовых открытых онлайн-курсов (МООК). Системы дистанционного онлайн образования накапливают большое количество данных о слушателях курса и результатах их обучения. Данные подобного типа нуждаются в дальнейшем анализе с целью выработки рекомендаций для улучшения обра-

зовательного процесса. Это привело к появлению в интеллектуальном анализе данных отдельного направления - интеллектуальный анализ данных образовательного процесса (Educational Data Mining), которое разрабатывает методы исследования данных для сферы образования. Например, можно выявлять темы, которые вызывают наибольшие затруднения, оценивать корректность тестовых заданий, исследовать область интересов и способностей обучающихся.

В ходе исследования этап сбора данных для анализа представлял собой выгрузку отчетов о прохождении дистанционного курса «Управление данными» с платформы «Открытое образование» (openedu.ru) [1]. Данный курс был разработан летом 2016 года в формате МООК и впервые запускался в сентябре указанного года. Курс перезапускается раз в семестр, в сентябре и феврале, и на данный момент проводился уже пять раз.

Длительность курса «Управление данными» - 16 недель, на каждой из которых для изучения доступна новая тема. Каждая тема содержит видеолекции, практические задания, тест по итогам изучения темы (Homework). После 8-й недели изучения проводится промежуточный экзамен (Midterm Exam), после 16-й - итоговый (Final Exam). Итоговая оценка о прохождении курса (Grade) складывается по результатам выполнения домашних заданий (среднее значение), промежуточного и итогового экзамена (для первого запуска курса - 35% за домашние задания, 30% за промежуточный экзамен и 35% за итоговый экзамен; для последующих - 20%, 20% и 60% соответственно).

Для проведения анализа данных был выбран язык программирования R, который имеет множество различных инструментов, встроенных пакетов и функций для статистической обработки данных и работы с графикой. Таким образом, после сбора данных с образовательного портала, каждый отчет был импортирован в среду разработки R в формат таблицы данных (dataframe). Во время загрузки производилось преобразование отсутствующих данных в формат, читаемый интерпретатором языка R.

Для каждого из запусков курса был вычислен процент студентов, которые записались на курс, но не приступали к выполнению ни одного задания. Как видно из таблицы 1, самое большое количество слушателей записывалось на курс с первым запуском, что может быть связано с интересом студентов к новому курсу, относительно других запусков. Большое количество студентов на последнем запуске связано с тем, что в связи с организационными сложностями срок записи на курс несколько раз продлевался и в итоге он был существенно длиннее, чем обычно. Для

пяти запусков всего 31%, 32%, 23%, 19%, 23% студентов соответственно приступали к выполнению заданий.

Таблица 1

Количество студентов, не выполнивших ни одного задания_

Запуск курса Записались на курс Приступали к выполнению заданий Не выполнили ни одного задания, (%)

поток 2016 2547 798 69

поток 2017 (весна) 1572 499 68

поток 2017 (осень) 1823 427 77

поток 2018 (весна) 1504 279 81

поток 2018 (осень) 2346 529 77

На рис. 1 приведена гистограмма «Количество студентов, приступивших к выполнению задания» для первого запуска курса, где по оси х указан номер задания, по оси у - количество студентов. В запуске 2016 года 798 студентов выполняли первое задание. После первой недели произошел резкий скачок вниз почти в два раза - всего 435 студентов продолжали выполнять задания второй недели. Далее количество слушателей курса продолжает плавно уменьшаться с течением недель, при этом незначительный скачок вверх наблюдается в выполнении промежуточного экзамена.

Рис. 1. Количество студентов, выполнивших задания (запуск 2016)

В весенний запуск 2017 года, приступали к выполнению первого задания в количестве 499 человек. Далее, аналогично предыдущему запуску курса, ко второй неделе количество студентов значительно уменьшилось - 329. В последующие недели количество слушателей также плавно продолжало уменьшаться. Для остальных запусков наблюдалась аналогичная зависимость, при этом к выполнению первого задания приступало 427 студентов осенью 2017, 274 и 518 обучающихся в весеннем и осеннем запуске 2018 года соответственно. На второй неделе обучения количество сокращалось до 282, 160, 412 соответственно.

По анализу выполнения студентами заданий можно сделать вывод, что тенденция обучения студентов на каждом запуске курса аналогична: большое количество студентов записывается на курс и выполняет первые задания, затем еженедельно количество слушателей уменьшается, а после промежуточного экзамена количество слушателей остается более стабильным.

На рисунке 2 представлен график зависимости, который показывает количество студентов (в процентах), приступавших к выполнению еженедельного тестового задания, относительно количества студентов, которые выполняли задание первой недели.

•2016

А2017{весна} ■2017(осень) +2018(весна н2018(осень)

Рис. 2. Процент студентов, выполнявших задания (относительно числа сдавших первое задание)

Для всех запусков курса наблюдается резкий спад после первой недели курса, это может быть связано с множеством причин, например: материал оказался неинтересным или сложным для изучения;

Процент студентов, выполнявших задание, относительно выполнивших первое задание

Домашнее задание

осознание того, что курсу необходимо уделять много времени;

недостаточность мотивации к изучению;

студент изначально не планировал обучаться, но записался «посмотреть»;

курс слишком объемный и продолжительный.

Видно, что для первого запуска характерен более значительный спад после первой недели изучения, при этом для потоков 2017 года графики имеют схожий вид. На всех графиках, кроме потока весны 2018 наблюдается падение количества слушателей после промежуточного экзамена, при этом оно наиболее ярко выражено для потока «осень 2017». Уменьшение количества слушателей после экзамена может быть связано, например, со сложностью вопросов или нежеланием студентов приступать к его выполнению.

На графиках также можно заметить, что после середины курса падение числа студентов незначительно и происходит плавно. Это может означать, что выполнившие промежуточный экзамен студенты, продолжали обучение до конца курса.

На основе данных о прогрессе в прохождении дистанционного курса можно разделить слушателей на группы, наиболее близкие по результатам. Это является задачей кластеризации, которая формально описывается следующим образом [2, 3]. Пусть I - множество слушателей дистанционного курса

1 = {¿1, ^ ^ ¿п} (1) где каждый из слушателей описывается набором атрибутов

= {х1, Х2 ,..., Хк ,..., Хт (2)

хк - независимая переменная, которая может принимать значения из некоторого множества хк = {у[,

Необходимо построить множество кластеров

С = {Cl, с^..^ск^^} (3)

где каждый кластер включает в себя схожие объекты из исследуемого множества слушателей I

сь = ^ , ¿р |, ¿р е 1, й ^, ¿р ) < (4)

Здесь й , Iр) - мера близости между объектами (расстояние или метрика), а - величина, которая определяет й, ¿р) для включения их в один кластер [2].

Таким образом, задача заключается в разделении исследуемого множества слушателей дистанционного курса на группы с общими характеристиками (кластеры).

Выбор числа кластеров основывался на применении метода исследования зависимости изменения внутрикластерной суммы квадратов от

числа кластеров. Для всех запусков, в соответствии с указанным показателем было выбрано значение в 4 кластера. Для реализации кластерного анализа был выбран метод к-средних. При использовании метода выбирается к произвольных исходных центров - точек в пространстве исследуемых объектов. Объекты разбиваются на к групп наиболее близких к одному из центров, где близость определяется расстоянием или метрикой [2].

На рисунке 3 показаны средние оценки за еженедельные тесты для каждого из 4 кластеров, полученных для весеннего запуска курса в 2018 году. Для остальных запусков результаты кластеризации были в целом аналогичны.

1 2

1.00-

{ | | | { | | | 1 { 1 1 1 1 1 | 1 | | | { | | | | | I | 1 1 1 1 1 | 1 |

§§§§§§§§|§Е£Е£Е£Е.Е §§§§§§§§|§ЕЕЕЕЕЕЕ.£

хххххххх^х-^-^-^-^^-^-^0- хххххххх^х-^-^^-^-^-^^"-

Рис. 3. Средняя успеваемость по кластерам для запуска «поток 2018(весна)»

Для каждого из пяти запусков курса можно выделить следующие группы студентов:

- учащиеся, которые стабильно изучали курс;

- учащиеся, которые активно обучались первую половину курса, а затем понизили успеваемость, но закончили курс;

- учащиеся, которые обучались примерно первые две недели, а затем иногда «заглядывали» на курс;

-учащиеся, которые активно обучались в первые недели, затем продолжали обучение менее активно, а после середины курса оставили обучение.

Анализ полученного решения, позволит произвести сравнительный анализ студентов, которые закончили курс и которые его бросали, и понять, почему начавшие обучение слушатели не остаются заниматься

на курсе. Это будет полезно при корректировке структуры курса (возможно, некоторые из заданий являются слишком сложными для определенной группы студентов). Кроме того, в курс могут быть добавлены новые интересные темы и задачи, что позволит привлечь внимание и заинтересовать студентов в продолжении обучения. Некоторым группам обучающихся также могут быть рекомендованы дополнительные курсы для предварительной подготовки.

На следующем этапе исследования планируется решить задачу классификации: по результатам обучения в течение нескольких недель курса определить, будет ли курс закончен обучающимся или нет. Результаты подобного прогнозирования могут позволить заранее разработать и принять меры для того, чтобы удержать студентов на курсе, мотивировать их для дальнейшего обучения.

Список литературы

1. Андреева Н.В., Нестеров С. А. Управление данными: онлайн-курс. [Электронный ресурс] https://openedu.ru/course/spbstu/DATAM.

2. Барсегян А. А. Методы и модели анализа данных: OLAP и Data Mining / А. А. Барсегян, М.С. Куприянов, В. В. Степаненко, И. И. Холод. - СПб.: БХВ-Петербург, 2004. - 336 с.

3. Грас, Дж.Data Science. Наука о данных с нуля. СПб: БХВ-Петербург, 2017. -

336 с.

УДК 004.031.42

Кудаков Александр Владимирович,

Директор Высшей инженерной школы

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА ОРГАНИЗАЦИИ ОБУЧЕНИЯ ШКОЛЬНИКОВ

Санкт-Петербург, Санкт-Петербургский политехнический университет Петра Великого, alexander.kudakov@spbstu.ru

Аннотация/ В эпоху экономики знаний одним из ключевых приоритетов становится дополнительное образование. Успешное развитие дополнительного образования на базе вуза сопряжено с необходимостью оперативной обработки большого объема динамично изменяющихся данных по разным категориям: программы обучения, группы, слушатели, регистрация, преподаватели, экзамены и др. Эффективное управление корпоративными знаниями и их использование для принятия управленческих решений является сложной, многоплановой задачей. Поэтому становится актуальной разработка информационно-аналитической системы организации обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.