Научная статья на тему 'КЛАСТЕРИЗАЦИЯ И АНАЛИЗ ТЕСТОВЫХ ЗАДАНИЙ ДИСТАНЦИОННОГО КУРСА'

КЛАСТЕРИЗАЦИЯ И АНАЛИЗ ТЕСТОВЫХ ЗАДАНИЙ ДИСТАНЦИОННОГО КУРСА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
80
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кластеризация / дистанционный курс / МООК / системы дистанционного обучения / интеллектуальный анализ данных / анализ тестовых заданий / статистические показатели качества / clustering / distance course / MOOC / learning management system / data mining / test task analysis / quality statistical measures

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сажнова Виктория Александровна, Нестеров Сергей Александрович

В статье анализируется отчет с результатами прохождения слушателями онлайн-курса «Управление данными» на портале Открытого образования openedu.ru. Рассчитаны статистические характеристики для анализа сложности тестовых заданий. Решена задача кластеризации тестовых заданий методом k-средних. На основе полученных результатов выделены наиболее сложные задания курса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLUSTERING AND ANALYSIS OF THE TEST TASKS ON THE DISTANCE COURSE

The paper describes the analysis of the report about the participants’ results on the distance course "Data Management" from the portal of Open Education openedu.ru. The statistical characteristics are calculated for the analysis of the complexity of test tasks. The test tasks were separated into characteristic groups by the k-means method. The most difficult tasks were identified and analyzed.

Текст научной работы на тему «КЛАСТЕРИЗАЦИЯ И АНАЛИЗ ТЕСТОВЫХ ЗАДАНИЙ ДИСТАНЦИОННОГО КУРСА»

УДК 004.852, 004.62 doi:10.18720/SPBPU/2/id21-102

Сажнова Виктория Александровна,

студент,

Нестеров Сергей Александрович,

доцент, канд.техн. наук, доцент

КЛАСТЕРИЗАЦИЯ И АНАЛИЗ ТЕСТОВЫХ ЗАДАНИЙ ДИСТАНЦИОННОГО КУРСА

Россия, г. Санкт-Петербург, Санкт-Петербургский политехнический университет Петра Великого, sazhnova.va@edu.spbstu.ru, nesterov@spbstu.ru

Аннотация. В статье анализируется отчет с результатами прохождения слушателями онлайн-курса «Управление данными» на портале Открытого образования openedu.ru. Рассчитаны статистические характеристики для анализа сложности тестовых заданий. Решена задача кластеризации тестовых заданий методом k-средних. На основе полученных результатов выделены наиболее сложные задания курса.

Ключевые слова: кластеризация, дистанционный курс, МООК, системы дистанционного обучения, интеллектуальный анализ данных, анализ тестовых заданий, статистические показатели качества.

Victoria A. Sazhnova,

Student, Sergey A. Nesterov,

Associate Professor, PhD in Technical Sciences

CLUSTERING AND ANALYSIS OF THE TEST TASKS ON THE DISTANCE COURSE

Russia, St-Petersburg, Peter the Great Saint-Petersburg Polytechnic University, sazhnova.va@edu.spbstu.ru, nesterov@spbstu.ru

Abstract. The paper describes the analysis of the report about the participants' results on the distance course "Data Management" from the portal of Open Education openedu.ru. The statistical characteristics are calculated for the analysis of the complexity of test tasks. The test tasks were separated into characteristic groups by the k-means method. The most difficult tasks were identified and analyzed.

Keywords: clustering, distance course, MOOC, learning management system, data mining, test task analysis, quality statistical measures.

Введение

В настоящее время происходит трансформация формата обучения, заключающаяся в активном внедрении информационных технологий и массовых открытых онлайн-курсов (МООК). Полученные данные о прохождении дистанционного курса можно использовать для оценки правильности тестовых заданий, прогнозирования будущих результатов обучающихся, выявления сложных тем курса и т. д. Решением подобных задач занимается направление интеллектуального анализа, называемое, интеллектуальный анализ данных в сфере образования [3].

В статье анализируется отчет о выполнении тестовых заданий 5306 слушателями курса «Управление данными» на российской платформе открытого образования openedu.ru за 2019-2020 учебный год [1]. Курс «Управление данными» длится 16 недель, каждую неделю предлагается новая тема для изучения. Каждая тема содержит видеолекции, конспекты лекций и еженедельные тесты (домашние задания). После 8-й недели студентам необходимо пройти промежуточное тестирование, а после 16-й недели - итоговое тестирование. Итоговая оценка за курс суммируется с весовыми коэффициентами: 0,2 - за результаты выполнения домашнего задания (в среднем за все недели), 0,2 и 0,6 - за выполнение промежуточного и итогового экзаменов соответственно.

В ходе исследования для анализа выполнения тестовых заданий были рассчитаны статистические индексы, на основе которых была выполнена кластеризация тестовых заданий, а также выявлены задания, с которыми у студентов возникло больше всего трудностей.

1. Первичная обработка данных

Для оценки сложности заданий были выбраны данные отчёта, в котором содержится информация о выполнении студентами тестовых заданий каждой из 16 недель курса, а также промежуточного и финального тестирований. В данном исследовании были проанализированы еженедельные тесты, в которых всего было представлено 93 задания:

• на 1, 5, 6, 7 и 8 неделях курса - по 5 заданий;

• на 2, 4, 9, 10, 11, 12, 13, 14, 15 и 16 неделях - по 6 заданий;

• на 3 неделе - 8 заданий.

Для решения поставленной задачи был выбран язык программирования R, для которого существует большое количество библиотек (пакетов) для визуализации и анализа данных, а также машинного обучения.

С исходным набором данных были произведены следующие действия:

• выполнено импортирование набора с помощью функции read.csv() в среду разработки R как data frame (таблица данных, где каж-

дый столбец является вектором, содержащим данные определенного типа) и транспонирование полученной таблицы;

• отобраны только те результаты слушателей, у которых итоговая оценка отлична от нуля;

• заданы краткие заголовки для тестовых заданий вида "[ЭД.[К]", где N - порядковый номер учебной недели в курсе, а К - порядковый номер тестового задания ^ой недели.

2. Оценка сложности тестовых заданий

Для каждого тестового задания были рассчитаны два статистических показателя качества:

• Индекс лёгкости задания - характеристика, которая показывает долю студентов, правильно ответивших на тестовое задание;

• Индекс относительной сложности задания в теме - отношение числа сдавших тестовое задание к числу студентов, которые выполнили хотя бы некоторую часть заданий данной недели.

На рисунках 1 и 2 представлены диаграммы, показывающие индекс относительной сложности задания в теме, для заданий с 1 по 8 и с 9 по 16 недели обучения соответственно.

Рис. 1. Диаграмма выполнения заданий 1-8 недель

Рис. 2. Диаграмма выполнения заданий 9-16 недель

3. Кластеризация тестовых заданий

На основе полученных статистических показателей качества можно сгруппировать тестовые задания по степени близости результатов их выполнения. Это является задачей кластеризации, которая формально описывается следующим образом [2].

Пусть дано I - множество тестовых заданий дистанционного курса:

1 = i2,"., ^..... к к (1)

где каждое тестовое задание ¡] описывается набором параметров:

Ь = {х1. Х2..... X.....хт}. (2)

Параметр хк принимает значения из некоторого множества:

ч = К. VI...}. (3)

Необходимо построить множество кластеров С:

С = {С1, с2,..., ск,..., ^}. (4)

Каждый кластер ск включает в себя схожие объекты из исследуемого множества тестовых заданий I:

Ск = {1]. 1р 11] е 1. 1р е I и й(1]. 1р) < (5)

где й (¡]. ¡р) - мера близости между объектами. называемая расстоянием;

а - величина. определяющая расстояние между объектами для включения их в один кластер [2].

При решении данной задачи расстояние й(¡]. Iр) будем рассчитывать.

как Евклидово расстояние:

й«] . Ь ) = Л (X] - Хрг )2. (6)

I=1

Выбор числа кластеров основывался на результатах применения метода исследования зависимости изменения внутрикластерной суммы квадратов расстояний от числа кластеров. Он показал. что наиболее подходящее число кластеров - три.

Кластеризация была выполнена методом к-средних. На рисунке 3 представлена круговая диаграмма. на которой для каждого получившегося кластера отображено количество входящих в него тестовых заданий и их процент от общего количества заданий в курсе. Номера кластеров распределены по уменьшению размера кластеров. В таблице 1 представлены диапазоны значений индексов лёгкости и относительной сложности заданий для каждого кластера.

На основе полученных результатов можно сказать. что еженедельные тестовые задания были разбиты на три характерные группы по

уровню сложности: простые, средние и сложные вопросы. Соотношение вопросов по уровню сложности в банке заданий сбалансировано и приемлемо для продуктивного изучения дистанционного курса: простых вопросов около 50 %, а сложные вопросы составляют примерно 15 % от общего количества тестовых заданий.

Рис. 3. Результаты кластеризации тестовых заданий методом к-средних

Таблица 1

Диапазоны статистических индексов для каждого кластера_

3 кластер (15 заданий) 2 кластер (26 заданий) 1 кластер (55 заданий)

Индекс лёгкости от 65% до 77 % от 78% до 93% от 87% до 96 %

Индекс относительной сложности от 58% до 75% от 74% до 84% от 85% до 95 %

Наибольший интерес вызывают задания третьего кластера, в котором содержатся вопросы с высоким уровнем сложности. Третий кластер состоит из тестовых заданий первой, второй, третьей, четвёртой, шестой, девятой, десятой и двенадцатой недель, для каждой из которых было найдено отношение количества сложных заданий недели к общему числу заданий, представленных на этой неделе. Полученные результаты представлены в таблице 2.

Опираясь на данные, представленные в таблице 2, можно сказать, что больше всего трудностей возникло с 40 процентами заданий третьей недели и с 50 процентами - двенадцатой недели. Задания данных недель в большинстве являются заданиями с множественным выбором, и успешное выполнение данных заданий требует не только внимательности

студента при выборе нескольких вариантов ответа. но и опыта выполнения практических упражнений.

Таблица 2

Сложные задания курса

Номер недели

1 2 3 4 6 9 10 12 15

Количество

сложных 1 1 3 1 1 2 2 3 1

заданий

Общее

количество 5 6 8 6 5 6 6 6 6

заданий

Процент

сложных 20 17 38 17 20 30 30 50 17 %

заданий % % % % % % % %

Заключение

В данной статье представлен результат анализа качества тестовых заданий, для которых были вычислены индексы лёгкости и относительной сложности задания в рамках каждой темы, а также решена задача кластеризации, в результате которой были выделены три основных типа тестовых заданий по уровню сложности: простые, средние и сложные. Представленные в данной статье результаты и методы могут быть использованы на других курсах, чтобы выявить сложные задания с целью адаптации учебного материала для повышения эффективности освоения дистанционного курса.

В дальнейшей работе возможно решение задачи кластеризации для слушателей курса и сопоставление полученных результатов с выделенными кластерами тестовых заданий для выявления заданий, с которыми у слушателей каждой из характерных групп возникли сложности при выполнении.

Список литературы

1. Андреева Н.В., Нестеров С.А. Управление данными: онлайн-курс. [Электронный ресурс] https://openedu.ru/course/spbstu/DATAM.

2. Барсегян А. А. Методы и модели анализа данных: OLAP и Data Mining / А. А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. - СПб.:БХВ-Петербург, 2004. - 336 с.

3. Villanueva, A., Moreno, L.G., Salinas, M.J.: Data Mining Techniques Applied in Educational Environments: Literature Review. In: Digital Education Review, Number 33, 2018.

i Надоели баннеры? Вы всегда можете отключить рекламу.