Научная статья на тему 'Организация хранилища данных для дистанционного практикума по программированию и смежным дисциплинам'

Организация хранилища данных для дистанционного практикума по программированию и смежным дисциплинам Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
66
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСТАНЦИОННЫЙ ПРАКТИКУМ / ХРАНИЛИЩЕ ДАННЫХ / АНАЛИЗ ДАННЫХ / МЕТОДЫ DATA MINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Басалаева Юлия Сергеевна, Ржеуцкая Светлана Юрьевна

В данной статье описывается организация разработанного хранилища данных для дистанционного практикума по программированию с целью анализа накопленных данных о процессе и результатах электронного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Организация хранилища данных для дистанционного практикума по программированию и смежным дисциплинам»

ОРГАНИЗАЦИЯ ХРАНИЛИЩА ДАННЫХ ДЛЯ ДИСТАНЦИОННОГО ПРАКТИКУМА ПО ПРОГРАММИРОВАНИЮ И СМЕЖНЫМ ДИСЦИПЛИНАМ

Басалаева Юлия Сергеевна, студент (e-mail: yuliya.basalaewa@ya.ru) Ржеуцкая Светлана Юрьевна, к.т.н., доцент (e-mail: avt@vstu.edu.ru) Вологодский государственный университет, г.Вологда, Россия

В данной статье описывается организация разработанного хранилища данных для дистанционного практикума по программированию с целью анализа накопленных данных о процессе и результатах электронного обучения.

Ключевые слова: дистанционный практикум, хранилище данных, анализ данных, методы Data Mining.

Повсеместное использование систем электронного обучения привело к пониманию важности задач, связанных с анализом накопленной в них информации с целью извлечения новых знаний, полезных с точки зрения организации учебного процесса. Дистанционный практикум по программированию и смежным дисциплинам кафедры автоматики и вычислительной техники Вологодского государственного университета (ВоГУ) не является исключением, так как за многие годы его эксплуатации были накоплены достаточно большие объемы данных.

Данный практикум представляет собой систему автоматической проверки решений задач студентами, в основе которой лежит база данных, хранящая всю информацию о процессе обучения. Система очень популярна среди студентов не только ВоГУ, но и других вузов, поскольку размещена на сайте кафедры автоматики и вычислительной техники и доступна для всех посетителей сайта. В ней собрано достаточно большое количество учебных курсов: программирование и алгоритмизация, базы данных (SQL и PL/SQL Oracle), архитектура компьютера, передача данных в информационных управляющих системах и др., каждый курс содержит большое количество задач по различным тематикам, также здесь собраны олимпи-адные задания. Студент, решив выбранную задачу, отправляет свое решение в систему, где оно проверяется автоматически. Если решение неверное, то система помогает студенту найти ошибку, верные решения дополнительно проверяются на плагиат. Таким образом, практикум является незаменимым помощником в процессе обучения студентов.

Для улучшения качества обучения было принято решение проанализировать накопленные в системе данные о процессе обучения. На основе полученных результатов анализа преподаватели смогут сделать выводы, например, какой курс дается студентам легче, какая тематика задач понятнее для решения, какие студенты чаще всего занимаются плагиатом, какой язык программирования пользуется большей популярностью среди пользователей, какие задачи вызывают у студентов больше затруднений и др.

В настоящее время в базе данных дистанционного практикума накоплен достаточно большой объем информации: больше 150 000 решений отправлено студентами на проверку за всё время эксплуатации системы, более 1000 задач хранится в базе данных. Такой большой объем данных начинает отрицательно сказываться на производительности системы. В связи с этим возникла потребность в создании хранилища данных (ХД), которое позволит разделить данные, используемые для оперативной обработки и для решения задач анализа.

Bill Inmon определяет ХД как «предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные с целью поддержки управления» и призванные выступать в роли «единого и единственного источника истины», который обеспечивает аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений [1].

Разработанное ХД, которое в настоящий момент находится на стадии внедрения, во-первых, позволит разгрузить оперативную базу данных, тем самым увеличить производительность дистанционного практикума, а во-вторых, позволит анализировать накопленные данные с помощью различных методов Data Mining, не нагружая тем самым оперативную базу.

Основными объектами для анализа являются задачи и студенты, решающие эти задачи, поэтому в ХД будут храниться данные, связанные с этими объектами. Поскольку данные меняются нечасто, то в хранилище, по заранее определенному расписанию, с сервера будет копироваться накопленная за неделю информация. К хранилищу не предъявляется таких жестких требований по нормализации, как к обычной базе данных, поэтому спроектированное ХД имеет денормализованную структуру (обладающую некоторой избыточностью данных). Было принято решение использовать схему хранилища типа «звезда», ориентированную в первую очередь на высокую производительность при выполнении аналитических запросов [2].

Основой хранилища является одна большая таблица фактов, которая будет содержать сведения о решениях задач, и окружающие ее меньшие таблицы, являющиеся справочниками по большей части, соединенные с таблицей фактов в виде звезды радиальными связями.

Фактами о решениях конкретной задачи являются:

■ количество решивших задачу студентов,

■ общее количество решавших эту задачу студентов,

■ относительный показатель числа решивших к числу решавших студентов,

■ количество отправленных решений,

■ количество верных решений,

■ количество неверных решений,

■ количество ошибок представления,

■ количество ошибок выполнения,

■ количество ошибок, связанных с исчерпанным пределом времени,

■ количество ошибок компиляции,

■ количество неуникальных решений,

■ количество частично уникальных решений,

■ наименьшее число попыток решения задачи,

■ максимальное число попыток решения задачи,

■ среднее число попыток решения задачи,

■ минимальное время выполнения,

■ максимальное время выполнения,

■ среднее время выполнения,

■ минимальное количество используемой памяти,

■ максимальное количество используемой памяти,

■ среднее количество используемой памяти,

■ компилятор, который использовался реже всего при решении задачи (система поддерживает более десяти компиляторов с различных языков программирования),

■ компилятор, который использовался чаще всего при решении.

Все эти сведения имеются в оперативной базе данных и могут быть получены из неё путем несложных запросов.

В качестве примера решенной задачи аналитической обработки данных хранилища можно привести задачу кластеризации студентов по их поведению в процессе обучения в системе, которая решалась методами Data Mining.

Процесс кластеризации осуществлялся в несколько этапов. Сначала было проведено исследование существующих алгоритмов кластеризации. Одним из главных критериев выбора алгоритмов было то, что вся выборка должна разбиваться на неизвестное число кластеров.

После того, как алгоритмы были выбраны, они были опробованы на модельных данных, взятых из крупнейшего репозитория реальных и модельных данных машинного обучения - UCI. Результаты кластеризации модельных данных выбранными алгоритмами получились хорошими, поэтому было принято решение использовать данные алгоритмы для дальнейшей кластеризации реальных данных.

Для кластеризации студентов, решающих задачи в дистанционном практикуме, были выбраны следующие атрибуты: относительный показатель числа решенных задач к числу отправленных задач, среднее число попыток решения задачи, средняя сложность задачи, наиболее часто используемый компилятор и другие атрибуты.

Результаты кластеризации студентов получились достаточно хорошими и интерпретируемыми. Если обобщить все результаты кластеризации различными алгоритмами, то можно в базе данных дистанционного практикума выделить следующие кластеры: пользователи, которые зарегистрированы в проверяющей системе, но не отправившие ни одного

решения; студенты, которым потребовалось для верного решения задачи средней сложности (15 баллов) две попытки; студенты, которым удалось получить верное решение задачи с первого раза, но при этом решали они легкие задачи (10 баллов); студенты, которым пришлось очень потрудиться для получения верного решения, число отправленных решений для одной задачи больше десяти, средняя сложность задачи 87 баллов (от 50 до 150 баллов); студенты, которым удалось получить верное решение сложной задачи с первого раза (100 баллов); студенты, которые выбирали очень сложную задачу, но после неудачной и второй попытки отправки решения, забрасывали задачу (сложность задач150 баллов). Полученные данные были переданы преподавателем кафедры.

Подводя итог, следует отметить, что активное использование разработанного хранилища для решения задач аналитической обработки данных, накопленных в системе дистанционного практикума, позволит преподавателям усовершенствовать учебный процесс и повысить качество обучения программированию и смежным дисциплинам.

Список литературы:

1. Inmon, B. Building the Data Warehouse.Third Edition / B. Inmon, J. Wiley. - L: McGraw-Hill, 2002.

2. Марков, А.С. Базы данных: введение в теорию и методологию / А.С. Марков, К.Ю. Лисовский. - Москва: Финансы и статистика, 2006.

Basalaeva Yuliya Sergeevna, student

(e-mail: yuliya.basalaewa@ya.ru)

Vologda state university, Vologda, Russia

Rzeyzkaya Svetlana Yuryevna, Cand.Tech.Sci., associate professor

Vologda state university, Vologda, Russia

DEVELOPMEN DATA WAREHOUSE FOR REMOTE WORKSHOP ON PROGRAMMING AND RELATED SUBJECTS

Abstruct. This article describes the organization developed a data warehouse for remote programming workshop to analyze the collected data about the process and the results of e-learning.

Keywords: remote workshop, data warehouse, data analysis, methods Data Mining.

i Надоели баннеры? Вы всегда можете отключить рекламу.