Научная статья на тему 'ОСОБЕННОСТИ ПОДГОТОВКИ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ ОБУЧЕНИИ В ПРОГРАММНОЙ СРЕДЕ MS TEAMS, ДЛЯ ПОСЛЕДУЮЩЕГО АНАЛИЗА'

ОСОБЕННОСТИ ПОДГОТОВКИ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ ОБУЧЕНИИ В ПРОГРАММНОЙ СРЕДЕ MS TEAMS, ДЛЯ ПОСЛЕДУЮЩЕГО АНАЛИЗА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
61
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАЗОВАТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ / ЦИФРОВОЙ СЛЕД / ПОДГОТОВКА ДАННЫХ / ОЧИСТКА ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Царев Ю. В., Качайло В. С., Кокорина А. Ю.

В данной статье рассматриваются вопросы подготовки данных, которые получены в ходе обучения студентов в среде MS Teams. Полученные данные подвергались предварительной обработке, очистке, слиянию таблиц, дополнению (удалению) атрибутов. Сформированные таблицы в дальнейшем предполагалось анализировать с использованием классификационного, кластерного анализа на предмет поиска нетривиальных знаний.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF PREPARATION OF DATA OBTAINED BY TRAINING IN THE SOFTWARE MS TEAMS FOR FOLLOWING ANALYSIS

This article discusses the issues of preparing data that are obtained during training students in the MS Teams environment. The received data was subjected to preliminary processing, cleaning, merging of tables, addition (deletion) of attributes. The generated tables were further supposed to be analyzed using classification, cluster analysis for the search for non-trivial knowledge.

Текст научной работы на тему «ОСОБЕННОСТИ ПОДГОТОВКИ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ ОБУЧЕНИИ В ПРОГРАММНОЙ СРЕДЕ MS TEAMS, ДЛЯ ПОСЛЕДУЮЩЕГО АНАЛИЗА»

УДК 004.622

Царев Ю.В.

к.т.н., доцент кафедры информационные системы и технологии Ярославский государственный технический университет (Россия, г. Ярославль)

Качайло В. С.

Студент бакалавриата кафедры информационные системы и технологии Ярославский государственный технический университет (Россия, г. Ярославль)

Кокорина А.Ю.

Студент бакалавриата кафедры информационные системы и технологии Ярославский государственный технический университет (Россия, г. Ярославль)

ОСОБЕННОСТИ ПОДГОТОВКИ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ ОБУЧЕНИИ В ПРОГРАММНОЙ СРЕДЕ MS TEAMS, ДЛЯ ПОСЛЕДУЮЩЕГО АНАЛИЗА

Аннотация: в данной статье рассматриваются вопросы подготовки данных, которые получены в ходе обучения студентов в среде MS Teams. Полученные данные подвергались предварительной обработке, очистке, слиянию таблиц, дополнению (удалению) атрибутов. Сформированные таблицы в дальнейшем предполагалось анализировать с использованием классификационного, кластерного анализа на предмет поиска нетривиальных знаний.

Ключевые слова: MS Teams, образовательная деятельность, цифровой след, подготовка данных, очистка данных.

Инструменты Microsoft Forms и Microsoft Teams активно используются в сфере образования. Благодаря им, преподаватели имеют возможность быстро создавать удобно-настраиваемые опросы, анкеты, тесты, формы регистрации. Это позволяет сделать процесс анализа и обсуждения результатов контроля знаний более эффективным и впоследствии организовать верный комплекс контрольно-оценочных средств по дисциплинам [1].

Сообщается, что до 80 процентов времени процесса анализа данных занимает их предварительная подготовка. Подготовка создает более качественные данные для анализа и других задач, связанных с управлением данными, путем устранения ошибок и нормализации исходных данных перед их непосредственной обработкой. Благодаря интеллектуальным инструментам подготовки данных, этот процесс стал быстрее и доступнее [2].

Большая часть наборов данных — это таблицы, содержащие строки и столбцы. Наборы данных содержат значения. Как правило, это или цифры (т.е. количественные данные) или строки (т.е. качественные данные). В реальном мире получить сразу упорядоченный набор данных возможно лишь случайно. Данные, получаемые с помощью MS Teams, не являются исключением.

Рассмотрим особенности подготовки данных для последующего анализа, на примере данных, полученных при обучении в программной среде MS Teams. Сбор данных в среде MS Teams для цифрового следа осуществлялся в трех случаях. Первый - в ходе опросов на лекционных занятиях. Опросы проводились в начале и конце лекции. Опрос представлял собой вопрос с одним или несколькими вариантами правильных ответов и готовился в среде MS Forms. Второй случай - тест для экзамена, вопросы для которого готовились заранее в среде MS Forms. В основном этапы создания экзаменационного теста аналогичны этапам создания опроса на лекции. И последнее - сбор данных о

лабораторных занятиях в привязке к сдаче студентами отчетов по лабораторным работам.

Все эти данные подвергались предварительной обработке: очистке, слиянию таблиц, дополнению (удалению) атрибутов. В дальнейшем подготовленные данные предполагалось анализировались с использованием классификационного, кластерного анализа на предмет поиска нетривиальных знаний.

В рассматриваемом примере опросов по лекционным занятиям, подготовка данных производилась с использованием средств Knime и MS Excel. Собранные первичные данные представлялись в виде таблиц формата xls. MS Teams определяет Фамилию и Имя обучающегося как один атрибут. Для удобства последующего анализа следует разделить этот атрибут на отдельные: Имя и Фамилия. Действия по разделению можно выполнить с помощью обработки Knime. Чтобы обеспечить доступ к точным и непротиворечивым данным, объединение различных представлений данных, устранение дублирующейся информации и пропусков данных очистка становится необходимой.

Таким образом, атрибуты, значения которых пусты, либо вовсе не имеющие ценности с точки зрения дальнейшего анализа следует удалить из таблицы. Из первичной таблицы были удалены атрибуты: Отзыв по тесту, Вопрос теста, Баллы, Отзыв. Поскольку MS Teams предоставляет недостаточные для итогового анализа данные (по каждому опросу), целесообразно ввести несколько новых атрибутов самостоятельно. Сюда относятся атрибуты: Группа, Пол, Опрос, Лекция и Время. Значение атрибута Время устанавливалось непосредственно в среде MS Excel с помощью встроенных функций и рассчитывалось как разница атрибутов Время начала и Время выполнения. Эти данные определяли потраченное обучающимся время для ответа на вопрос опроса. Значения атрибута Группа для каждой записи таблицы также требуют заполнения. Для простановки этих значений в таблице использовалась функция

MS Excel ВПР, которая позволяет данные из одной таблицы переставить в соответствующие ячейки второй [3]. С помощью данной функции представляется возможным быстро заполнить значения атрибута Группа всех записей таблицы, взяв за основу список обучающихся по группам. В общем случае, сигнатура функции выглядит следующим образом: =ВПР (Искомое значение, таблица, номер столбца, интервальный просмотр) [3]. Искомое значение - это то, которое необходимо найти; таблица - диапазон, в котором находится искомое значение; номер столбца в диапазоне, содержащий значение для возврата; интервальный просмотр - достаточно ли приблизительного совпадения. Функция также использовалась для проставления в итоговой таблице значений атрибута Пол на основе списка обучающихся по группам.

В целях наличия итогового представления о пройденных опросах в таблицу был введен атрибут Кумбалл, обозначающий накопленный (кумулятивный) балл оценок студентов за опросы на лекциях. Расчёт значений атрибута производился по формуле MS Excel =СУММЕСЛИМН (диапазон_суммирования, диапазон_условия1, условие1, [диапазон_условия2, условие2],...), которая суммирует все аргументы, удовлетворяющие нескольким условиям [4]. Таким образом, функция позволила для каждого обучающегося групп посчитать итоговый балл за опросы по всем лекциям.

Далее, в целях обезличивания данных обучающихся в таблицах для последующего анализа каждому студенту в группе был присвоен уникальный IDstud. Например, для группы ЭИС-14 значения IDstud начинались со значений 101, 102 и т.д. Для группы ЭИС-15 значения IDstud начинались со 201, 202 и т.д. Для группы ЭИС-16 значения IDstud начинались со 301, 302 и т.д. Для группы ЭИС-17 значения IDstud начинались со 401, 402 и т.д. Для группы ЭИС-18 значения IDstud начинались со 501, 502 и т.д. Для группы ЭИС-19 значения IDstud начинались со 601, 602 и т.д. Формула MS Excel ВПР и в данном случае позволила проставить все необходимые значения. Данные сравнивались со списком обучающихся групп, где для сопоставления использовалась

электронная почта обучающегося и соответствующий ей IDstud. Из исходных данных были удалены личные сведения об обучающихся: Имя, Фамилия, Электронная почта. В результате итоговая таблица после обработки, очистки и объединения имеет лишь необходимые для анализа данные, а именно: ID, IDstud, Время начала, Время выполнения, Балл, Группа, Пол, Опрос, Лекция, Время, Кумбалл.

Что касается подготовки данных по лабораторным занятиям, этот процесс несколько схож с рассматриваемыми ранее операциями. Экспорт данных цифрового следа лабораторных занятий из MS Teams осуществлялся в Excel в формате CSV. Для удобства обработки таблицы первичных данных преобразовывались из формата CSV в формат XLS с помощью соответствующей обработки KNIME.

Из таблицы сдачи отчетов по лабораторной работе в MS Excel в результате очистки и слияния в целях обезличивания данных были удалены атрибуты, содержащие личные сведения: Имя, Фамилия, Электронный адрес. Название атрибута Название отчета по лабораторной работе было для удобства преобразовано в ЛР. Название атрибута Отзыв для конкретизации было изменено на Балл. Для атрибута ЛР указывался номер лабораторной работы. Для атрибута Балл проставлялось значение 2, если в поле было указано «=зачтено» или 0, если поле было пустое. Если же приводилось замечание, требующее исправления отчета, то проставлялся балл 1. Также в таблицу, как и в случае с лекционными данными, были добавлены атрибуты: IDstud, Группа, Пол, Дата, Кумбаллаб. Общий порядок добавления указанных атрибутов такой же, как и для таблиц данных опросов на лекциях.

Данные по экзаменационным тестам содержат намного больше атрибутов, чем вышерассмотренные случаи. Тем не менее, процесс подготовки данных практически не отличается. Результаты экзаменационного теста после выгрузки MS Teams в MS Excel содержат атрибуты: ID, Время начала, Время выполнения, Почта, Имя, Сумма баллов, Отзыв по тесту, 1 Вопрос теста, Баллы

за 1 вопрос, Отзыв за 1 вопрос, 2 Вопрос теста, Баллы за 2 вопрос, Отзыв за 2 вопрос и т.д. Таким образом, из таблицы результатов экзаменационного теста в MS Excel в результате очистки и слияния были удалены атрибуты: Имя, Почта, Отзыв по тесту и все отзывы на вопросы экзаменационного теста (Отзыв за 1 вопрос, Отзыв за 2 вопрос и т.д.). Также в таблицу, как и ранее, были добавлены атрибуты: IDstud, Группа, Пол, Время. Общий порядок добавления указанных атрибутов такой же, как и для таблиц данных опросов на лекциях.

В результате очистки данных получилась таблица с атрибутами: ID, IDstud, Время начала, Время выполнения, Сумма баллов, Группа, Время, Пол, 1 Вопрос теста, Баллы за 1 вопрос, 2 Вопрос теста, Баллы за 2 вопрос и т.д..

Таким образом, перед анализом данных, полученных при обучении в программной среде MS Teams, необходимо выполнить их предварительную подготовку. Поскольку данные, предоставляемые аналитическими сервисами MS Teams неидеальны, а качество итоговых моделей намного сильнее зависит от качества подготовленных данных, следует учитывать рассмотренные особенности подготовки данных. Это и становится возможным благодаря использованию функционала MS Excel и Knime, проводя очистку, слияние таблиц, дополнение и удаление атрибутов.

СПИСОК ЛИТЕРАТУРЫ:

Microsoft Teams для образования [Электронный ресурс]. Режим доступа: https://www.microsoft.com/ru-ru/education/products/teams (дата обращения 18.12.2021) Hadley Wickham Tidy Data // Journal of Statistical Software. - 2014. - №59(10). - С. 1-2 Функция ВПР [Электронный ресурс]. Режим доступа: https://support.microsoft.com/ru-ru/office/функция-впр-0bbc8083-26fe-4963-8ab8-93a18ad188a1 (дата обращения 18.12.2021) Функция СУММЕСЛИМН [Электронный ресурс]. Режим доступа: https://support.microsoft.com/ru-ru/office/функция-суммеслимн-c9e748f5-7ea7-455d-9406-611cebce642b (дата обращения 18.12.2021)

Tsarev Yu.V.

Kandidat of Technical Sciences, Associate Professor of the Department of Information Systems and Technologies (Russia, Yaroslavl)

Kachaylo V.S.

Bachelor's student of the Department of Information Systems and Technologies (Russia, Yaroslavl)

Kokorina A.Yu.

Bachelor's student of the Department of Information Systems and Technologies (Russia, Yaroslavl)

FEATURES OF PREPARATION OF DATA OBTAINED BY TRAINING IN THE SOFTWARE MS TEAMS FOR FOLLOWING ANALYSIS

Abstract: this article discusses the issues of preparing data that are obtained during training students in the MS Teams environment. The received data was subjected to preliminary processing, cleaning, merging of tables, addition (deletion) of attributes. The generated tables were further supposed to be analyzed using classification, cluster analysis for the search for non-trivial knowledge.

Keywords: MS Teams, educational activities, digital footprint, data preparation, data cleansing.

i Надоели баннеры? Вы всегда можете отключить рекламу.