Вестник ПСТГУ
Серия IV: Педагогика. Психология.
2021. Вып. 63. С. 28-39
БОГ: 10Л5382МшГУ202163.28-39
Вачкова Светлана Николаевна, д-р пед. наук, директор НИИ урбанистики и глобального образования ГАОУ ВО МГПУ Российская Федерация, 119261, г. Москва, ул. Панферова, д. 14 svachkova@mgpu. ги ОИСГО: 0000-0002-3136-3336
Каган Эдуард Михайлович, научный сотрудник Центра аналитических исследований и моделирования в образовании НИИ урбанистики и глобального образования ГАОУ ВО МГПУ, Российская Федерация, 119261, г. Москва, ул. Панферова, д. 14 [email protected] ОИСГО: 0000-0002-4317-2123
Козин Святослав Владимирович, специалист Центра аналитических исследований и моделирования в образовании НИИ урбанистики и глобального образования ГАОУ ВО МГПУ, Российская Федерация, 119261, г. Москва, ул. Панферова, д. 14 KozinSV@mgpu. ги ОИСГО: 0000-0002-7936-5795
Большие данные для педагогических исследований:
ВОЗМОЖНОСТИ, ПРОБЛЕМЫ, ОГРАНИЧЕНИЯ С. Н. Вачкова, Э. М. Каган, С. В. Козин
Аннотация: Современные образовательные информационные системы собирают и хранят огромное количество данных о треках обучения школьников и студентов в течение учебного года, а также действия педагогического состава. Эти данные позволяют делать анализ цифровых следов пользователей, изучать различные траектории обучения, исследовать учебные материалы и их влияние на образовательную среду, выявлять информационные пробелы в образовании, сопоставлять результаты контроля знаний с условиями для их получения и т. д. Тем не менее сбор и анализ таких данных связаны с большим количеством сложностей: неконсистентные данные, поиск данных в исходных базах, объем трансферных данных, шлюзы данных для внешних потребителей, производительность инфраструктуры, визуализация и интерпретация данных. В статье рассмотрены несколько кейсов применения анализа больших данных в целях педагогических исследований: анализ наполненности дерева дидактических единиц тематического каркаса библиотеки Московской электронной школы (МЭШ) образовательными материалами, аналитика динамики состава
© Вачкова С. Н., Каган Э. М., Козин С. В., 2021.
Вестник ПСТГУ. Серия IV: Педагогика. Психология. 2021. Вып. 63. С. 28—39.
домашних заданий по типам, выявление учителей и учеников, наиболее активных пользователей МЭШ и анализ взаимосвязей этой активности с другими параметрами. Кроме того, описываются проблемы, с которыми столкнулись авторы на этапе трансфера и анализа данных и способы их решения. Основными результатами являются: обобщение опыта работы с большими данными МЭШ, определение возможностей, проблем и ограничений больших данных для реализации педагогических исследований. Возможности — анализ цифровых следов пользователей, изучение траекторий обучения, исследование учебных материалов и их влияния на образовательную среду, выявление информационных пробелов в образовании, сопоставление результатов контроля знаний с условиями для их получения и т. д. Проблемы — поиск данных в исходных недокументированных базах, неконсистентность данных, визуализация данных, большой объем данных, интерпретация данных. Ограничения — шлюзы данных, инфраструктурная производительность, персональные данные.
Ключевые слова: большие данные, анализ данных, Московская электронная школа, МЭШ, цифровой след, визуализация данных, педагогические исследования, образовательные данные, домашние задания, цифровая активность.
Актуальность и цель
В современном мире происходят фундаментальные изменения, влияющие не только на образ жизни людей, экономические, политические и социальные системы, но и на способы познания мира, методологию научных исследований. Эти изменения происходят в условиях изобилия данных. По мнению И. Левина, наука интенсивных данных (Data Intensive Science) сформировалась1.
Интенсивные данные востребованы и в педагогических исследованиях. Информационные образовательные системы (электронные школы, электронные дневники, репозитории учебных материалов и т. п.) содержат большое количество данных: персональные данные, данные о взаимодействии участников образовательного процесса между собой и с образовательным контентом, данные, получаемые в процессе оценивания образовательных результатов, достижений, административные данные и прогнозные данные. Значимость больших данных и исследований их влияния на трансформацию бизнес-процессов и структуры в сфере образования отмечает А. Шлейхер в статье «Формирование культуры обучения для цифрового мира: уроки из Москвы»2.
Применение методов интеллектуального анализа образовательных данных, по мнению К. А. Баранникова и С. М. Лесина, дает возможность специалистам отслеживать учебные события, цифровые следы основных субъектов образовательной деятельности в нелинейной среде, не нарушая сам процесс обучения учащегося или его навигации по образовательному контенту. Данные, полученные в режиме реального времени, позволяют виртуально воссоздать или смоде-
1 См..: Levin I. Cyber-physical Systems as a Cultural Phenomenon // International Journal of Design Sciences and Technology. 2016. № 22 (1). URL: https://www.tau.ac.il/~ilia1/levin_i_cyber-physical_syst.pdf (дата обращения: 16.06.2021).
2 См.: Schleicher А. Building a learning culture for the digital world: lessons from Moscow 23 September 2019. URL: https://oecdedutoday.com/learning-digital-world-technology-education-moscow/ (дата обращения: 01.07.2021).
лировать прогноз действий учащихся, определить, как они конструируют знания и отслеживают свой фактический выбор, а также выявить методы, используемые ими для выражения данного выбора посредством саморегулируемого обучения в конкретном контексте3.
В системе образования г. Москвы реализуется проект «Московская электронная школа» — цифровая система управления школьным образованием города. На июль 2021 г. к МЭШ имели доступ более 6 млн пользователей, учебный контент создавали и использовали более 74 тыс. учителей Москвы и других субъектов Российской Федерации, порядка 2 млн единиц учебных материалов (сценарии уроков, приложения, электронные учебные пособия, тестовые задания и т. д.) находилось в открытом доступе. Данные МЭШ активно включаются в педагогические исследования ГАОУ ВО МГПУ с 2017 г. В их числе исследования:
• причин популярности отдельных сценариев уроков и их качества4;
• сетевого взаимодействия учителей с объектами электронного обучения, хранящимися в МЭШ5;
• качества содержания сценариев уроков МЭШ6;
• цифрового профиля авторов сценариев уроков в МЭШ7;
• тематической целостности сценариев уроков МЭШ8;
• изменение методов анализа образовательных данных при оценке сценариев МЭШ9 и т. д.
Целью данной статьи является обобщение опыта работы с большими данными МЭШ, определение возможностей, проблем и ограничений больших данных для реализации педагогических исследований.
3 См.: Баранников К. А., Лесин С. М. Методология анализа больших данных в образовании. Системно-методологический подход, основанный на анализе образовательных данных, поиска стратегии принятия управленческих и организационно-педагогических исследований // Народное образование. 2020. № 2. С. 82.
4 См.: Вачкова С. Н., Обыденкова В. К., Заславский А. А., Кац С. В. О причинах востребованности сценариев уроков «Московской электронной школы». 2020 // Вестник Московского городского педагогического университета. Сер.: Педагогика и психология. 2020. № 1 (51). С. 8-24.
5 См.: Патаракин Е. Д., Вачкова С. Н. Сетевой анализ коллективных действий над цифровыми образовательными объектами // Вестник Московского городского педагогического университета. Сер.: Педагогика и психология. 2019. № 4 (50). С. 101-112.
6 См.: Vachkova S. N., Patarakin E. D., Petryaeva E. Yu. Content Quality of Lesson Scenarios in Moscow E-School 19 August 2020 // SHS Web of Conferences Theory and Practice of Project Management in Education: Horizons and Risks. 2020. Vol. 79. URL: https://doi.org/10.1051/ shsconf/20207901017 (дата обращения: 20.06.2021).
7 См.: Петряева Е. Ю., Вачкова С. Н. Цифровой профиль автора сценариев уроков МЭШ // Большие данные в образовании. Сборник статей по итогам международной конференции. 2020. С. 79-94.
8 См.: Vachkova S. N., Petryaeva E. Y., Kupriyanov R. B., Suleymanov R. S. School in Digital Age: How Big Data Help to Transform the Curriculum. Information. 2021, 12, 33. URL: https://www. mdpi.com/2078-2489/12/1/33 (дата обращения: 17.06.2021).
9 См.: Вarannikov K. A., Lesin S. M., Vachkova S. N., Suleimanov R. S., Kupriyanov R. B. Application of educational data analysis methods in the evaluation of lesson scenarios in the moscow electronic school // Revista inclusiones. 2020. Т. 7. № S3-3. С. 1-8. URL: https://www.elibrary.ru/ item.asp?id=43143873/ (дата обращения: 21.06.2021).
Описание кейсов педагогических исследований на основе больших данных МЭШ
Представим три кейса исследований, в которых были необходимы получение и обработка больших данных МЭШ. Все исследования реализованы в 2020— 2021 гг. в ГАОУ ВО МГПУ.
Кейс № 1: Исследование популярных тем Тематического каркаса Все учебные материалы в библиотеке МЭШ связаны с Тематическим каркасом, который состоит из тем и дидактических единиц. К Тематическому каркасу авторы привязывают электронные образовательные материалы. В ходе данного исследования была поставлена задача — определить популярные темы и дидактические единицы Тематического каркаса МЭШ и выявить причины «популярности» тем. Техническая задача заключалась в поиске соответствующих данных в МЭШ и визуализации «популярности» тем в виде гистограмм по учебным предметам.
Для работы с полученными данными привлекались эксперты, которые определяли и проверяли гипотезы популярности тем/дидактических единиц на основе полученных данных. В результате удалось выявить, что на количество создаваемых сценариев уроков по темам влияют:
• наличие информации в сети интернет, доступного открытого учебно-методического материала, наглядных материалов;
• дистанционный период обучения;
• возраст и классы обучающихся (для тем, изучаемых в 5-7-м классах, создано больше материалов, чем для тем, изучаемых в 8-м классе и далее);
• внешний контекст для гуманитарных предметов (праздники, политические установки);
• ОГЭ и ЕГЭ;
• объем работы, связанный с разработкой контента (чем больше объем работы по созданию образовательного материала, тем меньше контента по теме);
• количество атомарного контента в библиотеке МЭШ.
Также были выделены проблемы структурирования учебных материалов библиотеки МЭШ.
Общий объем данных для исследования составил ~ 40 Гб.
Кейс № 2: Исследование содержания домашних заданий Это исследование предполагало изучение данных о домашних заданиях, которые получали школьники г. Москвы по 26 учебным предметам. Для аналитической работы экспертов необходимо было разделить домашние задания по типам (что делают школьники дома, с какими источниками работают дома и т. д.) и проанализировать их динамику на протяжении учебного периода. В ходе работы с данными была создана система разметки ключевых слов для категорий домашних заданий и визуализации динамики количества домашних заданий разных типов по дням.
Также в процессе исследования были выявлены ученики с высокой цифровой активностью в библиотеке МЭШ, по каждому из таких учеников были раз-
работаны таблицы данных, которые позволили экспертам сопоставить объем и содержание домашних заданий с образовательными результатами учащихся, с их цифровой активностью.
Общий объем данных для исследования составил ~ 320 Гб.
Кейс № 3: Исследование изменений в деятельности учителей, активно использующих МЭШ
В этом исследовании задача заключалась в анализе влияния цифровой трансформации образования на деятельность учителя. Большие данные МЭШ здесь были одним из источников информации наряду с сайтом школы, открытыми источниками, глубинным интервью. Задачей технической части являлось получение и визуализация для экспертного анализа данных об учителях с высокой цифровой активностью. Изучению был подвергнут цифровой след учителя, включающий авторские сценарии уроков, копирование сценариев уроков других авторов, о проведенных очных, онлайн и электронных уроках, выданных домашних заданиях, об оценках материалов и отметках ученикам. Учителя были соотнесены с учебными предметами также на основе данных. Цифровой след учителя был получен с помощью сервиса iDVP.data. В ходе исследования данные из разных источников сопоставлялись. В результате исследования были обнаружены изменения в содержании деятельности учителей, активно использующих ресурсы МЭШ. Доля работ, связанных с планированием учебного содержания, разработкой и проверкой домашних работ, подготовкой к урокам, работой с журналом, уменьшилась. Доля работ, связанных с поиском и отбором контента, разработкой сценариев уроков и другого авторского контента, увеличилась. Появились новые виды деятельности: консультирование коллег, сбор и анализ цифрового следа, разработка приложений, поиск информации в сети интернет.
Общий объем данных для исследования составил ~ 320 Гб.
Описание процесса получения и обработки данных
Данные МЭШ были получены с помощью специального сервиса (iDVP. data). Сервис основан на технологии Apache Drill и позволяет создавать parquet-файлы, содержащие результат выполнения запроса к базе данных в подготовленном для выгрузки данных виде.
Данные, полученные таким образом, являются срезом данных, представляющим собой массив тематической, узконаправленной информации, т. е. витриной данных (Data Mart). Взаимодействие внешних сервисов с витриной происходит по протоколу HTTP. Витрина позволяет ограничить получаемые данные, накладывая условия фильтрации и сдвига на этапе выгрузки данных.
Следствием большого объема данных и ограниченного доступа к ним стало наличие ряда технических ограничений: лимит на количество данных в витринах, большое количество исходных записей в таблице и связей между ними и архитектурные проблемы исходных данных.
Первым ограничением стал физический лимит на объем данных, представленный в витрине. При попытке создания представления данных для таблиц с
большим количеством записей (~100000000) система iDVP не справлялась с задачей из-за превышения лимита по использованию памяти или времени выполнения самого запроса. Для решения этой проблемы были созданы специальные кэширующие представления и витрины данных, которые по частям сохраняли статичные данные перед их выгрузкой на сервер исследователей.
Состав и структура первичных данных были проанализированы вручную. Исходя из задач исследований эвристическим путем были подобраны данные, которые вошли в список данных для выгрузки. Это 21 таблица:
1) сообщения в чате, которые использовались для подсчета самых активных учеников и учителей МЭШ; чаты, которые использовались для подсчета пользователей, создавших их;
2) сущность классов образования, которые использовались для фильтрации учеников по годам обучения;
3) классы как состав учащихся, которые использовались как привязка к уровню образования;
4) уроки, которые посещали ученики и вели учителя;
5) нагрузка на учителя внутри группы;
6) связка профиля ученика и его группы;
7) учебные группы, позволившие привязать профили учеников к урокам, которые они посещали;
8) экземпляры домашних заданий, выданных ученикам;
9) экземпляры выполнений домашних заданий учениками;
10) экземпляры домашних заданий;
11) комментарии преподавателя по уроку;
12) лайки, которые ученики или учителя ставят учебным материалам;
13) отметки, полученные учениками;
14) типы уроков (удаленные, заочные, очные, электронные и т. д.), которые использовались для разбиения активности на уроках по их типам;
15) просмотры учебных материалов в библиотеке МЭШ;
16) типы материалов, которые использовались для фильтрации нужных материалов;
17) профили пользователей МЭШ, которые позволили определить тип пользователя МЭШ и получить его контактные данные;
18) оценки материалов;
19) школы;
20) учебные предметы;
21) профильные данные пользователей.
Второе ограничение — большое количество исходных записей в таблице. Проблему с объемом исходных данных можно решить с помощью деления исходных данных на сегменты и частичной выгрузкой данных. Для выгрузки данных была построена web-система Data-bridge, которая решает задачи:
• предоставления доступа к данным посредством запросов к витринам данных;
• проведения синхронизации предоставления данных между собственной базой данных и базой данных МЭШ; формирование аналитической информации об информационных артефактах МЭШ.
В рамках полученного технического решения одновременно существуют три различных временных среза данных:
• исходный образ данных или исходная база данных МЭШ, в которой данные фиксируются в режиме реального времени;
• кэширующее представление данных: здесь происходит полная репликация с отставанием по времени;
• логическая реплика данных, в которой данные не обязательно будут репли-цированы в полном объеме и алгоритм загружает лишь минимально необходимый набор данных для работы с ними.
Таким образом, данные, проходя от источника к базе данных web-системы Data-bridge, отфильтровываются и сохраняют свою внутреннюю связность. Это сокращает издержки, связанные с обслуживанием большого количества данных, ускоряет проведение исследования за счет снижения времени синхронизации, обеспечивает корректный результат аналитических построений данных.
Третье ограничение — это проблема нарушенной архитектуры данных. В процессе анализа таблиц были выявлены особенности хранения и передачи данных, не позволяющие использовать стратегию полного единоразового копирования:
• большой объем данных, который технически сложно передать из одной системы в другую одновременно;
• врбменный характер записей в таблице, которые используются для указания на атрибутивные характеристики информационных артефактов МЭШ и имеют единственное назначение быть обнаруженными при запросе;
• отсутствие или ошибочность событийной информации в записях;
• некорректный формат полей таблиц;
• изменения названий полей как следствие постоянного развития системы МЭШ;
• несчитываемые значения данных;
• большие выборки для данных со связью многие-ко-многим. Принимая во внимание описанные выше технические ограничения и проблемные ситуации, авторами были выработаны несколько стратегий синхронизации, которая устроена таким образом, что для каждой из целевых таблиц становится возможным синхронизировать, сохраняя консистентность данных как внутри полученного зеркального представления, так и между данными, находящимися в базе данных самой web-системы Data-bridge, и кэширующим представлением в рамках платформы МЭШ.
Возможности, проблемы и ограничения больших данных для педагогических исследований
Анализ больших образовательных данных позволяет исследователям, с одной стороны, работать с цифровыми профилями конкретного субъекта образовательного процесса, изучать всю совокупность его данных во взаимосвязи друг с другом и в динамике. С другой стороны, большие данные дают возможность визуализировать весь предмет исследования одномоментно: посмотреть реальную картину реализации предметного содержания, увидеть динамику со-
держания действий школьников при выполнении домашних заданий, зафиксировать происходящие изменения и т. д. Немаловажным фактом является возможность использования технологических инструментов и данных для формирования точных выборочных совокупностей для экспертных анализов.
Однако большие данные электронной школы содержат только ту информацию, которая была зафиксирована в цифровой среде. Все, что происходит вне электронной школы, остается за пределами анализа. Большие образовательные данные — одно из зеркал, с помощью которых можно исследовать процессы развития образования.
Большой объем данных позволяет выявить спорадические колебания активности пользователей, которые можно объяснить событиями, произошедшими во внешней среде. К примеру, перевод обучающихся на удаленное обучение. Но в ряде случаев изменения данных не могут быть объяснены без погружения в событийный контекст.
В связи с этим во всех педагогических исследованиях, которые были проведены нами, использовался комплекс методов: экспертный анализ, анкетирование и опрос, глубинные интервью, изучение контекстной информации, размещенной в открытых источниках. Сопоставление разнородных источников позволяет системно изучить предмет исследования.
Основная проблема больших данных — их состав и объем. Большие образовательные данные имеют сложную структуру, которая состоит из нескольких уровней и взаимодействует с разными типами данных одновременно. Поэтому при построении педагогических исследований важно учитывать сложность процесса получения данных и приведения их к форматам, доступным для экспертного анализа, а также обеспечение серверных мощностей, на которых будет проводится сбор, обработка, хранение и предоставление данных.
Кроме того, что сами данные являются связанными, ряд информационных артефактов должен быть скрыт от исследователей в целях соблюдения Федерального закона «О персональных данных» (152-ФЗ), что затрудняет организацию личного взаимодействия с объектами исследования: проведение интервью, анкетирования.
Источником проблем при работе с большими данными становится человеческий фактор. Несмотря на то что исходные данные проходят несколько этапов валидации и интерфейсы электронных систем «ограждают» пользователей от ошибочных действия, некоторые записи в полученных данных содержат некорректные значения, не содержат значений или же содержат значения с ошибками. В первых двух случаях восстановить корректность данных практически невозможно, так как отсутствует референсная временная точка для восстановления и валидации. В последнем случае восстановить значение можно с привлечением экспертов. К примеру, в исследовании домашних заданий восстановление формулировок заданий потребовало дополнительного словаря сокращений для учета всех возможных форм написания эквивалентных значений.
Педагогические исследования, основанные на больших данных, — это кол-лаборация технических специалистов, специалистов по анализу данных, экспертов по специальным областям знаний (психологов, социальных работников,
методистов по учебным предметам) и практикующих учителей. Совместные обсуждения помогают более точно проявить и оцифровать тот или иной процесс. Реализация педагогического исследования включает постановку целей и гипотез исследования, получение и представление данных для работы экспертов, экспертный анализ выборочной совокупности данных, проведение сопутствующих исследований, разработку инструментов визуализации всего массива данных по предмету исследования.
Большие данные обладают свойством изменяемости. Их обновление в системах идет постоянно. Поэтому при проведении педагогических исследований важно фиксировать даты и время получения данных. Ввиду большого объема данных в педагогических исследованиях будет представляться срез по отдельному временному периоду. Построение инструментов визуализации данных в режиме реального времени — продукт экспертно-аналитической работы для реализации задач мониторинга развития системы образования, принятия управленческих решений на основе данных.
Выводы кратко
Возможности — анализ цифровых следов пользователей, изучение траекторий обучения, исследование учебных материалов и их влияния на образовательную среду, выявление информационных пробелов в образовании, сопоставление результатов контроля знаний с условиями для их получения и т. д.
Проблемы — поиск данных в исходных недокументированных базах, некон-систентность данных, визуализация данных, большой объем данных, интерпретация данных.
Ограничения — шлюзы данных, инфраструктурная производительность, персональные данные.
Список литературы
Баранников К. А., Лесин С. М. Методология анализа больших данных в образовании. Системно-методологический подход, основанный на анализе образовательных данных, поиска стратегии принятия управленческих и организационно-педагогических исследований // Народное образование. 2020. № 2. С. 81-89. Вачкова С. Н., Обыденкова В. К., Заславский А. А., Кац С. В. О причинах востребованности сценариев уроков «Московской электронной школы». 2020 // Вестник Московского городского педагогического университета. Сер.: Педагогика и психология. 2020. № 1 (51). С. 8-24.
Патаракин Е. Д., Вачкова С. Н. Сетевой анализ коллективных действий над цифровыми образовательными объектами // Вестник Московского городского педагогического университета. Сер.: Педагогика и психология. 2019. № 4 (50). С. 101-112. Петряева Е. Ю., Вачкова С. Н. Цифровой профиль автора сценариев уроков МЭШ // Большие данные в образовании: сб. статей по итогам международной конференции. 2020. С. 79-94.
Levin I. Cyber-physical Systems as a Cultural Phenomenon // International Journal of Design Sciences and Technology. 2016. № 22 (1). URL: https://www.tau.ac.il/~ilia1/levin_i_cyber-physical_syst.pdf (дата обращения: 16.06.2021).
Schleicher А. Building a learning culture for the digital world: lessons from Moscow 23 September 2019. URL: https://oecdedutoday.com/learning-digital-world-technology-education-moscow/ (дата обращения: 01.07.2021).
Vachkova S. N., Patarakin E. D., Petryaeva E. Yu. Content Quality of Lesson Scenarios in Moscow E-School 19 August 2020 // SHS Web of Conferences Theory and Practice of Project Management in Education: Horizons and Risks. 2020. Vol. 79. URL: https://doi.org/10.1051/ shsconf/20207901017 (дата обращения: 20.06.2021).
Vachkova S. N., Petryaeva E. Y., Kupriyanov R. B., Suleymanov R. S. School in Digital Age: How Big Data Help to Transform the Curriculum. Information. 2021, 12 (1), 33. URL: https:// www.mdpi.com/2078-2489/12/1/33 (дата обращения: 17.06.2021).
Вarannikov K. A., Lesin S. M., Vachkova S. N., Suleimanov R. S., Kupriyanov R. B. Application of educational data analysis methods in the evaluation of lesson scenarios in the moscow electronic school // Revista inclusiones. 2020. Т. 7. № S3-3. С. 1-8. URL: https://www. elibrary.ru/item.asp?id=43143873/ (дата обращения: 21.06.2021).
Vestnik Pravoslavnogo Sviato-Tikhonovskogo gumanitarnogo universiteta. Seriia IV: Pedagogika. Psikhologiia. 2021. Vol. 63. P. 28-39 DOI: 10.15382/sturIV202163.28-39
Svetlana Vachkova, Doctor of Sciences in Education, Director of the Research Institute of Urban Science and Global Education, Moscow City University, 14 Panferova ul., Moscow 119261, Russian Federation svachkova@mgpu. ru ORCID: 0000-0002-3136-3336
Eduard Kagan, Researcher at the Research Institute of Urban Science and Global Education, Moscow City University, 14 Panferova ul., Moscow 119261, Russian Federation KaganEM@mgpu. ru ORCID: 0000-0002-4317-2123
Svyatoslav Kozin, Researcher at the Research Institute of Urban Science and Global Education, Moscow City University, 14 Panferova ul., Moscow 119261, Russian Federation [email protected] ORCID: 0000-0002-7936-5795
Big Data for Educational Studies: Opportunities, Challenges, Limitations
S. Vachkova, E. Kagan, S. Kozin
Abstract: Modern educational information systems collect and store great amounts of data on learning tracks of schoolchildren and students during the academic year, as well as data on the actions of the teaching staff. These data make it possible to analyse digital
footprints of users, study various learning directions, examine study materials and their impact on the educational environment, identify information gaps in education, compare results of academic control with conditions for obtaining knowledge, etc. Nevertheless, the collection and analysis of these data are associated with a large number of difficulties, i.e. inconsistent data, data retrieval in source databases, the volume of transfer data, problems associated with data gateways for external consumers, infrastructure performance, visualisation and interpretation of the data. This article discusses several cases of using big data analysis for educational research. These are analysis of the filling with educational materials of the tree of educational units of the thematic framework of the library of Moscow Electronic School, analysis of dynamics of the structure of homework according to its types, identification of those teachers and students who are the most active users of Moscow Electronic School and analysis of the relationship of this activity with other parameters. The article also describes the problems encountered by the authors at the stage of data transfer and data analysis and the ways of their solution. The main results are the generalisation of experience with big data of Moscow Electronic School, identification of opportunities, problems and limitations of big data for the implementation of educational studies. The opportunities are the analysis of digital footprints of users, the study of learning tracks, the study of textbooks and their influence on the educational environment? the identification of information gaps in education, the comparison of results of academic control with conditions of obtaining knowledge, etc. The problems are data search in original undocumented databases, data inconsistency, data visualisation, large amount of data, data interpretation. The limitations are data gateways, infrastructure performance, personal data.
Keywords: big data, data analysis, Moscow Electronic School, MES, digital footprint, data visualisation, educational studies, educational data, homework, digital activity.
References
Barannikov K., Lesin S. (2020) "Metodologiia analiza bol'shikh dannykh v obrazovanii. Sistemno-metodologicheskii podkhod, osnovannyi na analize obrazovatel'nykh dannykh, poiske strategii priniatiia upravlencheskikh i organizatsionno-pedagogicheskikh issledovanii" [Methodology of big data analysis in education. A systematic and methodological approach based on the analysis of educational data, the search for a strategy for making managerial and organisational-pedagogical research]. Narodnoe obrazovanie, 2020, vol. 2, pp. 81—89 (in Russian).
Barannikov K., Lesin S., Vachkova S., Suleimanov R., Kupriianov R. (2020) "Application of educational data analysis methods in the evaluation of lesson scenarios in Moscow Electronic School". Revista inclusions, 2020, 7, vol. 3/3, pp. 1—8.
Levin I. (2016) "Cyber-physical Systems as a Cultural Phenomenon". International Journal of Design Sciences and Technology, 2016, 22 (1), available at https://www.tau.ac.il/~ilia1/levin_i_ cyber-physical_syst.pdf (16.06.2021).
Patarakin E., Vachkova S. (2019) "Setevoi analiz kollektivnykh deistvii nad tsifrovymi obrazovatel'nymi ob»ektami" [Network analysis of collective actions on digital educational objects]. Vestnik Moskovskogo gorodskogo pedagogicheskogo universiteta. Seriia: Pedagogika i psikhologiia, 2019, vol. 4 (50), pp. 101—112 (in Russian).
Petriaeva E., Vachkova S. (2020) "Tsifrovoi profil' avtora stsenariev urokov MESh" [Digital profile of the author of the MES lesson scenarios], in Bo"shie dannye v obrazovanii. Sbornik stateipo itogam mezhdunarodnoikonferentsii [Big data in education. Conference papers], 2020, pp. 79-94 (in Russian).
Vachkova S., Obydenkova V., Zaslavskii A., Kats S. (2020) "O prichinakh vostrebovannosti stse-nariev urokov «Moskovskoi elektronnoi shkoly»" [On the reasons for the demand for scenarios of lessons of Moscow Electronic School]. Vestnik Moskovskogo gorodskogopedagogicheskogo universiteta. Seriia: Pedagogika ipsikhologiia, 2020, vol. 1 (51), pp. 8—24 (in Russian).
Vachkova S., Patarakin E., Petriaeva E. (2020) "Content Quality of Lesson Scenarios in Moscow E-School". SHS Web of Conferences Theory and Practice of Project Management in Education: Horizons and Risks, 2020, vol. 79.
Vachkova S., Petriaeva E., Kupriianov R., Suleymanov R. (2021) "School in Digital Age: How Big Data Help to Transform the Curriculum". Information, 2021, vol. 12 (1), 33, available at https://www.mdpi.com/2078-2489/12/V33 (17.01.2021).