Научная статья на тему 'ПРОБЛЕМА ХРАНЕНИЯ ЦИФРОВОГО ПОРТФОЛИО СТУДЕНТА'

ПРОБЛЕМА ХРАНЕНИЯ ЦИФРОВОГО ПОРТФОЛИО СТУДЕНТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
8
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Big Data / модель данных / портфолио студента / Big Data / data model / student portfolio

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Т.В. Брюханова, Ю.Б. Козлова

Рассмотрена актуальность применения средств интеллектуального анализа к портфолио студентов. Поставлена задача оптимизации хранения данных. Описан способ хранения больших данных, рассмотрены основные модели данных. Предложен вариант решения поставленной задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STORAGE PROBLEM OF STUDENT'S DIGITAL PORTFOLIO

The relevance of the application of intellectual analysis tools to the portfolio of students is considered. The task is to optimize data storage. The method of storing big data is described, the main data models are considered. A variant of solving the problem posed is proposed.

Текст научной работы на тему «ПРОБЛЕМА ХРАНЕНИЯ ЦИФРОВОГО ПОРТФОЛИО СТУДЕНТА»

Актуальные проблемы авиации и космонавтики - 2021. Том 2

УДК 004.6

ПРОБЛЕМА ХРАНЕНИЯ ЦИФРОВОГО ПОРТФОЛИО СТУДЕНТА

Т.В. Брюханова Научный руководитель -Ю.Б. Козлова

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail:kamanaelo@mail.ru

Рассмотрена актуальность применения средств интеллектуального анализа к портфолио студентов. Поставлена задача оптимизации хранения данных. Описан способ хранения больших данных, рассмотрены основные модели данных. Предложен вариант решения поставленной задачи

Ключевые слова: Big Data, модель данных, портфолио студента.

STORAGE PROBLEM OF STUDENT'S DIGITAL PORTFOLIO

T. V. Bryukhanova Scientific supervisor -Y. B. Kozlova

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation

E-mail:kamanaelo@mail.ru

The relevance of the application of intellectual analysis tools to the portfolio of students is considered. The task is to optimize data storage. The method of storing big data is described, the main data models are considered. A variant of solving the problem posed is proposed.

Keywords: Big Data, data model, student portfolio.

Ведение портфолио стало неотъемлемой частью обучения любого студента. Как правило, университет предоставляет возможность собирать все необходимые для портфолио документы в электронном виде и предоставляет цифровое пространство для его хранения. Портфолио является полезным и действенным инструментом для выявления способностей и склонностей человека, а также наблюдения за его успехами и достижениями. Как правило, задачами анализа портфолио занимается не студент, а некое заинтересованное лицо: сотрудник университета или представитель работодателя. Но процесс ознакомления с портфолио и выявления некоторых закономерностей отнимает много сил и времени. Следуя тенденциям развития современного мира, логичным шагов является использование средств интеллектуального анализа для обработки данных портфолио. Следовательно, оптимизация хранения и обработки данных портфолио является актуальной задачей.

В университете может обучаться несколько десятков тысяч студентов и каждому из них необходимо вести собственное портфолио. Очевидно, эти данные можно отнести к «большим данным» (Big Data). Big Data - это набор данных, чей суммарный размер можно измерить в петабайтах. Эти данные периодически обновляются, а хранимые файлы могут иметь разные форматы: текстовые документы, изображения и т.д. Из этих данных можно получить некоторые закономерности и при их помощи решить поставленные задачи [1].

Секция «Программные средства и информационные технологии»

Собирать данные портфолио можно разными способами, но в рамках университета они загружаются сами студентами. Полученные данные чаще всего хранятся в так называемом «озере данных» (data lake) - хранилище, где информация находится в «сыром» виде. Озеро может использовать единое хранилище данных, а может использовать модульную концепцию источников хранения информации. Информацию, которая хранится в озере, можно обрабатывать либо сразу внутри озера, либо с предварительным извлечением данных по определённому шаблону.

На первый взгляд кажется, что data lake - это своеобразная база данных, но это совершенно не так. Главное различие между ними - это структура. В базах данных информация структурирована, разделена на части по некоторым признакам. В озере же данные структурируют на выходе, когда необходимо их извлечь или проанализировать. При этом процесс анализа не влияет на сами данные в озере — они так и остаются неструктурированными, чтобы их было также удобно хранить и использовать для других целей [2].

У озера данных есть один недостаток - данные в него поступают бесконтрольно. Это означает, что определить их качество и уровень полезности невозможно. А бесполезная информация не используется, не участвует ни в каких информационных процессах и просто лежит в озере. От избытка таких данных data lake превращается в data swamp - болото данных. Для предотвращения накопления некачественной информации можно использовать несколько методов. Например, можно ещё не входе в озеро проверять данные по каким-либо параметрам и отсекать те, что не им не соответствуют. Или проверять файлы по формату и загружать в озеро, например, только видеофайлы. Также распространённой практикой является ограничение прав доступа на загрузку для некоторых групп пользователей системы.

В случае с заполнением портфолио можно использовать комбинацию из двух последних способов: предоставить доступ к системе, в которой хранится портфолио, только студентам и сотрудникам университета и ограничить размер и/или формат загружаемых файлов.

Но помимо способа хранения информации нужно определиться с моделью данных -совокупностью структуры данных и операций их обработки [3,4]. Выделяют три основных типов моделей данных: иерархическую, сетевую и реляционную. Каждая из них имеет свои особенности.

Иерархическая структура подразумевает, что элементы в ней связаны по строго определённым правилам. Объекты, связанные иерархическими отношениями, образуют ориентированный граф. Преимуществами такой модели данных является простота использования и минимальный расход памяти. К недостаткам можно отнести возможность доступа к данным только через корневой элемент и отсутствие универсальности, ведь не всякую информацию можно структурировать подобным образом.

Отличие сетевой модели от иерархической в том, что элемент одного уровня может быть связан с любым количеством элементов соседнего уровня, и не существует подчиненности уровней друг другу. Преимущества такой структуры в универсальности использования и возможности доступа к данным через несколько отношений. Однако, такой подход сложен в использовании.

Реляционная модель данных представляет данные в виде таблиц с набором полей, столбцов и строк. Таблицы связаны друг с другом при помощи отношений между ними. Преимуществами такой модели являются простота использования и обеспечение независимости данных. К недостаткам можно отнести большой расход памяти.

Учитывая специфику документов, которые используют студенты для наполнения портфолио, логичным действием будет выбор реляционной модели данных, как самой распространённой. Таким образом, для решения поставленной задачи предлагается использовать следующую структуру: большой массив данных хранится в озере, доступ к которому имеют только некоторые группы пользователей. Для обработки хранимой

_Актуальные проблемы авиации и космонавтики - 2021. Тома 2_

информации средствами интеллектуального анализа создаётся запрос по некоторым параметрам. Результатом запроса станет реляционная база данных. Полученную информацию можно обрабатывать как того требует поставленная задача.

Библиографические ссылки

1. Анналин Ын, Кеннет Су Теоретический минимум по Big Data СПб.: 20l9. 20S с.

2. Вирт Н. Алгоритмы и структуры данных. М., 20l7. 52S с.

3. Б. Фрэнкс Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. М.: МИФ, 20l4. 400 с.

4. Методы и модели анализа данных: OLAP и Data Mining / Барсегян А. А.,Куприянов М.С.,Степаненко В В. и т.д. //СПб: БХВ-Петербург, 2004.ЗЗ6с.

О Брюханова Т В, 202l

i Надоели баннеры? Вы всегда можете отключить рекламу.