Научная статья на тему 'Разработка хранилища данных для подсчета рейтинга вузов'

Разработка хранилища данных для подсчета рейтинга вузов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
287
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНИЛИЩЕ ДАННЫХ / DATA WAREHOUSE / РЕЙТИНГ / RATING / ETL / SQL SERVER / ПРЕДСТАВЛЕНИЯ / VIEWS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пак Виталий Станиславович

В данной статье описана архитектура хранилища данных для подсчета рейтинга высших образовательных учреждений Республики Узбекистан. В статье рассмотрены концепция построения хранилищ данных, описаны проблемы, возникающие при сборе и обработке данных. Описан механизм использования шаблонов в формате Excel, позволяющий уменьшить трудоемкость ввода данных. В статье описана двухуровневая структура хранения данных. Описана работа реализованного механизма ETL. Описан механизм расчета показателей рейтинга, основанный на использовании представлений в СУБД Microsoft SQL Server 2012.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка хранилища данных для подсчета рейтинга вузов»

ТЕХНИЧЕСКИЕ НАУКИ

РАЗРАБОТКА ХРАНИЛИЩА ДАННЫХ ДЛЯ ПОДСЧЕТА

РЕЙТИНГА ВУЗОВ Пак В.С. Email: Pak17112@scientifictext.ru

Пак Виталий Станиславович - старший преподаватель, кафедра информационных технологий, Ташкентский университет информационных технологий им. Мухаммада Ал-Хорезми, г. Ташкент, Республика Узбекистан

Аннотация: в данной статье описана архитектура хранилища данных для подсчета рейтинга высших образовательных учреждений Республики Узбекистан. В статье рассмотрены концепция построения хранилищ данных, описаны проблемы, возникающие при сборе и обработке данных. Описан механизм использования шаблонов в формате Excel, позволяющий уменьшить трудоемкость ввода данных. В статье описана двухуровневая структура хранения данных. Описана работа реализованного механизма ETL. Описан механизм расчета показателей рейтинга, основанный на использовании представлений в СУБД Microsoft SQL Server 2012. Ключевые слова: хранилище данных, рейтинг, ETL, SQL Server, представления.

DEVELOPMENT OF A DATA WAREHOUSE FOR CALCULATING THE RATING OF UNIVERSITIES Pak V.S.

Pak Vitaliy Stanislavovich - Associate Lecturer, INFORMATION TECHNOLOGIES DEPARTMENT, TASHKENT UNIVERSITY OF INFORMATION TECHNOLOGIES NAMED AFTER MUKHAMMAD

AL-KHOREZMI, TASHKENT, REPUBLIC OF UZBEKISTAN

Abstract: this article describes the architecture of the data warehouse for calculating the ranking of the Higher Educational Institutions of the Republic of Uzbekistan. The article considers the concept of data warehousing, describes the problems that arise in the process of input and processing of data. A mechanism for using templates in Excel format is described, which makes it possible to reduce the complexity ofprocess of input. The article describes a two-level data storage structure. The ETL mechanism is described. A mechanism for calculating rating scores based on the use of views in the Microsoft SQL Server 2012 database is described.

Keywords: data warehouse, rating, ETL, SQL Server, views.

УДК 004.62

1. Введение.

Ведение рейтинга университета является отражением деятельности высших учебных заведений. В мире на сегодняшний день самым авторитетным считается рейтинг (THE World University Rankings), составляемый британским изданием Times Higher Education. Однако в данный рейтинг не включаются все локальные университеты одной страны. Поэтому в большинстве стран существует собственная система ранжирования университетов. Система рейтинга университетов Узбекистана была разработана согласно приказу кабинета министров Республики Узбекистан № 371 от 29 декабря 2012 года. Данная система должна была базироваться на международным опыте и ранжировать высшие образовательные учреждения по различным критериям их деятельности [1].

Основная задача, которую необходимо было решить, - это создание системы, позволяющей хранить данные и автоматизировать трудоемкий процесс сбора и обработки информации. Основную сложность составлял тот факт, что большинство высших учебных заведений имеют крайне низкий уровень автоматизации деятельности, практически отсутствуют централизованные базы данных, данные в имеющихся базах трудно формализуемые. Также трудности возникали из-за того, что большинство операций в высших учебных заведениях, особенно научная и методическая деятельность, обрабатывается вручную, поскольку процесс требует применения творчества.

2. Автоматизированная система подсчета рейтинга.

Национальным университетом Узбекистана и Ташкентским университетом информационных технологий имени Мухаммада Ал-Хорезми была проведено исследование рейтингов университета, основных показателей и критериев оценки. На основе данного анализа были выработаны 23 критерия, разделенные на 4 категории:

1. Качество учебно-методической работы и преподавания

2. Знания студентов и квалификация выпускников

3. Научный потенциал высшего учебного заведения

4. Внедрение ИКТ и материально-техническое обеспечение учебного процесса

Автоматизированная система подсчета рейтинга была создана на платформе

Microsoft .NET 4.0 с использованием технологии ASP.NET. В качестве хранения была выбрана СУБД Microsoft SQL Server 2012. Использование данных технологий было продиктовано необходимостью стабильной работы приложения и простотой

использования посредством сети интернет.

___...

Сервер портала

Рис 1.1. Схема работы автоматизированной системы подсчета рейтинга

На рисунке 1.1 представлена схема сбора и обработки данных для рейтинга.

1. Каждое высшее образовательное учреждение проходит регистрацию на портале.

2. Затем переходят к показателям и скачивают заранее подготовленный шаблон excel.

3. Шаблон заполняется реальными данными.

4. Затем загружается на портал, где производится верификация данных и загрузка шаблона в таблицу базы данных.

5. Затем сотрудники, ответственные за подсчет рейтинга, проверяют правильность заполненных данных (рис. 1.2).

6. Из введенных данных рассчитываются количественные показатели (количество научных и методических публикаций на численность преподавателей, численность зарубежных студентов к общему количеству студентов).

Рис 1.2. Проверка введенных данных

Поскольку база данных имеет прирост более 10 тысяч записей от каждого вуза по некоторым критериям, расчет показателей может занимать очень длительное время. Поэтому было принято решение сделать двухуровневую систему хранения данных: первая включает реляционную систему для хранения загруженных данных, а вторая -хранилище данных на архитектуре звезда.

Рис 1.3. Система хранения данных

Основными составляющими структуры хранилищ данных архитектуры звезда являются таблица фактов (fact table) и таблицы измерений (dimension tables) [2]. Хранилище данных имеет таблицу фактов, содержащую рассчитываемые численные показатели каждого университета, и таблицы измерений: высшие образовательные учреждения, года расчета рейтинга, регионы.

В таблице фактов прирост записей равен количеству ранжируемых высших образовательных учреждений в год. Для процедуры загрузки данных в хранилище используется процесс ETL. ETL (Extract, Transform and Load) - это процесс в хранилищах данных, отвечающий за выгрузку данных из источников и загрузку а хранилище [3]. Для реализации ETL были разработаны хранимые процедуры на языке T-SQL в СУБД Microsoft SQL Server 2012. Сотрудники, ответственные за контроль рейтинга вызывают процедуру расчета численных показателей для каждого заполненного данными шаблона. Всего 32 шаблона в формате Microsoft excel.

Процесс ETL обычно является периодическим и цельным, т.е. одновременно формируется извлечение всех данных за определенный период. Однако данный случай не подходил для нашего проекта, т.к. процесс верификации загруженных данных занимает некоторое время, и данные с вузов загружаются не одновременно. Таким образом с помощью хранимых процедур процесс ETL был поделен на части. По мере заполнения и проверки отдельные части переносились в хранилище.

3. Расчет рейтинга

Расчет рейтинга производится по 100бальной системе. При этом 35 баллов дается за качество учебно-методической работы и преподавания, 20 - за знания студентов и квалификацию выпускников, 30 - за научный потенциал высшего учебного заведения и оставшиеся 15 - за внедрение ИКТ и материально-техническое обеспечение учебного процесса. При этом если по какому-то из показателей вуз набирает максимальное значение среди других, то ему присуждается высший балл. Остальные получают пропорционально в соотношении:

Показатель ВУЗа Критерий, = Вес х —---———

балл Максимальный показатель среди всех ВУЗов

Поскольку процесс заполнения хранилища идет по частям, то показатель рейтинга нужно пересчитывать и обновлять после каждой загрузки данных. Для решения данной проблемы система расчета показателей рейтинга была реализована с помощью представлений в СУБД Microsoft SQL Server 2012. Причем существовали представления нижнего уровня, производящими расчет рейтинга для каждого из показателей, так и представления верхнего уровня, производящими расчет рейтинга категорий и представление, рассчитывающего обобщенный рейтинг. Поскольку представления в реляционных СУБД имеют механизм кэширования, то скорость отклика системы очень высокая и не зависит от размера хранилища данных.

Данное решение также позволяет в будущем изменять формулы расчета критериев и показателей рейтинга, изменяя лишь правила формирования представлений в СУБД, без необходимости производить изменения кода во всем приложении. Заключение.

Разработанное хранилища данных для системы расчета рейтинга было успешно установлено в Государственном центре тестирования Республики Узбекистан. Хранилище позволяет использовать систему удаленно и осуществлять сбор данных онлайн. За счет использования Excel шаблонов уменьшена трудоемкость наполнения данных со стороны ответственных исполнителей высших учебных заведений. Использование хранилища данных позволяет использовать систему на протяжении значительного периода времени без снижения производительности работы системы, а использование хранимых процедур и представлений позволяет обеспечить гибкость в дальнейшем использовании и внесении изменений в систему.

Список литературы /References

1. «О разработке системе оценки рейтинга университетов высших образовательных учреждений» // Приказ кабинета министров Республики Узбекистан №371 от 29 декабря 2012 года.

2. Inmon W. Building the Data Warehouse. New York: John Willey & Sons. 1992.

3. Kimball Ralph, Caserta Joe. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. New York: John Willey & Sons. 2004.

КОНЦЕПЦИЯ ВНЕДРЕНИЯ ЭЛЕКТРОННЫХ СДЕЛОК НА ОСНОВЕ ТЕХНОЛОГИИ БЛОКЧЕЙН Пак В.С. Email: Pak17112@scientifictext.ru

Пак Виталий Станиславович - старший преподаватель, кафедра информационных технологий, Ташкентский университет информационных технологий им. Мухаммада Ал-Хорезми, г. Ташкент, Республика Узбекистан

i Надоели баннеры? Вы всегда можете отключить рекламу.