Построение информационно-аналитической системы для управления деятельностью университета

Ильин А.А.; Арзамасцев А.А.; Головкин М.С.; Ермаков А.С.; Юрьева Е.В.

— обеспечение свободы выбора педагога на каждом из этапов проектирования системы методов обучения.

Система предоставляет следующие возможности:

— хранение и обновление множества методов.

— реализацию двух основных процедур: фильтрацию методов по приоритетной формирующей цели и последовательную сортировку по заданному ключу.

— обеспечение полностью автоматического отбора или автоматизированного с коррекцией педагога по его желанию.

Поступила в редакцию 4 октября 2006 г.

ПОСТРОЕНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ДЛЯ УПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТЬЮ УНИВЕРСИТЕТА

1Компания S&TInternational (Москва, Россия),E-mail: Alexey.Ilyin@sntru.com 2Тамбовский государственный университет им. Г.Р. Державина (Тамбов, Россия)

E-mail: arz_sci@mail.ru 3Московский государственный университет им. М.В. Ломоносова (Москва, Россия)

4Московский государственный институт электронной техники (технический университет) (Зеленоград, Россия)

1. Понятие информационно-аналитической системы и её применение для управления деятельностью университета

Информационно-аналитические системы не являются «коробочными» программными продуктами. Эти системы представляют собой набор методик решения определенных задач и набор инструментов, облегчающих решение данных задач в рамках используемой методологии.

Понятие информационно-аналитической системы определяется различными специалистами по-разному. Приведем одно из существующих определений, принадлежащее одному из основоположников концепции информационно-аналитических систем Ральфу Кимбаллу: «Информационно-аналитическая система - программный комплекс, предназначенный для извлечения, очистки, проверки и загрузки данных из источников в базу данных с многомерной структурой, а также предоставляющий средства извлечения и анализа содержащейся в базе данных информации с целью помощи в принятии решений» [1].

Для высших учебных заведений характерно то, что большая часть информации о студентах содержится в многочисленных анкетах, которые они заполняют на протяжении всего обучения, начиная с подачи заявления о допуске к вступительным экзаменам. Разрозненность информации анкет не позволяет эффективно осуществлять всесторонний анализ студентов и определять наилучшие пути развития их способностей. Информационно-аналитические системы могут позволить решить данную проблему благодаря тому, что при их создании производится консолидация информации в хранилище. Это позволяет повысить доступность информации о студентах для руководителей университета и уменьшить время обработки информации, что будет способствовать быстрому и обоснованному принятию решений.

Одним из примеров применения информационно-аналитической системы является анализ «что если...» (what if analysis). В рамках этого анализа руководитель может строить некоторые

предположения, например, предположение, что количество студентов в следующем учебном году уменьшится или увеличится на 15 %. Затем исследуется влияние данного события (изменения числа студентов) на другие показатели учебного заведения, исходя из чего руководитель сможет выбрать стратегию управления в зависимости от сложившейся ситуации.

2. Задачи, ставящиеся при построении информационно-аналитической системы

При построении информационно-аналитической системы пользователям предоставляется возможность простого и эффективного доступа к анализируемой информации. Для этого используют инструменты Business Intelligence. Продукты данного класса предоставляют возможность проведения OLAP-анализа (вращение данными, проведение детализации, сортировка и т.д.), а также позволяют просматривать информацию в удобном для восприятия виде (графики, сводные таблицы, отчеты), помогающем принимать обоснованные решения.

Для обеспечения возможности использования средств Business Intelligence разработчикам информационно-аналитической системы приходится решить ряд задач, такие как: проектирование хранилища данных, используя многомерную модель данных; разработка процедур загрузки данных; обеспечение приемлемого качества данных.

Рассмотрим данные задачи более подробно на примере решения задачи построения части информационно-аналитической системы, предназначенной для анализа данных, полученных при проведении анкетирования студентов.

2.1. Проектирование хранилища данных

Необходимая аналитику информация может содержаться в разных источниках: реляционных базах данных, текстовых файлах, документах html и т.д. Перед использованием данные необходимо привести к общему формату, убрать дублирование, объединив информацию в консолидированное хранилище данных. Даже если работа университета управляется единой информационной системой, хранящей свою информацию в реляционной базе данных (такие базы называются оперативными), в большинстве случаев подобные системы не годятся для предоставления аналитической информации, т.к. оперативные системы и хранилища данных работают по разным принципам. Оперативные системы содержат текущую информацию, например, текущий номер комнаты в общежитии, где живут студенты. Хранилище данных содержит историческую информацию, т.е. в приведенном примере все комнаты общежития, в которых проживал студент во время своего обучения. Состояние оперативной системы все время изменяется, в ней происходит большое количество небольших транзакций, например, заносится информация о том, что студент переехал в новую комнату. Информация в хранилище остается неизменной и лишь пополняется новыми данными по определенному расписанию. Оперативные системы лежат в основе работы университета, в то время как хранилища данных помогают ответить на вопрос: «Как функционирует университет?» и используются при разработке стратегий, направленных на повышение эффективности управления университетом.

Так как перед оперативными системами и хранилищами данных ставятся разные задачи, архитектура их также различается.

Выделяют два уровня архитектуры хранилища данных: логический и физический. При построении логического уровня архитектуры хранилища данных выделяют сущности предметной области, для анализа которой предназначается информационно-аналитическая система, а также связи между выделенными сущностями. В работе [2] предложен следующий набор сущностей, которые могут быть использованы для анализа и управления деятельностью университета:

• кафедры,

• студенты,

• сотрудники,

• полученные гранты,

• публикации,

• контакты,

• оценки и зачеты,

• отчетные данные кафедр,

• читаемые курсы.

Определив анализируемые сущности, необходимо установить связи между ними. Для этого обычно используют многомерное моделирование [3].

При многомерном моделировании информация разбивается на два класса: факты и измерения. Факты - это числовые характеристики, обозначающие некоторое событие. Например, на рис. 1 в центре схемы изображен факт («оценка»), который определяет оценку, полученную студентом на экзамене.

Факты всегда окружены текстовым контекстом - измерениями, а каждое измерение состоит из множества атрибутов (например, для сущности «Студент» - «фамилия», «имя», «группа», «кафедра» и так далее). На рис. 1 изображены три измерения, в которых задается информация о студенте, названии предмета и семестра, в котором сдавался экзамен («студент», «семестр», «предмет»).

Рис. 1. Многомерная модель данных

Как было отмечено выше, для высших учебных заведений характерно то, что большая часть информации о студентах содержится в многочисленных анкетах, которые они заполняют на протяжении всего обучения. На рис. 2 представлена логическая модель данных, построенная для анализа информации, полученной при анкетировании студентов Тамбовского государственного университета им. Г.Р. Державина в 2004 году [4]. Особенностью информации анкет является относительно небольшое количество фактов и очень большое количество атрибутов измерений, благодаря чему логическая модель данных для информации одной лишь анкеты получилась достаточно объемной.

Атрибуты измерений были объединены в группы, в соответствии с группировкой вопросов в анкете:

• общая информация о студенте и семейное положение;

• успеваемость;

• профессиональный потенциал;

• общественная деятельность;

• досуг;

• здоровье.

Модель, представленная на рис. 2, является высокоуровневой и требует детализации. Часть детализированной логической модели представлена на рис. 3. При детализации были добавлены все атрибуты каждой сущности. Например, для сущности «Студент» добавлены атрибуты «Имя», «Год рождения», «Год поступления», «Курс на момент анкетирования». Кроме того, детально описываются факты (средние оценки, возраст студента и количество детей), а также для каждой сущности добавляются числовые идентификаторы (ГО) - первичные ключи. Первичный ключ служит для однозначной идентификации сущности. Например, для сущности «Студент» первичным ключом может являться номер студенческого билета.

После детализации логической модели данных был разработан физический уровень модели. Физическая модель данных описывает структуры хранения в базе данных. В частности, описываются имена таблиц и атрибутов, типы данных и способ хранения связей между атрибутами. Часть физической модели данных представлена на рис. 4. На основании созданной физической модели данных был сгенерирован sql-скрипт, с помощью которого было автоматически создано хранилище данных.

Рис. 2. Логическая модель данных для анализа информации анкетирования студентов

О

Вестник ТГУ, т.11, вып.5, 2006

Рис. 3. Детализированная логическая модель данных

Рис. 4. Физическая модель данных

2.2. Разработка процедур загрузки данных

Исходными данными для хранилища выступил текстовый файл, содержащий матрицу ответов на вопросы анкеты. Каждая строка матрицы содержит информацию по определенному студенту. В анкетировании приняли участие 1351 студент, поэтому матрица содержит 1351 строку. При проведении анкетирования студентов просили выбрать один или несколько вариантов ответов на каждый из вопросов анкеты. Анкета состояла из 54 вопросов, которые суммарно предоставляли 206 вариантов ответов. Таким образом, матрица ответов состояла из 206 колонок. Из 54 вопросов анкеты в 12 вопросах студентов просили указать их средний балл по различным группам предметов. Таким образом, из 206 колонок 12 содержали оценки студен-

тов, остальные 194 содержали единицы и нули в зависимости от того, выбрал ли студент данный вариант ответа на вопрос или нет.

Для наполнения хранилища информацией используется программное обеспечение класса ETL (Extract Transfer Load). Программное обеспечение этого класса предназначено для извлечения, приведения к общему формату, преобразованию и загрузки данных в хранилище. Существуют два подхода к написанию ETL-процедур: 1) их можно написать вручную; 2) можно воспользоваться специализированными средствами ETL.

Каждый из подходов имеет ряд преимуществ и недостатков, и выбор того или иного метода написания процедур ETL определяется требованиями к подсистеме загрузки данных в каждом конкретном случае. Подробно достоинства и недостатки каждого из подходов к написанию процедур ETL описаны в работе [5]. Выделим наиболее важные достоинства каждого из способов написания ETL-процедур.

Написание вручную представляет возможность использования широко распространенных парадигм программирования, например, объектно-ориентированного программирования; возможность использования многих существующих методик и программных средств, позволяющих автоматизировать процесс тестирования разрабатываемых процедур загрузки данных; доступность человеческих ресурсов; возможность построения наиболее гибкого решения.

Использование инструментов ETL:

- упрощает процесс разработки, и, главное, процесс поддержания и модификации процедур ETL;

- ускоряет процесс разработки системы, возможность использования готовых наработок, поставляемых вместе со средствами ETL;

- дает возможность использования встроенных систем управления метаданными, позволяющих синхронизовать метаданные между СУБД и средством ETL.

Для реализации процедур ETL для анализа информации анкет было выбрано средство ETL Sunopsis Data Conductor. Данное средство позволяет генерировать код на основе логики преобразований, описанной разработчиком процедур ETL.

Для перекодировки данных их исходной матрицы в структуру хранилища данных нами была создана промежуточная реляционная таблица. Проиллюстрируем алгоритм создания промежуточной таблицы перекодировки на примере одного из вопросов анкеты.

1. 1.2. На каком курсе Вы учитесь: 1 2 3 4 5

Этот вопрос имеет 5 вариантов ответов, соответственно, в матрице ответ на этот вопрос занимает 5 колонок и имеет один из 5 вариантов значений (10000, 01000, 00100, 00010, 00001). Для перекодировки данной информации требуется 5 записей в промежуточной таблице:

О о о о 1. 1

о о о о 2. 2

1. 00100 3. 3

1. 00010 4. 4

1. 00001 5. 5

После создания промежуточной таблицы перекодировки, необходимо было описать в процедурах БТЬ, каким сущностям соответствуют колонки матрицы, на основании чего БТЬ-средство генерировало весь необходимый код на языке 8^1. Выполнив сгенерированные команды sq1, было получено хранилище данных, наполненное информацией из анкет.

2.3. Обеспечение приемлемого качества данных

При создании любой информационно-аналитической системы основным фактором риска, определяющим успешность проекта, является проблема качества данных [6].

Понятие качества данных, также как и информационно-аналитической системы, является неоднозначным. Многие исследователи [1, 6] определяют качественную информацию, как обладающую определенным набором свойств. Наиболее полный список свойств, характеризующих качественную информацию, для хранилищ данных приводится в работе [1].

Корректность: то есть все значения, содержащиеся в хранилище данных, являются достоверными и безошибочными.

Недвусмысленность: то есть любая запрошенная информация должна иметь единственное значение, так чтобы она не могла быть истолкована различными пользователями по-разному.

Согласованность: то есть информация, поступающая в хранилище данных, должна соответствовать единой нотации.

Полнота. Существуют два аспекта полноты.

1. Обеспечение того, чтобы все необходимые величины содержали непустые значения.

2. Обеспечение контроля попадания в хранилище данных всех необходимых записей.

При работе с информацией анкет нами также были встречены примеры некачественных

данных. Основными примерами некачественной информацией было отсутствие какого-либо ответа на вопрос анкеты, либо несколько ответов на вопрос, подразумевающий лишь один ответ. Для борьбы с такими коллизиями данных в процедурах ETL было добавлено правило, в соответствии с которым при отсутствии в таблице перекодировки необходимой записи устанавливалось, что на данный вопрос студент дал «неопределенный ответ».

В заключение отметим, что мы рассмотрели понятие информационно-аналитической системы, а также рассмотрели задачи, решение которых определяет успех проекта по построению информационно-аналитической системы на примере решения задачи анализа данных, полученных при проведении анкетирования студентов. В результате описанных в данной статье шагов была получена часть информационно-аналитической системы, позволяющая проводить всесторонний анализ социального портрета студента университета. Тем самым была показана применимость информационно-аналитических систем для управления деятельностью университета.

ЛИТЕРАТУРА

1. Kimball R., Caserta J. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Confirming and Delivering Data. Wiley, 2004. 525 p.

2. Арзамасцев А.А., Слетков Д.В., Зенкова Н.А., Зусман Ю.А., Ильин А.А., Дудаков В.П., Лазу-

тин С.Б., Шкута Н.О., Королев А.Н., Банников С.С., Шкатова Л.С., Шохина Т.Б., Алферова О.С., Кукушкина О.В. Разработка информационной системы управления учебным процессом и научной деятельностью в Институте математики, физики и информатики ТГУ им. Г.Р. Державина // Вестн. ТГУ. Сер. Естеств. и техн. науки. Тамбов, 2006. Т. 11. Вып. 2. С. 177-180.

3. Kimball R., Ross M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. 421 p.

4. Арзамасцев А.А., Гостилович Т.А. Социальный портрет студента регионального университета (на примере Тамбовского государственного университета им. Г.Р. Державина). Москва, 2005. 65 с.

5. Nissen G. Is Hand-Coded ETL the Way to Go? // Intelligent Enterprise Magazine. 2003. V. 6. № 9 [HTML] (http://www.iemagazine.com /030531 / 609warehouse1 1.jhtml).

6. Olson J. Data Quality Accuracy Dimension. Morgan Kauffmann Publishers, 2003. 293 p.

Поступила в редакцию 4 октября 2006 г.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ильин А. А., Арзамасцев А. А., Головкин М. С., Ермаков А. С., Юрьева Е. В.

Текст научной работы на тему «Построение информационно-аналитической системы для управления деятельностью университета»