Научная статья на тему 'Перспективы использования информационно-аналитических систем для управления в системе образования 1'

Перспективы использования информационно-аналитических систем для управления в системе образования 1 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
183
168
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ильин А. А., Арзамасцев А. А.

Prospects for implementing the information-analytical systems in the system of education. The article investigates the idea of an information-analytical system and the basic tasks, which should be solved for the designing of such class of a system. The author analyzes the prospects for implementing the information-analytical systems for managing an educational establishment.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Перспективы использования информационно-аналитических систем для управления в системе образования 1»

УДК 519.95

ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ ДЛЯ УПРАВЛЕНИЯ В СИСТЕМЕ ОБРАЗОВАНИЯ1

© А. А. Ильин, А.А. Арзамасцев

Ilyin A.A., Arzamaszev A.A. Prospects for implementing the information-analytical systems in the system of education. The article investigates the idea of an information-analytical system and the basic tasks, which should be solved for the designing of such class of a system. The author analyzes the prospects for implementing the information-analytical systems for managing an educational establishment.

1. Понятие информационно-аналитической системы

Информационно-аналитические системы1 не являются «коробочными» программными продуктами. Эти системы представляют собой набор методик решения определенных задач и набор инструментов, облегчающих решение данных задач в рамках используемой методологии. В университетах информационноаналитические системы используются для анализа успеваемости студентов, управления кадрами и финансового анализа.

Понятие информационно-аналитической системы определяется различными специалистами по-разному. Перечислим пять наиболее распространенных неверных трактовок понятия информационно-аналитической системы [1].

Программный продукт. Несмотря на уверения многих поставщиков программного обеспечения, информационно-аналитические системы не являются коробочными продуктами. Эти системы представляют собой набор методик решения ряда задач, таких как анализ информации, манипуляции над данными, очистка информации и многих других. Ни один продукт не способен решить все поставленные задачи.

Язык программирования. Невозможно запрограммировать информационно-аналитическую систему, аналогично тому, как создаются многие программные комплексы. Информационно-аналитические системы состоят из нескольких компонент, для реализации которых может потребоваться использование того или иного инструмента программирования.

Проект. Создание информационно-аналитической системы обычно состоит из нескольких проектов (и фаз проектов). Любая попытка создания информационноаналитической системы в рамках одного проекта обречена на провал. Создание информационно-

аналитической системы - это непрерывный процесс, а не единственный проект. Если этот процесс остановил-

1 Работа выполнена в рамках проекта TEMPUS-TACIS “System Modernisation of University Management” SMOOTH, UM JEP-24217.

ся, то это означает ровно одно - создаваемая система стала никому не нужна.

Модель данных. Модель данных, сама по себе, не является информационно-аналитической системой. Даже самая изящная, созданная лучшими архитекторами модель данных бесполезная, пока она не наполнена содержимым - информацией.

Копия системы-источника данных. Наиболее распространенной ошибкой является мнение, что для создания информационно-аналитической системы достаточно скопировать данные из всех существующих транзакционных систем в общую базу данных. Простое перемещение информации без проведения реструктуризации данных не способно решить многих задач, ставящихся при создании информационно-аналитической системы.

Рассмотрев ошибки при формулировке понятия информационно-аналитической системы, можем теперь дать корректное определение, приводимое одним из основоположников концепции информационноаналитических систем Ральфом Кимбаллом: «Информационно-аналитическая система - программный комплекс, предназначенный для извлечения, очистки, проверки и загрузки данных из источников в базу данных с многомерной структурой, а также предоставляющий средства извлечения и анализа содержащейся в базе данных информации с целью помощи в принятии решений» [1].

2. Задачи, ставящиеся при разработке информационно-аналитической системы

2.1. Предоставление инструмента анализа информации

При построении информационно-аналитической системы необходимо обеспечить возможность простого и эффективного доступа пользователей к анализируемой информации. Для решения этой задачи используют инструменты Business Intelligence. Продукты данного класса предоставляют возможность проведения OLAP-анализа (вращение данными, проведение детализации, сортировка и так далее), а также позволяют просматривать информацию в удобном для вос-

приятия виде (графики, сводные таблицы, отчеты), позволяющем принимать обоснованные решения.

Для обеспечения возможности использования средств Business Intelligence, разработчикам информационно-аналитической системы приходится решить ряд задач, такие как: проектирование хранилища данных, используя многомерную модель данных; разработка процедур загрузки данных; обеспечение приемлемого качества данных.

2.2. Проектирование хранилища данных

Необходимая аналитику информация может содержаться в разных источниках: реляционных базах данных, текстовых файлах, документах html и так далее. Перед использованием данные необходимо привести к общему формату, убрать дублирование, объединив информацию в консолидированное хранилище данных. Даже если работа университета управляется единой информационной системой, хранящей свою информацию в реляционной базе данных (такие базы называются оперативными), в большинстве случаев подобные системы не годятся для предоставления аналитической информации, так как оперативные системы и хранилища данных работают по разным принципам. Оперативные системы содержат текущую информацию, например, текущий номер комнаты в общежитии, где живут студенты. Хранилище данных содержит историческую информацию, то есть в приведенном примере все комнаты общежития, в которых проживал студент во время своего обучения. Состояние оперативной системы все время изменяется, в ней происходит большое количество небольших транзакций, например, заносится информация о том, что студент переехал в новую комнату. Информация в хранилище остается неизменной и лишь пополняется новыми данными по определенному расписанию. Оперативные системы лежат в основе работы университета, в то время как хранилища данных помогают ответить на вопрос: «Как функционирует университет?» и используются при разработке стратегий, направленных на повышение эффективности управления университетом.

Так как перед оперативными системами и хранилищами данных ставятся разные задачи, архитектуры их также различаются.

При построении хранилища обычно используют многомерную модель данных [2]. При таком подходе информация разбивается на два класса: факты и измерения. Факты - это числовые характеристики, обозначающие некоторое событие. Например, на рис. 1 в центре схемы изображен факт («оценка»), который определяет оценку, полученную студентом на экзамене.

Факты всегда окружены текстовым контекстом -измерениями. На рис. 1 изображены три измерения, в которых задается информация о студенте, названии предмета и семестра, в котором сдавался экзамен («студент», «семестр», «предмет»).

2.3. Разработка процедур загрузки данных

Для наполнения хранилища информацией используется программное обеспечение класса ETL (Extract Transfer Load). Программное обеспечение этого класса предназначено для извлечения, приведения к общему формату, преобразованию и загрузки данных в хранилище. Существуют два подхода к написанию ETL-процедур: 1) их можно написать вручную; 2) можно воспользоваться специализированными средствами ETL.

Каждый из подходов имеет ряд преимуществ и недостатков, и выбор того или иного метода написания процедур ETL определяется требованиями к подсистеме загрузки данных в каждом конкретном случае. Подробно достоинства и недостатки каждого из подходов к написанию процедур ETL описаны в работе [3]. Выделим наиболее важные достоинства каждого из способов написания ETL-процедур.

Написание вручную представляет возможность использования широко распространенных парадигм программирования, например, объектно-ориентированного программирования; возможность использования многих существующих методик и программных средств, позволяющих автоматизировать процесс тестирования разрабатываемых процедур загрузки данных; доступность человеческих ресурсов; возможность построения наиболее гибкого решения.

Использование инструментов ETL:

- упрощает процесс разработки, и, главное, процесс поддержания и модификации процедур ETL;

- ускоряет процесс разработки системы, возможность использования готовых наработок, поставляемых вместе со средствами ETL;

- дает возможность использования встроенных систем управления метаданными, позволяющих синхронизовать метаданные между СУБД, средством ETL, а также инструментами Business Intelligence;

- дает возможность автоматической документации написанных процедур;

- многие средства ETL предоставляют средства увеличения производительности подсистемы загрузки данных, которые включают в себя возможность распараллеливания вычислений на различных узлах системы, использование хеширования и многие другие.

Особенно следует обратить внимание на выбор технологии для написания процедур ETL, в случае если одной из систем-источников данных выступает ERP-система. Системы данного класса являются наиболее сложными, так как обладают очень запутанной моделью данных и зачастую содержат десятки тысяч таблиц. Для реализации процедур загрузки данных из ERP-систем в команду разработчиков должен быть включен специалист, хорошо знакомый с данной системой-источником, так как анализ подобного рода систем с нуля занимает слишком длительное время. Кроме того, большинство поставщиков средств ETL предоставляют коннекторы ко многим ERP-системам, позволяющим импортировать метаданные ERP-систем, и работать с ними на более высоком уровне. Наличие коннекторов к ERP-системам предоставляет специализированным средствам ETL большое преимущество над написанием вручную процедур загрузки данных, в случае если в качестве источника данных выступает ERP-система.

Рис. 1. Многомерная модель данных

Среди средств ETL можно также выделить несколько классов.

Средства, поставляемые вместе с системами управления базами данных (СУБД), например, Microsoft Data Transformation Services или Oracle Warehouse Builder. Использование данного класса средств ETL является предпочтительным, если в качестве платформы для хранилища данных и большинства источников данных выступает одна и та же СУБД.

Специализированный инструмент ETL, например, IBM Websphere DataStage и Informatica PowerCenter. В отличие от инструментов ETL, поставляемых с СУБД, специализированные средства ETL позволяют одинаково эффективно работать с СУБД различных поставщиков. Кроме того, поставщики ETL-средств данного класса предлагают наиболее широкий спектр коннекторов к различным приложениям, что делает предпочтительным использование данного класса средств ETL в гетерогенной среде.

Также следует выделить относительно молодой класс инструментов загрузки данных - ELT (Extract Load Transform). Примером средства данного класса является продукт компании Sunopsis. В отличие от средств ETL, в которых информация извлекается из систем-источников данных, преобразуется внутри выделенного сервера ETL, и затем загружается в хранилище данных (рис. 2), при использовании средства ELT информация из систем-источников данных вначале загружается в неизмененном виде в хранилище и лишь затем трансформируется (рис. 3). Данный подход имеет ряд преимуществ: высокая производительность благодаря использованию возможностей СУБД; уменьшение стоимости владения системой, так как в случае использования ELT-системы нет необходимости в выделенном сервере ETL; наличие обученных специалистов, так как необходимо лишь знание платформы хранилища данных.

Источники

информации

Хранилище

данных

Рис. 2. Схема работы средства ETL

Источники

информации

Хранилище

данных

Рис. 3. Схема работы средства ELT

2.4. Обеспечение приемлемого качества данных

Несмотря на опыт и методики, накопленные за более чем 30-летнюю историю, проекты по созданию информационно-аналитических систем остаются очень рискованными. Джек Олсон приводит неутешительную статистику: 37 % проектов прекращаются, не получив каких-либо результатов; 50 % проектов доводятся до логического завершения, но при этом превышаются сроки или бюджет на 20 % и более; 13 % - успешные системы [4].

При этом основным фактором риска, определяющим успешность проекта по созданию информационно-аналитической системы, является проблема качества данных.

Понятие качества данных, также как и информационно-аналитической системы, является неоднозначным. Многие исследователи [1, 4] определяют качественную информацию, как обладающую определенным набором свойств. Наиболее полный список свойств, характеризующих качественную информацию, для хранилищ данных приводится в работе [1].

Корректность: то есть все значения, содержащиеся в хранилище данных, являются достоверными и безошибочными.

Недвусмысленность: то есть любая запрошенная информация должна иметь единственное значение, так чтобы она не могла быть истолкована различными пользователями по-разному.

Согласованность: то есть информация, поступающая в хранилище данных, должна соответствовать единой нотации.

Полнота. Существуют два аспекта полноты.

1. Обеспечение того, чтобы все необходимые величины содержали непустые значения.

2. Обеспечение контроля попадания в хранилище данных всех необходимых записей.

Для решения проблемы качества данных разработчик может воспользоваться существующими на рынке программными средствами, такими как: системы профилирования информации, системы мониторинга данных, средства очистки информации. Тем не менее, использования данных средства в большинстве проектов оказывается недостаточно, и разработчикам приходится реализовывать дополнительную логику контроля качества данных на этапе ЕТЬ.

3. Перспективы использования информационноаналитических систем в образовании

Для высших учебных заведений характерно то, что большая часть информации о студентах содержится в многочисленных анкетах, которые они заполняют на протяжении всего обучения, начиная с подачи заявления о допуске к вступительным экзаменам. Разрозненность информации анкет не позволяет эффективно осуществлять всесторонний анализ студентов и определять наилучшие пути развития их способностей. Информационно-аналитические системы могут позволить решить данную проблему благодаря тому, что при их создании производится консолидация информации в хранилище данных и затем предоставляется доступ ко всей информации хранилища с помощью инструмента Business Intelligence, что может позволить производить комплексный анализ анкет и информации из других источников. Это повысит доступность информации о студентах для руководителей учебного заведения, уменьшит время обработки информации, что будет способствовать быстрому и обоснованному принятию решений.

Одним из примеров применения информационноаналитической системы является анализ «что если...» (what if analysis). В рамках этого анализа руководитель может строить некоторые предположения, например, предположение, что количество студентов в следующем учебном году уменьшится или увеличится на 15 %. Затем исследуется влияние данного события (изменения числа студентов) на другие показатели учебного заведения, исходя из чего руководитель сможет выбрать стратегию управления в зависимости от сложившейся ситуации.

Таким образом, применение информационно-аналитической системы может существенно повысить эффективность управления учебным заведением.

ЛИТЕРАТУРА

1. Kimball R., Caserta J. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Confirming and Delivering Data. Wiley, 2004. 525 p.

2. Kimball R., RossM. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. 421 p.

3. Nissen G. Is Hand-Coded ETL the Way to Go? // Intelligent Enterprise Magazine. 2003. V. 6. № 9 [HTML] (Ошибка! Недопустимый объект гиперссылки.).

4. Olson J. Data Quality Accuracy Dimension. Morgan Kauffmann Publishers, 2003. 293 p.

Поступила в редакцию 10 апреля 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.