Использование KPI, технологий OLAP и data-mining при обработке данных

Вахитов Александр Робертович

СПИСОК ЛИТЕРАТУРЫ

1. Berg Insight: Strategic Analysis of the European Mobile LBS Market (Report in LBS Research Series) [Электронный ресурс]. - Режим доступа: http://www.berginsight.com/ShowReport.aspx?m_m =3&id=44. - 20.04.2009.

2. O’Reilly T What Is Web 2.0 [Электронный ресурс]. - Режим доступа: http://www.oreillynet.eom/pub/a/oreilly/tim/news/2005/ 09/30/what-is-web-20.html. - 20.04.2009.

3. Wind R., Jensen C., Pedersen K., Torp K. A Testbed for the Exploration of Novel Concepts in Mobile Service Delivery // Proc. of Mobile Data Management Int. Conf. - Mannheim, Germany, 2007. -P. 218-220.

4. Kupper A. Location-Based Services: Fundamentals and Operation.

- Chichester: John Wiley & Sons Ltd, 2005. - P. 365.

5. Simmons R. et al. Learning to Predict Driver Route and Destination Intent. // Proc. of IEEE Intelligent Transportation Systems Conf. -Toronto, 17-20 Sept., 2006. - P. 127-132.

6. Froehlich J., Krumm J. Route Prediction from Trip Observations. //Society ofAutomotive Engineers World Congress. Paper 2008-010201. - Detroit, 22 April, 2008. - P. 103-117.

7. Froehlich J., Krumm J. The Microsoft Multiperson Location Survey. MSR-TR-2005-103 [Электронный ресурс]. - Режим доступа: ftp:// ltp.research.microsolit.com/pub/tr/TR-2005-103.doc. - 20.04.2009.

8. Brilingaite A., Jensen C. Enabling Routes of Road Network Constrained Movements as Mobile Service Context // Geoinformatica.

- 2007. - V. 11. - № 1. - P. 55-102.

9. Brilingaite A., Jensen C. Online Route Prediction for Automotive Applications // Proc. of the 13th World Congress and Exhibition on Intelligent Transport Systems and Services. - London, October, 2006. - P. 168-175.

10. Welcome to OpenStreetMap [Электронный ресурс]. - Режим доступа: http://wiki.openstreetmap.org/wiki/Main_Page. - 20.04.2009.

Поступила 21.04.2009 г.

УДК 004.89

ИСПОЛЬЗОВАНИЕ KPI, ТЕХНОЛОГИЙ OLAP И DATA-MINING ПРИ ОБРАБОТКЕ ДАННЫХ

А.Р. Вахитов

Томский политехнический университет E-mail: [email protected]

Рассматривается способ обработки данных, основанный на совместном использовании аналитической обработки в реальном времени, а также ключевых индикаторов производительности и технологии извлечения данных. Обсуждаются принципы реализации способа, области применения, базовые термины, а также преимущества по сравнению с классическими способами решения подобных задач. Особое внимание уделяется практическому применению данного подхода в предметной области, связанной с НИРС в вузе.

Ключевые слова:

OLAP, обработка данных, data mining, ключевые индикаторы производительности.

В современном мире особую ценность приобретают эффективные способы обработки информации. Базы данных (БД), а также системы управления этими базами (СУБД) стали необходимыми в любой организации. Учебные заведения, банки, страховые, коммерческие и прочие компании собирают и хранят в своих базах гигабайты информации о сотрудниках, предоставляемых услугах, товарах и т. д. Ценность подобных сведений несомненна: они используются в различных целях (управление материально-техническими запасами, решение вопросов, связанных с перераспределением полномочий, отслеживание тенденций развития организации и другое).

Подобные БД называют операционными или транзакционными, поскольку они характеризуются огромным количеством небольших транзакций (операций записи-чтения). Компьютерные системы, осуществляющие учет операций и, собственно, доступ к транзакционным базам, принято называть системами оперативной обработки транзакций Online Transactional Processing (OLTP) или учетными системами [1].

Учетные системы настраиваются и оптимизируются для выполнения максимального количества транзакций за максимально короткое время. Показателем эффективности является количество транзакций, выполняемых за секунду. Обычно операции над отдельными записями очень просты и не связаны друг с другом. Однако совокупности записей можно использовать для получения качественно новой информации, а именно для создания отчетов и анализа деятельности организации.

Набор аналитических функций в учетных системах обычно весьма ограничен. Схемы, используемые в ОЕГР-приложениях, осложняют создание даже простых отчетов, так как данные чаще всего распределены по множеству таблиц, и для их агрегирования необходимо выполнять сложные операции объединения. Как правило, попытки создания комплексных отчетов требуют больших вычислительных мощностей и приводят к потере производительности [1].

Уместно также отметить, что в учетных системах хранятся постоянно изменяющиеся данные.

По мере осуществления операций записи-чтения суммарные значения меняются очень быстро, и два комплексных анализа, проведенных с интервалом в несколько минут, могут дать разные результаты, поэтому, чаще всего, анализ выполнятся по окончании отчетного периода, иначе картина может оказаться искаженной.

Приведенными выше соображениями объясняется переход к объединению и анализу данных учетной системы с помощью технологии Online Analytical Processing (OLAP). Этот метод позволяет аналитикам, менеджерам и руководителям проанализировать накопленные данных за счет быстрого и согласованного доступа к широкому спектру представлений информации.

Методология OLAP - это аналитическая обработка в реальном времени (технология обработки информации, включающая составление и динамическую публикацию отчётов и документов), предназначенная для быстрой обработки сложных многотабличных запросов к БД.

Причины использования OLAP для обработки запросов - это скорость и удобство. Реляционные БД хранят сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта структура удобна для операционных БД (систем OLTP), но сложные многотабличные запросы, обрабатывающие множество строк, в ней выполняются относительно медленно. Кроме того, в этой структуре данные сложно анализировать. OLAP-технология значительно упрощает анализ за счет использова-

ния многомерных кубов представления данных. Просматривая сводные таблицы, пользователь видит сначала итоговые значения показателей, и, при необходимости, может их легко детализировать. Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей. При этом анализ производится одинаково быстро по всем аспектам информации независимо от размера и сложности структуры БД.

В качестве объекта исследования была использована БД, содержащая информацию о НИРС, имеющая следующую схему данных в СУБД Microsoft SQL Server 2008, рис. 1.

На основе этой БД была построена OLAP-структура, содержащая рабочие данные и представляющая из себя OLAP-куб, рис. 2.

Куб создаётся из соединения таблиц с применением схемы звезды. В центре звезды находится таблица фактов, которая содержит ключевые факты, по которым делаются запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти таблицы показывают, как могут анализироваться агрегированные реляционные данные.

Заявленное время обработки запросов в OLAP составляет около 0,1 % от аналогичных запросов в реляционную БД [2]. В качестве примера был создано 2 одинаковых отчета, содержащих информацию о НИР определенного студента и преподавателя: в первом случае источником данных являлась реляционная БД, во втором - OLAP-модель. В

Рис. 1. Схема данных о НИРС в СУБД Microsoft SQL Server 2008

Рис. 2. OLAP-куб, содержащий информацию о НИРС

обоих случаях число записей в основной таблице равнялось 5000, аппаратная платформа была идентична. Время создания отчета на основе реляционной БД оказалось равным 15,1 с, а в случае, когда источником данных была О^Р-модель, - 1,33 с.

Действительно, время обработки запроса (создания отчета) на основе ОЬАР-модели оказалось в 11 раз меньше. Несомненным преимуществом

ОЬАР-технологии является то, что конечный пользователь имеет возможность динамически изменять структуру запроса к базе данных. Например, на рис. 3 показан интерфейс системы, в правой части которого пользователь сам определяет строки и столбцы, которые ему необходимы, а соответствующие этой структуре данные динамически отображаются в левой части интерфейса.

Рис. 3. Интерфейс для отображения OLAP-куба

'>№*1 j|ts NIRS - Microsoft Visu...

Рис. 4. Создание KPI, отражающего общее число НИРС активностей

А если учесть тот факт, что процесс преобразования реляционной схемы данных в OLAP достаточно прост и не занимает много времени, то преимущества OLAP становятся очевидными. Таким образом, проведенные исследования свидетельствуют о целесообразности преобразования реляционных моделей и использования OLAP-моделей при обработке данных.

OLAP-технология использовалась при работе с трендами и ключевыми индикаторами производительности - key performance indicator (KPI). KPI представляет собой ключевой индикатор производительности - систему оценки, которая помогает организации определить достижение стратегических целей. Их использование дает организации возможность оценить свое состояние и помочь в формировании стратегии развития. KPI позволяет производить контроль деловой активности в реальном времени. В исследуемой системе были выделены следующие KPI: общее число активностей по НИР определенного студента, число активностей по отдельным видам НИРС, число преподавателей, являющихся руководителями НИРС, число студентов, имеющих результаты НИР и др. Далее, на рис. 4 показан пример создания KPI, в котором задается мера для оценки общего числа НИРС активностей, выражение для рас-

чета целевого значения, а также вид индикатора, который будет сигнализировать конечному пользователю о достижении стратегических целей, либо о том, что те или иные показатели деловой активности организации нуждаются в улучшении.

Тренд представляет собой выраженную направленность изменения показателей любого временного ряда. Графики могут быть описаны различными уравнениями - линейными, логарифмическими, степенными и т. д. Фактический тип графика устанавливается на основе графического изображения данных временного ряда, путем осреднения показателей динамики ряда, на основе статистической проверки гипотезы о постоянстве параметров графика. В дальнейшем эти данные используются для осуществления предсказательного анализа данных или data mining.

Data mining - выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Английский термин «data mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации), поэтому в большинстве случаев используется в оригинале. В рамках данного исследования технология data mining

Data Mining Wizard

Specify the Training Data

Specify the columns used in your analysis.

Mining model s hue iure:

F ¡1 Tâbles/Coiumns Keÿ 17 input J7 Fredic...

В ф NIRS_Results

Г Finish_ciate r r r

17 I3_of_a;vard r 17 r

9 -)J] ID_of_event r 17 r

17 0. ID_of_NIR£ r Г 17 !

|7 £l] ID_of_report 17 r r

17 iff] ID_of_stiident 17 r r

!7 ■g\ ID_of_;\'oiker 17 r r

17 Quanüty_of_pages r 17 r

F ->f] Start_date r 17 r

17 4^ Sum_of_money r 17 r

Recommend inputs fo'- currently se'ected predictable:

Suggest

< Badi Next > 1 FiniSll Cancel

Рис. 5. Использование data mining для определения вероятностных значений атрибутов

позволяет доопределить недостающие данные в базе. Далее, на рис. 5 показан пример применения подобного анализа.

В таблице фактов ОЬАР-куба задается отсутствующий для некоторых записей атрибут, который необходимо определить: в данном случае это область науки, склонность заниматься которой есть у студента. Кроме того, задаются входные данные для расчета отсутствующего значения: сведения об участии других студентов в конференциях,

научных конкурсах; успеваемость по определенным дисциплинам и т. д. В итоге получим сводную таблицу, в которой записям, у которых отсутствует атрибут «область НИРС», с определенной долей вероятности присваиваются значения соответствующего атрибута, имеющего сходные с искомым объектом входные параметры. Таким образом, с помощью однократной тренировки системы имеется возможность получить множество недостающих в БД сведений.

СПИСОК ЛИТЕРАТУРЫ

1. Brachman R., Sefridge P. Knowledge representation support for da-

ta archeology // Intelligent and Cooperative Information Systems. -1993. - № 2. - P. 159-186.

Совместное использование учетных систем и технологии OLAP [Электронный ресурс]. - 2006. - режим доступа: http://www.cit-forum.ru/database/articles/olap_oltp.shtml. - 17.04.2009.

Поступила 17.04.2009 г.

Использование KPI, технологий OLAP и data-mining при обработке данных Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вахитов Александр Робертович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вахитов Александр Робертович

Текст научной работы на тему «Использование KPI, технологий OLAP и data-mining при обработке данных»