Научная статья на тему 'Использование KPI, технологий OLAP и data-mining при обработке данных'

Использование KPI, технологий OLAP и data-mining при обработке данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2996
437
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обработка данных / ключевые индикаторы производительности / olap / data mining

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вахитов Александр Робертович

Рассматривается способ обработки данных, основанный на совместном использовании аналитической обработки в реальном времени, а также ключевых индикаторов производительности и технологии извлечения данных. Обсуждаются принципы реализации способа, области применения, базовые термины, а также преимущества по сравнению с классическими способами решения подобных задач. Особое внимание уделяется практическому применению данного подхода в предметной области, связанной с НИРС в вузе.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonstandard approach to data processing based on joint use of real time analytical processing as well as key indicators of performance and technology of data mining has been examined. The main principles of this approach, application domains, basic terms, as well as main advantages in comparison with classical methods of data processing are discussed. Special attention is given to practical application of this approach in knowledge domain connected with students" scientific research in higher schools.

Текст научной работы на тему «Использование KPI, технологий OLAP и data-mining при обработке данных»

СПИСОК ЛИТЕРАТУРЫ

1. Berg Insight: Strategic Analysis of the European Mobile LBS Market (Report in LBS Research Series) [Электронный ресурс]. - Режим доступа: http://www.berginsight.com/ShowReport.aspx?m_m =3&id=44. - 20.04.2009.

2. O’Reilly T What Is Web 2.0 [Электронный ресурс]. - Режим доступа: http://www.oreillynet.eom/pub/a/oreilly/tim/news/2005/ 09/30/what-is-web-20.html. - 20.04.2009.

3. Wind R., Jensen C., Pedersen K., Torp K. A Testbed for the Exploration of Novel Concepts in Mobile Service Delivery // Proc. of Mobile Data Management Int. Conf. - Mannheim, Germany, 2007. -P. 218-220.

4. Kupper A. Location-Based Services: Fundamentals and Operation.

- Chichester: John Wiley & Sons Ltd, 2005. - P. 365.

5. Simmons R. et al. Learning to Predict Driver Route and Destination Intent. // Proc. of IEEE Intelligent Transportation Systems Conf. -Toronto, 17-20 Sept., 2006. - P. 127-132.

6. Froehlich J., Krumm J. Route Prediction from Trip Observations. //Society ofAutomotive Engineers World Congress. Paper 2008-010201. - Detroit, 22 April, 2008. - P. 103-117.

7. Froehlich J., Krumm J. The Microsoft Multiperson Location Survey. MSR-TR-2005-103 [Электронный ресурс]. - Режим доступа: ftp:// ltp.research.microsolit.com/pub/tr/TR-2005-103.doc. - 20.04.2009.

8. Brilingaite A., Jensen C. Enabling Routes of Road Network Constrained Movements as Mobile Service Context // Geoinformatica.

- 2007. - V. 11. - № 1. - P. 55-102.

9. Brilingaite A., Jensen C. Online Route Prediction for Automotive Applications // Proc. of the 13th World Congress and Exhibition on Intelligent Transport Systems and Services. - London, October, 2006. - P. 168-175.

10. Welcome to OpenStreetMap [Электронный ресурс]. - Режим доступа: http://wiki.openstreetmap.org/wiki/Main_Page. - 20.04.2009.

Поступила 21.04.2009 г.

УДК 004.89

ИСПОЛЬЗОВАНИЕ KPI, ТЕХНОЛОГИЙ OLAP И DATA-MINING ПРИ ОБРАБОТКЕ ДАННЫХ

А.Р. Вахитов

Томский политехнический университет E-mail: [email protected]

Рассматривается способ обработки данных, основанный на совместном использовании аналитической обработки в реальном времени, а также ключевых индикаторов производительности и технологии извлечения данных. Обсуждаются принципы реализации способа, области применения, базовые термины, а также преимущества по сравнению с классическими способами решения подобных задач. Особое внимание уделяется практическому применению данного подхода в предметной области, связанной с НИРС в вузе.

Ключевые слова:

OLAP, обработка данных, data mining, ключевые индикаторы производительности.

В современном мире особую ценность приобретают эффективные способы обработки информации. Базы данных (БД), а также системы управления этими базами (СУБД) стали необходимыми в любой организации. Учебные заведения, банки, страховые, коммерческие и прочие компании собирают и хранят в своих базах гигабайты информации о сотрудниках, предоставляемых услугах, товарах и т. д. Ценность подобных сведений несомненна: они используются в различных целях (управление материально-техническими запасами, решение вопросов, связанных с перераспределением полномочий, отслеживание тенденций развития организации и другое).

Подобные БД называют операционными или транзакционными, поскольку они характеризуются огромным количеством небольших транзакций (операций записи-чтения). Компьютерные системы, осуществляющие учет операций и, собственно, доступ к транзакционным базам, принято называть системами оперативной обработки транзакций Online Transactional Processing (OLTP) или учетными системами [1].

Учетные системы настраиваются и оптимизируются для выполнения максимального количества транзакций за максимально короткое время. Показателем эффективности является количество транзакций, выполняемых за секунду. Обычно операции над отдельными записями очень просты и не связаны друг с другом. Однако совокупности записей можно использовать для получения качественно новой информации, а именно для создания отчетов и анализа деятельности организации.

Набор аналитических функций в учетных системах обычно весьма ограничен. Схемы, используемые в ОЕГР-приложениях, осложняют создание даже простых отчетов, так как данные чаще всего распределены по множеству таблиц, и для их агрегирования необходимо выполнять сложные операции объединения. Как правило, попытки создания комплексных отчетов требуют больших вычислительных мощностей и приводят к потере производительности [1].

Уместно также отметить, что в учетных системах хранятся постоянно изменяющиеся данные.

По мере осуществления операций записи-чтения суммарные значения меняются очень быстро, и два комплексных анализа, проведенных с интервалом в несколько минут, могут дать разные результаты, поэтому, чаще всего, анализ выполнятся по окончании отчетного периода, иначе картина может оказаться искаженной.

Приведенными выше соображениями объясняется переход к объединению и анализу данных учетной системы с помощью технологии Online Analytical Processing (OLAP). Этот метод позволяет аналитикам, менеджерам и руководителям проанализировать накопленные данных за счет быстрого и согласованного доступа к широкому спектру представлений информации.

Методология OLAP - это аналитическая обработка в реальном времени (технология обработки информации, включающая составление и динамическую публикацию отчётов и документов), предназначенная для быстрой обработки сложных многотабличных запросов к БД.

Причины использования OLAP для обработки запросов - это скорость и удобство. Реляционные БД хранят сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта структура удобна для операционных БД (систем OLTP), но сложные многотабличные запросы, обрабатывающие множество строк, в ней выполняются относительно медленно. Кроме того, в этой структуре данные сложно анализировать. OLAP-технология значительно упрощает анализ за счет использова-

ния многомерных кубов представления данных. Просматривая сводные таблицы, пользователь видит сначала итоговые значения показателей, и, при необходимости, может их легко детализировать. Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей. При этом анализ производится одинаково быстро по всем аспектам информации независимо от размера и сложности структуры БД.

В качестве объекта исследования была использована БД, содержащая информацию о НИРС, имеющая следующую схему данных в СУБД Microsoft SQL Server 2008, рис. 1.

На основе этой БД была построена OLAP-структура, содержащая рабочие данные и представляющая из себя OLAP-куб, рис. 2.

Куб создаётся из соединения таблиц с применением схемы звезды. В центре звезды находится таблица фактов, которая содержит ключевые факты, по которым делаются запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти таблицы показывают, как могут анализироваться агрегированные реляционные данные.

Заявленное время обработки запросов в OLAP составляет около 0,1 % от аналогичных запросов в реляционную БД [2]. В качестве примера был создано 2 одинаковых отчета, содержащих информацию о НИР определенного студента и преподавателя: в первом случае источником данных являлась реляционная БД, во втором - OLAP-модель. В

Рис. 1. Схема данных о НИРС в СУБД Microsoft SQL Server 2008

Рис. 2. OLAP-куб, содержащий информацию о НИРС

обоих случаях число записей в основной таблице равнялось 5000, аппаратная платформа была идентична. Время создания отчета на основе реляционной БД оказалось равным 15,1 с, а в случае, когда источником данных была О^Р-модель, - 1,33 с.

Действительно, время обработки запроса (создания отчета) на основе ОЬАР-модели оказалось в 11 раз меньше. Несомненным преимуществом

ОЬАР-технологии является то, что конечный пользователь имеет возможность динамически изменять структуру запроса к базе данных. Например, на рис. 3 показан интерфейс системы, в правой части которого пользователь сам определяет строки и столбцы, которые ему необходимы, а соответствующие этой структуре данные динамически отображаются в левой части интерфейса.

Рис. 3. Интерфейс для отображения OLAP-куба

'>№*1 j|ts NIRS - Microsoft Visu...

Рис. 4. Создание KPI, отражающего общее число НИРС активностей

А если учесть тот факт, что процесс преобразования реляционной схемы данных в OLAP достаточно прост и не занимает много времени, то преимущества OLAP становятся очевидными. Таким образом, проведенные исследования свидетельствуют о целесообразности преобразования реляционных моделей и использования OLAP-моделей при обработке данных.

OLAP-технология использовалась при работе с трендами и ключевыми индикаторами производительности - key performance indicator (KPI). KPI представляет собой ключевой индикатор производительности - систему оценки, которая помогает организации определить достижение стратегических целей. Их использование дает организации возможность оценить свое состояние и помочь в формировании стратегии развития. KPI позволяет производить контроль деловой активности в реальном времени. В исследуемой системе были выделены следующие KPI: общее число активностей по НИР определенного студента, число активностей по отдельным видам НИРС, число преподавателей, являющихся руководителями НИРС, число студентов, имеющих результаты НИР и др. Далее, на рис. 4 показан пример создания KPI, в котором задается мера для оценки общего числа НИРС активностей, выражение для рас-

чета целевого значения, а также вид индикатора, который будет сигнализировать конечному пользователю о достижении стратегических целей, либо о том, что те или иные показатели деловой активности организации нуждаются в улучшении.

Тренд представляет собой выраженную направленность изменения показателей любого временного ряда. Графики могут быть описаны различными уравнениями - линейными, логарифмическими, степенными и т. д. Фактический тип графика устанавливается на основе графического изображения данных временного ряда, путем осреднения показателей динамики ряда, на основе статистической проверки гипотезы о постоянстве параметров графика. В дальнейшем эти данные используются для осуществления предсказательного анализа данных или data mining.

Data mining - выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Английский термин «data mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации), поэтому в большинстве случаев используется в оригинале. В рамках данного исследования технология data mining

Data Mining Wizard

Specify the Training Data

Specify the columns used in your analysis.

Mining model s hue iure:

F ¡1 Tâbles/Coiumns Keÿ 17 input J7 Fredic...

В ф NIRS_Results

Г Finish_ciate r r r

17 I3_of_a;vard r 17 r

9 -)J] ID_of_event r 17 r

17 0. ID_of_NIR£ r Г 17 !

|7 £l] ID_of_report 17 r r

17 iff] ID_of_stiident 17 r r

!7 ■g\ ID_of_;\'oiker 17 r r

17 Quanüty_of_pages r 17 r

F ->f] Start_date r 17 r

17 4^ Sum_of_money r 17 r

Recommend inputs fo'- currently se'ected predictable:

Suggest

< Badi Next > 1 FiniSll Cancel

Рис. 5. Использование data mining для определения вероятностных значений атрибутов

позволяет доопределить недостающие данные в базе. Далее, на рис. 5 показан пример применения подобного анализа.

В таблице фактов ОЬАР-куба задается отсутствующий для некоторых записей атрибут, который необходимо определить: в данном случае это область науки, склонность заниматься которой есть у студента. Кроме того, задаются входные данные для расчета отсутствующего значения: сведения об участии других студентов в конференциях,

научных конкурсах; успеваемость по определенным дисциплинам и т. д. В итоге получим сводную таблицу, в которой записям, у которых отсутствует атрибут «область НИРС», с определенной долей вероятности присваиваются значения соответствующего атрибута, имеющего сходные с искомым объектом входные параметры. Таким образом, с помощью однократной тренировки системы имеется возможность получить множество недостающих в БД сведений.

СПИСОК ЛИТЕРАТУРЫ

1. Brachman R., Sefridge P. Knowledge representation support for da-

ta archeology // Intelligent and Cooperative Information Systems. -1993. - № 2. - P. 159-186.

Совместное использование учетных систем и технологии OLAP [Электронный ресурс]. - 2006. - режим доступа: http://www.cit-forum.ru/database/articles/olap_oltp.shtml. - 17.04.2009.

Поступила 17.04.2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.