Научная статья на тему 'Принципы организации взаимодействия регистрирующих систем с хранилищем данных (на примере телекоммуникационной компании)'

Принципы организации взаимодействия регистрирующих систем с хранилищем данных (на примере телекоммуникационной компании) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
152
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мирошников Г. Г., Спандерашвили Д. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Принципы организации взаимодействия регистрирующих систем с хранилищем данных (на примере телекоммуникационной компании)»

#8 август 2006 Ред. совет Специальности Рецензентам Авторам English Koi-8 Win

Найти выделенное

ПРИНЦИПЫ ОРГАНИЗАЦИИ ВЗАИМОДЕЙСТВИЯ РЕГИСТРИРУЮЩИХ СИСТЕМ С ХРАНИЛИЩЕМ ДАННЫХ (НА ПРИМЕРЕ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ) #8 август 2006 | Г.Г.Мирошников, Д.В.Спандерашвили

В течение последних лет бизнес-процессы телекоммуникационных компаниях претерпели значител изменения. Появление новых технологий, дает возмож оператору предоставлять пользователю новые услуги, в неко случаях принципиально отличающиеся от ранее предоставляем

Для решения задач анализа эффективности функционироЕ определения стратегии развития компании, анализа кач предоставляемых и прогноза популярности планируемы предоставлению услуг одно из важнейших мест занимает полу и обработка оперативной и достоверной статистической инфор| о деятельности компании.

В настоящее время на предприятиях, предоставля телекоммуникационные услуги, статистическая инфор собирается в ряд независимых регистрирующих систем, в том и OLTP-системы (On-Line Transaction Processing - операт обработка транзакций). Каждая система, в основном, обеспеч сбор, хранение и ввод данных в реальном режиме вр< информации, связанной непосредственно с объектом монитс [14].

Обычно аналитические возможности OLTP-систем с

для iviwrneniu диимые. (а мере

нескольких сразу) системы самостоятельно занимается комкр служба предприятия. Некоторые показатели могут фиксирован нескольких регистрирующих системах одновременно, что отсутствии четкой синхронизации процесса фиксаци согласованности данных может привести к формированию нев статистики, и как следствие - к принятию ошибочных решений i результатам её анализа. Еще одной причиной неэффектив проведения анализа непосредственно из регистрирующих с является то, что сложные аналитические запросы к операт информации тормозят текущую работу компании, надолго блс таблицы и захватывая ресурсы сервера оперативной регистрац 3].

Для удобства аналитика данные должны быть организова единое хранилище и оптимизированы для анализа. Оптими для анализа предполагает наличие в структуре базы данных ср для представления бизнес процессов предприятия. Треб; организация и оптимизация достигается в системах операт аналитической обработки - OLAP (Online Analytical Process оперативная аналитическая обработка). Большинство соврем< OlAp систем работает с удобно организованные оптимизированным хранилищем данных - DW (Data Wareho хранилище данных) [9, 12, 13, 16, 17].

Отсюда сдедует необходимость перемещения данных из с оперативной регистрации данных в оптимизированное храни данных. Однако различия в структуре данных OLTP систе позволяют сделать это без дополнительных операций по очи< преобразованию структуры данных. Структура данных OLTP с специально предназначена для быстрой обработки бол количества транзакций и данные организованы в виде реляци модели с высокой степенью нормализации. Хранилище да оптимизированное для выполнения анализа данных, име большинстве случаев многомерную структуру - да представляются в виде гиперкуба, каждая ячейка кот представляет собой факт предметной области, а колич измерений определяется количеством характеристик факта.

сис1ем. осииимытн uiumumh Э1о1о переноса яиллю1ил.

преобразование и загрузка (ETL - Extract Transform Load) [11 достижения успеха при переносе данных из одной системы в д крайне важно четко представлять процессы ETL, а также стру исходного приложения и приложения назначения.

В общем приложения ETL извлекают информацию из исх базы данных регистрирующей системы, преобразуют ее в фс поддерживаемый хранилищем данных, а затем загружают е преобразованную информацию. Для того чтобы инициир процесс ETL, применяются программы либо модули извле данных для чтения записей в исходной базе данных и подготовки информации, хранящейся в этих записях, к про преобразования [15]. Причем данные модули могут реализованы как в составе OLTP-системы, так и являться ч OLAP-системы.

Источи н»: л^аны*

(регие |рцрующая онии|

Выгрузка

Обрэбошэ

Загрузка

1 1 J ^ j 1 1

Промежуточная область

rjpUBMJWK

ДОипм (£>W}

Рис. 1 Обобщенная схема ETL процесса

В общем случае объекты, участвующие в процессе БТЬ м представить в виде совокупности трёх областей, представлены Рис. 1:

1. источник данных(совокупность таблиц операт системы и дополнительных справочников, позволяющая сс многомерную модель данных с требуемыми измерениями);

2. промежуточная область, которая представляет совокупность таблиц, использующихся исключительно в кач

Движение данных от источника к приёмнику называют по данных.

Процесс перегрузки данных - это реализация потока данн единственного набора данных источника до наборов д; Хранилища Данных.

Различают следующие классы процессов:

1. По характеру загрузки:

- процесс начальной загрузки (Initial load);

- процесс обновляющей загрузки (Refreshing load).

2. По виду источника данных:

- источник данных - структурированный текстовый файл;

- источник данных - стандартный классификатор операт системы, пользовательский классификатор;

- источник данных - таблица фактов оперативной систем

- источник данных - хранилище данных.

Процесс перегрузки данных может включать следу операции:

1. Извлечение - стадия извлечения данных из источн загрузки их в промежуточную область.

2. Выявление ошибок - данные проходят провер| соответствие спецификации и потенциальную возможность заг в Хранилище Данных

3. Преобразование - данные группируются и приводя виду, конформному модели данных Хранилища данных

загружены в Хранилище данных

5. Вставка - подготовленные данные поступают в храни данных.

Самый первый этап перегрузки данных - выгрузка инфор| из источника данных для программы-обработчика, аналитика и сервер перегрузки данных. Выгрузка может производ следующими способами, в зависимости от характера исто данных, требованиям к организации доступа, информаци безопасности, и т.д.:

- Выгрузка из структурированного источника данных частный случай - выгрузка из СУБД. Такой вид выгрузки не выз затруднений, возможно использование утилит СУБД, воспользоваться JDBC или ODBC

- Выгрузка из неструктурированного источника. возможности необходимо избегать импорта данных неструктурированных источников. Если же приходится пол данные из неструктурированного источника, то необходимо вкл в ETL процесс дополнительную фазу структуризации - подгс структурированного файла с данными человеком или стор программой

Преобразование заключается в отсеивании ненужных дан преобразовании структуры данных исходной системы к стру данных хранилища.

Загрузка заключается в создании новых записей, ли модификации существующих (при повторных загрузках), в сл если предыдущие значения данных не важны для анализа.

Примером организации эффективно функционирую процесса ETL может служить организация взаимодей регистрирующих и аналитических программ реализованн региональном филиале ОАО «ЮТК» «Связьинформ» Астраха области. Модули, участвующие в ETL процессе, показаны на Ри

шн рикимилисииги дии1уии в г 1М1ерие1 [2].

В качестве хранилища данных - темпоральное храни данных телекоммуникационной компании.

Темпоральное хранилище данных - это хранилище дан многомерной структурой, имеющее механизмы отслежи изменений в структуре за счет применения идентифика времени валидности, структурных версий и матриц трансфор| между структурными версиями.

Рис. 2. Архитектура взаимодействия програмно-аппаратных мод

участвующих в ЕЛ процессе

Описание модулей, приведенных на Рис. 2 приведе Таблица 1.

участвующих в ETL про

Аппаратные узлы системы Реализуемые программные модули Описание

Client Computer Клиентские компьютеры которых осуществляет« доступ функционирующим системам

:Internet Browser Интернет браузер. В( функционирующие приложения имеют we интерфейс для доступа своим функциям, поэтом для доступа н необходимости устанавливать какое либ дополнительное программное обеспечени

Local Network Локальная сеть котора является средо взаимодействия модулей

TDW DB Server Сервер базы данны темпорального хранилищ данных.

Temporal-Dimensional DB:PostgreSQL DB База данных реализующа модель данны адаптированную дл функционирования темпорального хранилищ данных

TDW Server Сервер темпорально хранилища данных

Data Warehouse Server:Servlet Программные модул реализующий логи темпорального хранилищ

исмолозооапиет технологии JAV сервлетов.

:Tomcat Servlet Container Контейнер, обеспечивающий функционирование JAV сервлетов

PostgreSQL JDBC Driver:JDBC JDBC драйве обеспечивающий интерфейс к серверу баз данных темпорально хранилища данных

:JDK Библиотека JD обеспечивающая функциональность JAV приложений

OLTP DB Server Сервер базы данны регистрирующей системы

OLTP DB:PostgreSQL DB База данны регистрирующей системы

OLTP Server Сервер регистрирующе системы

OLTP Server:Server Application Программное обеспечени реализующее логи регистрирующей систем1 реализованное использованием технологии PHP скриптоЕ

:Apache WEB Server WEB серве обеспечивающий функционирование серверных скрипт регистрирующей системы

PostgreSQL ODBC Driver:ODBC ODBC драйве обеспечивающий интерфейс к серверу баз данных регистрирующе

обеспечивающее

функционирование сред PHP

В данной схеме взаимодействия участвуют OLTP систе темпоральное хранилище данных.

Темпоральное хранилище состоит из куба данных, элем которого поддерживают идентификаторы времени валид| Каждое изменение в структуре измерений многомерной м порождает создание новой структурной версии. Для срав данных двух структурных версий данные одной приводя структуре второй [4, 5, 6, 7, 8, 10].

Для формирования связей между структурными вер предлагается использовать матрицы трансформации.

~ матрица трансформации измерения в изме при отображении куба данных структурной версии щ в стр> структурной версии я*}. Матрица строится следующим образог вертикали откладываются элементы измерения д.од), горизонтали элементы д^с^она пересечении выставл коэффициенты трансформации - ,;

ся7 - куб в структурной версии щ\ - куб в структурной версии я*}; ~ куб Сц В структурной версии - куб с^ в структурной версии

двумерная матрица, представляющая собой разЕ куба данных такую, что по горизонтали располаг

- двумерная матрица представляющая собой разЕ

куба данных стакую, что по горизонтали располаг элементы п\, а по вертикали все возможные комбинации элем

остальных измерений; тогда, можно определить следу формулу:

Операция перемножения в данной формуле означает об1 перемножение матриц (так при перемножении с^т

получаем ^ [ихц; т - количество комбинаций ч

измерений без /-количество элементов ¿-коли»-

элементов измерения

Возможны следующие варианты:

¡=к - перегруппировка мощности элементов измерения; *>*: - объединение элементов измерения; *<*г- дробление элементов измерения;

- порождение нового измерения с к элементами;

1>\к=г- вырождение одного измерения (в частном слу агрегация).

Для преобразования всего куба необходимо прои поочерёдное перемножение разверток куба по измерения соответствующие матрицы преобразования этих измерений.

Преобразование всего куба данных в с^^ можно ог следующей формулой:

где:

М- количество различных измерений двух структурных ве

то

есть если количество измерений в структурных ве

Щ И я*}, ТО N = Nп^SIУ-NIWy■,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Механизм матриц трансформации возможно применить и процессе при преобразовании данных исходной системы в стру хранилища данных. Алгоритм ЕЛ процесса с использов; матриц трансформации представлен на Рис. 3.

Рис. 3. Алгоритм ЕЛ процесса с использованием матриц

транформации

сис1емы и денс1инн, киюрые ишмилм.

однократно, на этапе определения правил трансформации данн

Описанное в статье ЕЛ-взаимодействие успешно использ и подтвердило верность теоретических исследований практиче результатами. Предложенная методика взаимодействия может применена при взаимодействии регистрирующих и аналитич систем в широком спектре отраслей.

ЛИТЕРАТУРА

1. Ладыженский Г. Технология «клиент-сервер» и мон транзакций // Открытые системы № 3, 1994.

2. Мирошников Г.Г. Концептуальная модель базы д; автоматизированной системы электронного документооборо-организации подключения пользователей к сети Интерне технологиям xDSL // Известия ОГТУ. Информационные систе технологии. Орел, 2006. №1. Т 4. С 131-134.

3. Рузинкевич М., Цикоцки А. Определение и выпол потоков транзакций // СУБД № 2, 1995.

4. Спандерашвили Д.В. Механизмы отслеживания изме в многомерных структурах данных // Инфокоммуникацио технологии в науке и технике: Материалы международной на технической конференции. Ставрополь: СКГТУ, 2006. Ч 1. С. 16<

5. Спандерашвили Д.В. Объектная модель Темпор многомерных данных и ее реализация средствами реляци СУБД // Известия ОГТУ. Информационные системы и техно] Орел, 2006. №1. Т 4. С 210-215.

6. Спандерашвили Д.В. Особенности построения си<

2005. Ч 2. С. 136-141.

ференц

р

7. Спандерашвили Д.В. Темпорально многомерная м для контроля динамики данных региональной компании // Проб стратегии регионального развития: Материалы всеросси научной конференции. Тамбов: ТГУ, 2006. С. 80-84.

8. P. Chamoni and S. Stock . Temporal Structures in Warehouse . Data Warehousing and knowladge discovery, 199 353-358

9. E.F. Codd, S.B. Codd, C.T. Salley . Providing OLAP (O Analytical Processing) to User-Analysts: An IT Mandate . E.F.C Associates, 1993.

10. C.S. Jensen C.E. Dyreson . Glossary of Temporal Dat Concepts . Springer-Verlag A consensus, 1998, pp. 367-405.

11. Ralph Kimball, Joe Caserta . The Data Warehouse Toolkit . Wiley Press, 2004.

12. A. Kurz . Data Warehousing-Enabling Tachnology . Verlag . Bonn, 1999.

13. C. Liu X.Wang . A Data Model for Supporting O Analytical Processing . ACM, CIKM, 1996

14. Masaharu Murozumi. A Challenge To A High Trans Volume Client/Server DB2 Data Shared OLTP System . IBM Corpo 2000.

15. Erhard Rahm, Hong Hai Do. Data Cleaning: Problem Current Approaches. IEEE Data Engineering Bulletin №23(4), 2000.

16. Eric Thomsen . OLAP Solutions: Building Multidimen Information Systems . John Wiley, 1997.

17. P. Vassiliadis, T.Sellis . A Survey of Logical Models for Databases . SIGMOD records, 1999

Публикации с ключевыми словами: OLAP - ETL-процесс - Хранилище да Темпоральное хранилище данных - OLTP

Публикации со словами: OLAP - ETL-процесс - Хранилище данных -Темпоральное хранилище данных - OLTP См. также:

■ Методы улучшения комплекса бизнес-процессов по предоставлению, у анализу услуг широкополосного доступа в Интернет в телекоммуникационных компаниях

■ АЛГОРИТМИЧЕСКИЕ ВОПРОСЫ РЕАЛИЗАЦИИ ТЕМПОРАЛЬНОГО ХРАНИЛИЩА ДАННЫХ

■ OLAP.RU

Написать комментарий >>

Журнал | Портал | Раздел Copyright © 2003 «Инженерное образование» E-mail: magazine@xware.ru | тел.: +7 (495) 263-68-63

Вход для редакторов

i Надоели баннеры? Вы всегда можете отключить рекламу.