Научная статья на тему 'ETL: АКТУАЛЬНОСТЬ И ПРИМЕНЕНИЕ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ ETL ИНСТРУМЕНТОВ'

ETL: АКТУАЛЬНОСТЬ И ПРИМЕНЕНИЕ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ ETL ИНСТРУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
516
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНИЛИЩЕ ДАННЫХ / ETL ПРОЦЕСС / ETL ИНСТРУМЕНТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Баева В.Р., Дроздов А.Ю.

В данной статье описывается актуальность и применение ETL, а также, преимущества и недостатки ETL инструментов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ETL: АКТУАЛЬНОСТЬ И ПРИМЕНЕНИЕ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ ETL ИНСТРУМЕНТОВ»

УДК 004.62

Баева В.Р.

студент кафедры информационных систем в строительстве Донской государственный технический университет (Россия, г. Ростов-на-Дону)

Дроздов А.Ю.

кандидат физико-математических наук, доцент кафедры информационных систем в строительстве Донской государственный технический университет (Россия, г. Ростов-на-Дону)

ETL: АКТУАЛЬНОСТЬ И ПРИМЕНЕНИЕ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ ЕТЬ ИНСТРУМЕНТОВ

Аннотация: в данной статье описывается актуальность и применение ЕТЬ, а также, преимущества и недостатки ЕТЬ инструментов.

Ключевые слова: хранилище данных, ЕТЬ процесс, ЕТЬ инструмент.

Многим знакомо выражение: «Кто владеет информацией, тот владеет миром» (Н. Ротшильд).

Около 80% сегодняшних данных было создано только за последние два года [1]. Благодаря технологическому развитию данные стали важной темой и ключевым фактором успеха бизнеса. Однако, многие компании осознали, что просто владеть информацией недостаточно. Огромное количество необработанной информации само по себе не имеет большой ценности, пока не будет хорошо структурировано, проанализировано и интерпретировано. Нужно владеть именно качественной информацией.

Чтобы извлечь выгоду из всех данных, были изобретены хранилища данных [2] и ETL [3]. Но что же такое хранилище данных и ETL?

С годами появилось много разных понятий этих двух терминов. Наиболее распространенное определение хранилища данных на рынке: система, которая извлекает, трансформирует и доставляет исходные данные в целевое хранилище, чтобы их можно было использовать для запросов и анализа. Основная задача - предоставить надежные и точные данные, которые можно использовать для принятия важных бизнес-решений. Чтобы достичь этого, данные из одной или нескольких систем должны быть извлечены и скопированы в хранилище данных, что выполняется инструментами ETL.

ETL определяется как процесс, который извлекает данные из различных исходных систем, затем преобразует данные (например, применяет фильтрацию, вычисления, объединения и т. д.) И, наконец, загружает данные в систему хранилища данных.

ETL - является аббревиатурой для Extract, Transform и Load [4]. Опишем более подробно:

• 1 этап - Extract (извлечение).

Этап извлечения охватывает извлечение данных из нескольких исходных систем и подготовку данных для следующих шагов. Основная цель этого шага состоит в том, чтобы получить все необходимые данные из исходных систем с минимально возможными ресурсами.

• 2 этап - Transform (преобразование).

После извлечения, данные, являются необработанными и не могут использоваться в исходном виде. На этом этапе применяет набор правил для преобразования данных из источника (генерируются новые рассчитанные значения, производится дедубликация данных и т.д.)

• 3 этап - загрузка

На этапе загрузки необходимо убедиться, что загрузка выполняется правильно и с минимально возможными ресурсами.

Destination

(Target Storage) _

Extract, Transform, Load

Рис. 1. ETL процесс

Для осуществления ETL-процесса допустимо использовать почти любой современный язык программирования. Однако, если требуется не разовая конвертация, а постоянная интеграция, то целесообразно рассмотреть специализированное ПО - ETL инструменты. Рассмотрим преимущества и недостатки ETL инструментов. К преимуществам относятся:

• Простота использования благодаря автоматизированным процессам.

БТЬ инструменты гораздо проще и быстрее использовать, чем традиционные методы, которые перемещают данные путем написания кода вручную.

• Визуальный поток.

Графический интерфейс позволяет использовать функцию перетаскивания для визуализации данных процесса.

• Операционная устойчивость.

Многие хранилища данных являются хрупкими во время работы. Инструменты ETL имеют встроенную функцию обработки ошибок, которая помогает инженерам данных разрабатывать гибкий и хорошо оснащенный процесс ETL.

• Расширенная бизнес-аналитика

Доступ к данным легче и лучше с инструментами ETL, поскольку он упрощает процесс извлечения, преобразования и загрузки.

Однако инструменты ETL не всегда могут идти в ногу с высокой скоростью изменений, которая доминирует в индустрии больших данных. Поэтому, существую и недостатки:

• Качество данных

Общие проблемы качества данных включают пропущенные значения, неверные значения кода, список значений, даты и проблемы ссылочной целостности. Нет смысла загружать хранилище данных низкокачественными данными.

• Сложность исходных данных

Некоторые источники данных являются более сложными, чем другие. Примеры сложных источников могут включать несколько типов записей, битовые поля и упакованные десятичные поля, поля, которые нужно распарсить.

• Зависимости в данных

Зависимости в данных будут определять порядок загрузки таблиц. Зависимости также имеют тенденцию уменьшать параллельные операции загрузки, особенно если данные объединяются из разных систем. Сложные зависимости также могут усложнять загрузку процессов, создавать узкие места и усложнять поддержку.

Конечно, соблазнительно думать, что ETL процесс это просто извлечение данных из нескольких источников и их дальнейшая загрузка в хранилища данных. Но, это далеко от истины. Процесс ETL требует активного участия различных заинтересованных сторон, включая разработчиков, аналитиков, тестировщиков, руководителей, и является очень важным и технически сложным.

Список литературы

1. Журкин, И.Г. Информационные системы / И.Г. Журкин, С.В. Шайтура. - М.: Кудиц-Пресс, 2014. - 272 с.

2. Проектирование баз данных: Распределенные базы и хранилища данных. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/ (Дата обращения: 22.05.2019).

3. Википедия [Электронный ресурс] URL : https : //ru .wikipedia. org/wiki/ETL/ (Дата обращения: 22.05.2019).

4. Основные функции ETL-систем // Хабрахабр [Электронный ресурс] URL: https://habrahabr.ru/post/248231/ (Дата обращения: 23.05.2019).

i Надоели баннеры? Вы всегда можете отключить рекламу.