Научная статья на тему 'ОПТИМИЗАЦИЯ ETL-ПРОЦЕССОВ: ОБЗОР ОТЕЧЕСТВЕННОГО РЫНКА'

ОПТИМИЗАЦИЯ ETL-ПРОЦЕССОВ: ОБЗОР ОТЕЧЕСТВЕННОГО РЫНКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ETL-инструменты / источник данных / данные / информационная система / ETL / tools / data source / data / information system

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Упаева П.В.

Российские разработчики в целях достижения импортозамещения предлагают ряд решений для развития промышленности и удовлетворения потребностей общества. В данной статье исследуются отечественные разработки для автоматизации ETL-процесса: Аlmaz ETL, Modus ETL, OneBridge и VectorETL. Для каждого инструмента приведены источники данных, с которыми работает система, а также рассмотрены функциональные возможности и недостатки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMIZATION OF ETL PROCESSES: AN REVIEWOF THE DOMESTIC MARKET

In order to achieve import substitution, Russian developers offer a number of solutions for the development of industry and meeting the needs of society. This article examines domestic developments for automation of the ETL process: Almaz ETL, Modus ETL, OneBridge and VectorETL. For each tool, the data sources that the system works with are presented, as well as the functionality and disadvantages are considered.

Текст научной работы на тему «ОПТИМИЗАЦИЯ ETL-ПРОЦЕССОВ: ОБЗОР ОТЕЧЕСТВЕННОГО РЫНКА»

УДК 004

Упаева П.В.

Уфимский университет науки и технологий (г. Уфа, Россия)

ОПТИМИЗАЦИЯ ETL-ПРОЦЕССОВ: ОБЗОР ОТЕЧЕСТВЕННОГО РЫНКА

Аннотация: российские разработчики в целях достижения импортозамещения предлагают ряд решений для развития промышленности и удовлетворения потребностей общества. В данной статье исследуются отечественные разработки для автоматизации ETL-процесса: Аlmaz ETL, Modus ETL, OneBridge и VectorETL. Для каждого инструмента приведены источники данных, с которыми работает система, а также рассмотрены функциональные возможности и недостатки.

Ключевые слова: ETL-инструменты, источник данных, данные, информационная система.

С каждым годом количество разнородных данных увеличивается, что затрудняет работу аналитикам в предприятиях, использующих данные для принятия важных решений. Помимо этого, существует множество различных источников для хранения информации, что усложняет сбор данных и их последующую обработку. Для того, чтобы организации могли эффективно анализировать данные из разных информационных систем, применяют процесс ETL (Extract, Transform, Load), позволяющий извлекать данные из этих источников, преобразовывать их и загружать в единое хранилище данных [2].

Для автоматизации ETL-процессов на рынке представлено множество инструментов, но в условиях импортозамещения все больше приобретает актуальность использования и создания отечественных программных продуктов. Данная статья направлена на рассмотрение таких отечественных ETL-инструментов, как Аlmaz ETL, Modus ETL, OneBridge и VectorETL.

Almaz ETL.

Almaz ETL - система, которая работает по расписанию и обеспечивает извлечение данных из разнородных источников для последующей трансформации и загрузки в хранилище [3].

Программа производит импорт данных из различных источников:

- базы данных: Arangodb, ClickHouse, MS SQL Server, MySQL, PostgreSQL и PostgreSQL PRO, MariaDB, Oracle, Red Data, Firebird, Hive, Impala, Vertica, Redis,

- файлы в форматах csv, xls, xlsx, json, xml, txt, parquet, dbf, json, mpp,

orc,

- Rest-подобные сервисы.

Особенности:

- Наличие панели фильтрации по различным параметрам помогает пользователю быстрее находить нужную информацию о процессах, а цветовой статус загрузчика позволяет наглядно оценить его состояние,

- Возможность просматривать содержимое файла перед его загрузкой,

- Интуитивно понятный интерфейс,

- Реализация запуска по расписанию с периодичностью в день или N минут, а также есть возможность просмотра истории запусков,

- В системе используются функции преобразования, которые доступны в Spark SQL,

- Получение уведомлений по e-mail о результатах работы системы,

- Наличие справочника по функциям, которые чаще используются при преобразовании данных.

Недостатки:

- Нет реализации извлечения неструктурированной информации,

- Отсутствие у источника Redis фильтра по таблице, возможности преобразования и переименования поля.

Modus ETL.

Modus ETL - система, разработанная на платформе 1С, управляет процессами ETL и Data Quality Management, а также передает подготовленные данные в любые OLAP или BI-системы [4].

Modus ETL осуществляет сбор данных из следующих источников:

- базы данных: MS SQL Server, ClickHouse, Oracle, PostgreSQL, Vertica,

- приложения 1С:Предприятие 8,

- файлы в форматах csv, xls, xlsx, json,

- веб-сервисы.

Особенности:

- Для комфортного использования системы однотипные источники сгруппированы вместе в одном наборе,

- В зависимости от потребностей возможен выбор базового или продвинутого функционала. При продвинутом варианте обеспечивается повышение производительности и масштабируемости,

- Встроенный в Modus ETL мастер интеграции позволяет работать в системе пользователям, не имеющих опыта и знаний в программировании,

- Наличие определенных прав доступа к системе в зависимости от роли пользователя,

- Для клиентов разработки предоставлена подробная техническая документация по ее использованию, а также для ознакомления есть возможность просмотра видеозаписи,

- Разработчики Modus ETL регулярно выпускают обновления, что способствует постоянному совершенствованию системы,

- Автоматизация рутинных действий с помощью шаблонов,

- Рассылка оповещения о выполнении задачи на электронную почту,

- Визуальное и удобное проектирование с помощью интерфейса WorkFlow.

- Система направлена на low-code подход,

- Возможен автоматический запуск процессов с помощью расписания, которое можно настраивать в различном виде: по часам, дням, неделям и месяцам. Для наглядного отслеживания запланированных к запуску пакетов имеется визуальное представление,

- Для оптимизации процессов реализован механизм очередей, в котором можно настраивать собственные требования. Также для сокращения времени трансформации данных осуществлена параллельная обработка.

Недостатки:

- Существование ограничений для некоторых модулей платформы, что следует учитывать при использовании,

- Система не поддерживает извлечение неструктурированных данных.

- Необходимо отдельно устанавливать систему лицензирования и защиты конфигураций,

- Для обновления системы может потребоваться длительное время,

- Для успешной загрузки файлов в форматах сsv и xlsx необходимо выполнить ряд требований.

OneBridge - система, извлекающая информацию и обрабатывающая ее по заданному пользователем алгоритму, а также загружающая в хранилище для последующего анализа.

Данная платформа считывает информацию из источников:

- базы данных: Microsoft SQL Server, MySQL, Oracle, PostgreSQL, SQLite,

- файлы в форматах csv и txt,

- ZIP и TAR архивы простых файлов [5].

Особенности:

- Графическое представление алгоритмов обработки данных упрощает его понимание для пользователей,

- Возможность контролирования использования ресурсов сервера с помощью автоматического сбора статистики и его визуализации,

- Обработка данных происходит по алгоритму, который настраивается пользователем,

- Оптимизация производительности за счет распределения нагрузок между рабочими процессами,

- Отслеживание запусков с помощью истории, оснащенной фильтрацией по различным критериям.

Недостатки:

- Система не импортирует неструктурированные данные,

- Не реализован автоматический запуск,

- По сравнению с другими инструментами, данная система пока поддерживает интеграцию с ограниченным количеством источников информации.

VectorETL.

VectorETL - система, функционирование которой реализовано на СУБД PostgreSQL. Данная программа позволяет эффективно управлять наполнением хранилищ данных, где источниками информации являются:

- базы данных: MS SQL Server, MySQL, PostgreSQL, MariaDB, Oracle, RedData, Firebird,

- структурированные файлы, получаемые через ftp-подключения в форматах csv, dbf, mpp, xls/ods, xml, txt, json,

- системы, обменивающие данными посредством API [1].

Особенности:

- Загрузка данных из источника «ЕМИСС»,

- Возможность проверки данных перед их загрузкой,

- Использование функций преобразования, доступные в Spark SQL,

- Возможность настраивать расписание ETL-процессов в таких периодах, как каждую неделю, день, час или минуту, а также просматривать статус и историю запусков,

- Наличие системы авторизации,

- Доступна фильтрация существующих процессов в системе по различным параметрам,

- Наложение ограничений на данные при загрузке. Недостатки:

- Нет реализации извлечения неструктурированной информации,

- Наличие ограничений при загрузке файлов в формате mpp.

Таким образом, несмотря на схожесть некоторых решений, каждый инструмент имеет свои преимущества и недостатки, поэтому при выборе ETL-инструмента нужно исходить от конкретных бизнес-потребностей организации. Очевидно, что российский рынок по разработке ETL-инструментов все еще находится в активной стадии развития, однако можно сказать, что в ближайшем будущем он составит достойную конкуренцию зарубежным аналогам.

СПИСОК ЛИТЕРАТУРЫ:

1. Автоматизированная система сбора, преобразования и хранения данных VectorETL / [Электронный ресурс] // АТ Консалтинг: [сайт]. — URL: https://www.at-consulting.ru/for_clients/products/vector_ETL/ (дата обращения: 20.06.2024);

2. Тавторкин, Н.О. ETL-процессы в работе с данными / Н.О. Тавторкин, Н.М. Куляшова // Будущее науки - 2024: сборник научных статей 11-й Международной молодежной научной конференции, Курск, 18-19 апреля 2024 года. - Курск: ЗАО «Университетская книга», 2024. - С. 175-178. - EDN TASEXJ;

3. Almaz ETL - сбор, консолидация и нормализация данных из разных источников / [Электронный ресурс] // Инлексис: [сайт]. — URL: https://inleksys.ru/etl/ (дата обращения: 20.06.2024);

4. Modus ETL / [Электронный ресурс] // Modus: [сайт]. — URL: https://modusbi.ru/products/etl/ (дата обращения: 21.06.2024);

5. OneBridge - комплексное решение для управления данными / [Электронный ресурс] // OneBridge: [сайт]. — URL: https://modernsolution.ru/onebridge/ (дата обращения: 20.06.2024)

Upaeva P.V.

Ufa University of Science and Technology (Ufa, Russia)

OPTIMIZATION OF ETL PROCESSES: AN REVIEW OF THE DOMESTIC MARKET

Abstract: in order to achieve import substitution, Russian developers offer a number of solutions for the development of industry and meeting the needs of society. This article examines domestic developments for automation of the ETL process: Almaz ETL, Modus ETL, OneBridge and VectorETL. For each tool, the data sources that the system works with are presented, as well as the functionality and disadvantages are considered.

Keywords: ETL, tools, data source, data, information system.

i Надоели баннеры? Вы всегда можете отключить рекламу.