УДК 004
Упаева П.В.
Уфимский университет науки и технологий (г. Уфа, Россия)
ОПТИМИЗАЦИЯ ETL-ПРОЦЕССОВ: ОБЗОР ОТЕЧЕСТВЕННОГО РЫНКА
Аннотация: российские разработчики в целях достижения импортозамещения предлагают ряд решений для развития промышленности и удовлетворения потребностей общества. В данной статье исследуются отечественные разработки для автоматизации ETL-процесса: Аlmaz ETL, Modus ETL, OneBridge и VectorETL. Для каждого инструмента приведены источники данных, с которыми работает система, а также рассмотрены функциональные возможности и недостатки.
Ключевые слова: ETL-инструменты, источник данных, данные, информационная система.
С каждым годом количество разнородных данных увеличивается, что затрудняет работу аналитикам в предприятиях, использующих данные для принятия важных решений. Помимо этого, существует множество различных источников для хранения информации, что усложняет сбор данных и их последующую обработку. Для того, чтобы организации могли эффективно анализировать данные из разных информационных систем, применяют процесс ETL (Extract, Transform, Load), позволяющий извлекать данные из этих источников, преобразовывать их и загружать в единое хранилище данных [2].
Для автоматизации ETL-процессов на рынке представлено множество инструментов, но в условиях импортозамещения все больше приобретает актуальность использования и создания отечественных программных продуктов. Данная статья направлена на рассмотрение таких отечественных ETL-инструментов, как Аlmaz ETL, Modus ETL, OneBridge и VectorETL.
Almaz ETL.
Almaz ETL - система, которая работает по расписанию и обеспечивает извлечение данных из разнородных источников для последующей трансформации и загрузки в хранилище [3].
Программа производит импорт данных из различных источников:
- базы данных: Arangodb, ClickHouse, MS SQL Server, MySQL, PostgreSQL и PostgreSQL PRO, MariaDB, Oracle, Red Data, Firebird, Hive, Impala, Vertica, Redis,
- файлы в форматах csv, xls, xlsx, json, xml, txt, parquet, dbf, json, mpp,
orc,
- Rest-подобные сервисы.
Особенности:
- Наличие панели фильтрации по различным параметрам помогает пользователю быстрее находить нужную информацию о процессах, а цветовой статус загрузчика позволяет наглядно оценить его состояние,
- Возможность просматривать содержимое файла перед его загрузкой,
- Интуитивно понятный интерфейс,
- Реализация запуска по расписанию с периодичностью в день или N минут, а также есть возможность просмотра истории запусков,
- В системе используются функции преобразования, которые доступны в Spark SQL,
- Получение уведомлений по e-mail о результатах работы системы,
- Наличие справочника по функциям, которые чаще используются при преобразовании данных.
Недостатки:
- Нет реализации извлечения неструктурированной информации,
- Отсутствие у источника Redis фильтра по таблице, возможности преобразования и переименования поля.
Modus ETL.
Modus ETL - система, разработанная на платформе 1С, управляет процессами ETL и Data Quality Management, а также передает подготовленные данные в любые OLAP или BI-системы [4].
Modus ETL осуществляет сбор данных из следующих источников:
- базы данных: MS SQL Server, ClickHouse, Oracle, PostgreSQL, Vertica,
- приложения 1С:Предприятие 8,
- файлы в форматах csv, xls, xlsx, json,
- веб-сервисы.
Особенности:
- Для комфортного использования системы однотипные источники сгруппированы вместе в одном наборе,
- В зависимости от потребностей возможен выбор базового или продвинутого функционала. При продвинутом варианте обеспечивается повышение производительности и масштабируемости,
- Встроенный в Modus ETL мастер интеграции позволяет работать в системе пользователям, не имеющих опыта и знаний в программировании,
- Наличие определенных прав доступа к системе в зависимости от роли пользователя,
- Для клиентов разработки предоставлена подробная техническая документация по ее использованию, а также для ознакомления есть возможность просмотра видеозаписи,
- Разработчики Modus ETL регулярно выпускают обновления, что способствует постоянному совершенствованию системы,
- Автоматизация рутинных действий с помощью шаблонов,
- Рассылка оповещения о выполнении задачи на электронную почту,
- Визуальное и удобное проектирование с помощью интерфейса WorkFlow.
- Система направлена на low-code подход,
- Возможен автоматический запуск процессов с помощью расписания, которое можно настраивать в различном виде: по часам, дням, неделям и месяцам. Для наглядного отслеживания запланированных к запуску пакетов имеется визуальное представление,
- Для оптимизации процессов реализован механизм очередей, в котором можно настраивать собственные требования. Также для сокращения времени трансформации данных осуществлена параллельная обработка.
Недостатки:
- Существование ограничений для некоторых модулей платформы, что следует учитывать при использовании,
- Система не поддерживает извлечение неструктурированных данных.
- Необходимо отдельно устанавливать систему лицензирования и защиты конфигураций,
- Для обновления системы может потребоваться длительное время,
- Для успешной загрузки файлов в форматах сsv и xlsx необходимо выполнить ряд требований.
OneBridge - система, извлекающая информацию и обрабатывающая ее по заданному пользователем алгоритму, а также загружающая в хранилище для последующего анализа.
Данная платформа считывает информацию из источников:
- базы данных: Microsoft SQL Server, MySQL, Oracle, PostgreSQL, SQLite,
- файлы в форматах csv и txt,
- ZIP и TAR архивы простых файлов [5].
Особенности:
- Графическое представление алгоритмов обработки данных упрощает его понимание для пользователей,
- Возможность контролирования использования ресурсов сервера с помощью автоматического сбора статистики и его визуализации,
- Обработка данных происходит по алгоритму, который настраивается пользователем,
- Оптимизация производительности за счет распределения нагрузок между рабочими процессами,
- Отслеживание запусков с помощью истории, оснащенной фильтрацией по различным критериям.
Недостатки:
- Система не импортирует неструктурированные данные,
- Не реализован автоматический запуск,
- По сравнению с другими инструментами, данная система пока поддерживает интеграцию с ограниченным количеством источников информации.
VectorETL.
VectorETL - система, функционирование которой реализовано на СУБД PostgreSQL. Данная программа позволяет эффективно управлять наполнением хранилищ данных, где источниками информации являются:
- базы данных: MS SQL Server, MySQL, PostgreSQL, MariaDB, Oracle, RedData, Firebird,
- структурированные файлы, получаемые через ftp-подключения в форматах csv, dbf, mpp, xls/ods, xml, txt, json,
- системы, обменивающие данными посредством API [1].
Особенности:
- Загрузка данных из источника «ЕМИСС»,
- Возможность проверки данных перед их загрузкой,
- Использование функций преобразования, доступные в Spark SQL,
- Возможность настраивать расписание ETL-процессов в таких периодах, как каждую неделю, день, час или минуту, а также просматривать статус и историю запусков,
- Наличие системы авторизации,
- Доступна фильтрация существующих процессов в системе по различным параметрам,
- Наложение ограничений на данные при загрузке. Недостатки:
- Нет реализации извлечения неструктурированной информации,
- Наличие ограничений при загрузке файлов в формате mpp.
Таким образом, несмотря на схожесть некоторых решений, каждый инструмент имеет свои преимущества и недостатки, поэтому при выборе ETL-инструмента нужно исходить от конкретных бизнес-потребностей организации. Очевидно, что российский рынок по разработке ETL-инструментов все еще находится в активной стадии развития, однако можно сказать, что в ближайшем будущем он составит достойную конкуренцию зарубежным аналогам.
СПИСОК ЛИТЕРАТУРЫ:
1. Автоматизированная система сбора, преобразования и хранения данных VectorETL / [Электронный ресурс] // АТ Консалтинг: [сайт]. — URL: https://www.at-consulting.ru/for_clients/products/vector_ETL/ (дата обращения: 20.06.2024);
2. Тавторкин, Н.О. ETL-процессы в работе с данными / Н.О. Тавторкин, Н.М. Куляшова // Будущее науки - 2024: сборник научных статей 11-й Международной молодежной научной конференции, Курск, 18-19 апреля 2024 года. - Курск: ЗАО «Университетская книга», 2024. - С. 175-178. - EDN TASEXJ;
3. Almaz ETL - сбор, консолидация и нормализация данных из разных источников / [Электронный ресурс] // Инлексис: [сайт]. — URL: https://inleksys.ru/etl/ (дата обращения: 20.06.2024);
4. Modus ETL / [Электронный ресурс] // Modus: [сайт]. — URL: https://modusbi.ru/products/etl/ (дата обращения: 21.06.2024);
5. OneBridge - комплексное решение для управления данными / [Электронный ресурс] // OneBridge: [сайт]. — URL: https://modernsolution.ru/onebridge/ (дата обращения: 20.06.2024)
Upaeva P.V.
Ufa University of Science and Technology (Ufa, Russia)
OPTIMIZATION OF ETL PROCESSES: AN REVIEW OF THE DOMESTIC MARKET
Abstract: in order to achieve import substitution, Russian developers offer a number of solutions for the development of industry and meeting the needs of society. This article examines domestic developments for automation of the ETL process: Almaz ETL, Modus ETL, OneBridge and VectorETL. For each tool, the data sources that the system works with are presented, as well as the functionality and disadvantages are considered.
Keywords: ETL, tools, data source, data, information system.