Научная статья на тему 'Разработка ETL-процессов с помощью talend Open Studio'

Разработка ETL-процессов с помощью talend Open Studio Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
623
90
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
TALEND OPEN STUDIO / TOS / ETL-ПРОЦЕССЫ / CSV-ФАЙЛ / IT / ДАННЫЕ / ХРАНИЛИЩЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рубашенков Антон Михайлович, Бобров Андрей Виорелович

Talend Open Studio (TOS) технология с открытым исходным кодом, применяемая для интеграции данных и разработки ETL-процессов. Интеграция данных включает в себя такие задачи, как: загрузка данных, миграция данных, синхронизация данных. Загрузка данных применяется, когда нужно загрузить на хранилище данные из источника, примером может послужить загрузка данных из CSV-файла в базу данных. TOS позволяет быстро загрузить большие объёмы данных. Миграция данных происходит при переходе на новую версию хранилища или на другую систему хранения. TOS обеспечивает корректный перенос данных без потерь и искажений. Синхронизация данных необходима для поддержания совместимости данных между несколькими хранилищами. ETL-процессы (Extract, Transform, Load) используются для извлечения, преобразования и загрузки данных. Обеспечивают взаимодействие между бизнесом и IT. Используется графическая среда, что облегчает разработку процессов. В крупных компаниях стоит вопрос решения данных двух проблем. Talend предоставляет мощное и универсальное решение.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка ETL-процессов с помощью talend Open Studio»

РАЗРАБОТКА ETL-ПРОЦЕССОВ С ПОМОЩЬЮ TALEND OPEN

STUDIO

1 2 Рубашенков А.М. , Бобров А.В.

1Рубашенков Антон Михайлович - студент;

2Бобров Андрей Виорелович - студент, кафедра защиты информации, Институт комплексной безопасности и специального приборостроения, Российский технологический университет, г. Москва

Аннотация: Talend Open Studio (TOS) - технология с открытым исходным кодом, применяемая для интеграции данных и разработки ETL-процессов. Интеграция данных включает в себя такие задачи, как: загрузка данных, миграция данных, синхронизация данных. Загрузка данных применяется, когда нужно загрузить на хранилище данные из источника, примером может послужить загрузка данных из CSV-файла в базу данных. TOS позволяет быстро загрузить большие объёмы данных. Миграция данных происходит при переходе на новую версию хранилища или на другую систему хранения. TOS обеспечивает корректный перенос данных без потерь и искажений. Синхронизация данных необходима для поддержания совместимости данных между несколькими хранилищами. ETL-процессы (Extract, Transform, Load) -используются для извлечения, преобразования и загрузки данных. Обеспечивают взаимодействие между бизнесом и IT. Используется графическая среда, что облегчает разработку процессов. В крупных компаниях стоит вопрос решения данных двух проблем. Talend предоставляет мощное и универсальное решение. Ключевые слова: Talend Open Studio, TOS, ETL-процессы, CSV-файл, IT, данные, хранилище.

УДК 004.031.2

Перенос и изменение данных из CSV-файла в базу данных Создадим и заполним CSV-файл, как показано на рисунке 1.

Рис. 1. Создание CSV-файла

В качестве базы данных будем использовать postgresql. Создадим базу данных «users», как представлено на рисунке 2.

Рис. 2. Создание базы данных

В TOS создадим новый проект «ETL» и запустим его [1]. Создадим новую работу, выбрав во вкладке «Jobs Designs» «Создать работу» и зададим имя работы «users_ETL» [2].

Настроим соединения к CSV-файлу и к базе данных. Во вкладке «Metadata» выберем «File delimited», «Создать файл с разделителями», указав путь к CSV-файлу. Как представлено на рисунке 3. Во вкладке «Metadata» выберем «Db connections», «Создать соединение», указав данные для подключения к базе данных. Как показано на рисунке 4.

Рис. 3. Настройка подключение к CSV-файлу

Рис. 4. Настройка соединения к базе данных

Перетащим созданное соединение к CSV-файлу в рабочую область и выберем «tFileInputDelimited». Перетащим созданное соединение к базе данных в рабочую область и выберем «tPostgresqlOutput». Соединим данные соединения в рабочей области, с помощью строки «main» [3]. Как показано на рисунке 5.

Рис. 5. Рабочая область users_ETL

Настроим компонент «users», укажем таблицу «user», и в поле «Action on table» выберем «Create table if not exist». Как показано на рисунке 6.

ta Работать users_ETL 0.1) If» Contexts(users_ETL) % users db(tDBOutput 1)(PostgreSQL)

Run (Работа users_ETL)

Basic settings

Advanced settings Dynamic settings View

Документация

Database | "users"

Имя пользователя "Anton"

I* Схема | "public" Пароль

Action on table Create table if not exists v Действие над данными Вставить Edit schema E] [sync columns

J BE

Схема

Built-in

□ Use spatial options Data source

This option only applies when deploying and running in the Talend Runtime П Specify a data source alias

IH Die on error v

Рис. 6. Настройка компонента «users» Запустим работу, нажав «Run» во вкладке «Run».

В базу данных занеслись значения из CSV-файла, как показано на рисунке 7.

2 Andrey Bobrov

Рис. 7. Содержание базы данных

Список литературы

1. [Электронный ресурс]. Режим доступа: https://www.talendbyexample.com/talend-project-reference.html/ (дата обращения: 10.11.2019).

2. [Электронный ресурс]. Режим доступа: https://www.talendbyexample.com/talend-job-reference.html/ (дата обращения: 13.11.2019).

3. [Электронный ресурс]. Режим доступа: https://habr.com/ru/post/338352/ (дата обращения: 17.11.2019).

i Надоели баннеры? Вы всегда можете отключить рекламу.