DATALEARN | DE - 101 | МОДУЛЬ 6-6 ЗНАКОМСТВО С СОВРЕМЕННЫМИ РЕШЕНИЯМИ ETL/ELT

Описание к видео DATALEARN | DE - 101 | МОДУЛЬ 6-6 ЗНАКОМСТВО С СОВРЕМЕННЫМИ РЕШЕНИЯМИ ETL/ELT

ETL(ELT) инструменты нам нужны, чтобы наполнять наше хранилище данных, ну или платформу данных. Для современных аналитических инструментов лучше использовать современные инструменты интеграции. Прежде чем выбирать инструмент, нужно понимать фундаментальные основы построения аналитического решения, его слои и компоненты, разницу между ETL и ELT, между Batch и Stream, между on-premise и cloud и многое другое. Задача инженера данных выбрать правильное решение для обработки и хранения данных.

В этом видео:
📌 Рассмотрим простой пример интернет-магазина и необходимости интеграции данных и аналитического решения
📌 Что такое Data Pipeline?
📌 ETL App или Coding? (Python, Scala и тп)
📌 ETL on-premise и Cloud (AWS, Azure, GCP)
📌 ETL разработчик или Data Engineer
📌 Open Source or Not Open Source
📌 Архитектура современного решения с использованием On-premise tools
📌 Архитектура современного решения с использованием коммерческих продуктов
📌 Обзор решений западного рынка
📌 Пример ETL vs ELT с использованием Pentaho DI и Redshift
📌 ETL Job = DAG (Direct Acyclic Graph)
📌 Обзор решений: MatillionETL, Fivetran, Apache Airflow, Azure Data Factory, AWS Glue

На лабораторной работе я покажу как запустить Matillion ETL, DBT cloud, Talend, Informatica, ETL Leap, Qlikview через Snowflake Partner Connect. Особенно детально я покажу как выглядит Matillion ETL и как вы можете выполнить задание 4го модуля по Superstore Star Schema (dimensional modelling) в Matillion ETL.

=========================================

В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.

Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥Самые актуальные новости про аналитику в Telegram канале: https://t.me/rockyourdata

Комментарии

Информация по комментариям в разработке