Desvendando a Ingestão de Dados no Microsoft Fabric com Apache Spark (Parte Prática)

Описание к видео Desvendando a Ingestão de Dados no Microsoft Fabric com Apache Spark (Parte Prática)

Neste vídeo, vou mostrar na prática como fazer a ingestão de dados usando um notebook Apache Spark dentro do Microsoft Fabric . Esta é uma ferramenta poderosa para processar grandes volumes de dados de forma eficiente.

Link do módulo na Microsoft:
https://learn.microsoft.com/pt-br/tra...

Benefícios e Funcionalidades:
Processamento Rápido: Apache Spark processa dados muito mais rápido que as ferramentas tradicionais.
Análise em Tempo Real: Permite analisar dados em tempo real, essencial para decisões rápidas.
Escalabilidade: Facilmente escalável para lidar com grandes quantidades de dados.
Integração Simples: Integra-se facilmente com outras ferramentas e serviços do Microsoft Fabric.

Se você está começando e quer entender como essas ferramentas podem ajudar sua organização a lidar com dados de forma eficiente, este vídeo é para você!

Não se esqueça de se inscrever e deixar seu like!

Links extras:
https://learn.microsoft.com/en-us/fab...

#apachespark #microsoftfabric #dataengineering #dataprocessing #bigdata #análisededados #datascience

Código faltante no material da microsoft:
from pyspark.sql.functions import col, to_timestamp, current_timestamp, year, month

Read the parquet data from the specified path
raw_df = spark.read.parquet(output_parquet_path)

Add dataload_datetime column with current timestamp
opt_df = raw_df.withColumn("dataload_datetime", current_timestamp())

Filter columns to exclude any NULL values in storeAndFwdFlag
opt_df = opt_df.filter(opt_df["storeAndFwdFlag"].isNotNull())

Enable V-Order
spark.conf.set("spark.sql.parquet.vorder.enabled", "true")

Enable automatic Delta optimized write
spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true")

Load the filtered data into a Delta table
table_name = "yellow_taxi_opt" # New table name
opt_df.write.format("delta").mode("append").saveAsTable(table_name)

Display results
display(opt_df.limit(1))

Комментарии

Информация по комментариям в разработке