Pipeline End-To-End no Databricks

#Databricks
#SQL
#PySpark

Quero compartilhar meu novo projeto pessoal de Engenharia de Dados! 🚀

Camada Bronze 🥉: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-pyspark-activity-7408885139566505985-N0e5?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0

Camada Silver 🥈: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-pyspark-activity-7409268266650685441-hA3s?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0

O objetivo é construir um pipeline end-to-end seguindo a 𝗔𝗿𝗾𝘂𝗶𝘁𝗲𝘁𝘂𝗿𝗮 𝗠𝗲𝗱𝗮𝗹𝗵ã𝗼 e a Camada Raw (Bronze) já está operando de forma 100% automatizada.

O que foi implementado até aqui:

✅ 𝗜𝗻𝗴𝗲𝘀𝘁ã𝗼: Geração de registros sintéticos de 50k a 200k com a biblioteca Faker, simulando dados reais de clientes brasileiros.

✅ 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻ç𝗮 𝗰𝗼𝗺 𝗨𝗻𝗶𝘁𝘆 𝗖𝗮𝘁𝗮𝗹𝗼𝗴: Organização dos arquivos em Databricks Volumes, utilizando particionamento temporal para facilitar a rastreabilidade (lineage).

✅ 𝗗𝗲𝘃𝗢𝗽𝘀 𝗻𝗮 𝗡𝘂𝘃𝗲𝗺: O projeto está totalmente versionado no 𝗚𝗶𝘁𝗛𝘂𝗯 e integrado ao Databricks via Git Folders.

✅ 𝗢𝗿𝗾𝘂𝗲𝘀𝘁𝗿𝗮çã𝗼: Configurei Databricks Workflows para agendar e gerenciar as dependências de forma profissional (requirements.txt).

A ideia inicial é simular uma situação real: Chegada de novos dados diariamente em tamanhos variados em registros, esses dados são colocados na Raw da forma bruta e passarão pela silver e gold na sequencia, cada um com seu notebook, tudo integrado.

Próxima parada: 𝗖𝗮𝗺𝗮𝗱𝗮 𝗦𝗶𝗹𝘃𝗲𝗿, onde o foco será qualidade, taxonomia e a performance das 𝗗𝗲𝗹𝘁𝗮 𝗧𝗮𝗯𝗹𝗲𝘀, usando 𝗔𝘂𝘁𝗼𝗟𝗼𝗮𝗱𝗲𝗿 para verificar em um checkpoint se aquele arquivo já foi carregado! 🥈

📂 Confira o código e a evolução no meu 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/pblovns/pipeline-end-to-end-databricks

#DataEngineering #Databricks #PySpark #Python #CloudComputing #MedallionArchitecture #Github #EngenhariaDeDados