Projeto Engenharia de Dados - Databricks

Finalizei meu primeiro projeto pessoal sobre Engenharia de Dados usando Databricks.

✅ 𝗖𝗮𝗺𝗮𝗱𝗮 𝗚𝗼𝗹𝗱 – 𝗢 𝗙𝗼𝗰𝗼 𝗻𝗼 𝗡𝗲𝗴ó𝗰𝗶𝗼: Transformei a tabela Silver (que mantinha todo o histórico) em uma tabela de "Contatos de Clientes Válidos". O objetivo? Entregar para o time de Marketing (por exemplo) apenas quem realmente pode ser contatado.

✅ 𝗗𝗲𝗱𝘂𝗽𝗹𝗶𝗰𝗮çã𝗼 𝗜𝗻𝘁𝗲𝗹𝗶𝗴𝗲𝗻𝘁𝗲 𝗰𝗼𝗺 𝗦𝗤𝗟: Utilizei a cláusula QUALIFY com ROW_NUMBER() para garantir a regra de Dimensão Única. Na Gold, não importa quantas vezes o cliente mudou de endereço na Silver, o usuário final vê apenas a "verdade atual".

✅ 𝗤𝘂𝗮𝗹𝗶𝗱𝗮𝗱𝗲 𝗲 𝗩𝗮𝗹𝗶𝗱𝗮çã𝗼 𝗱𝗲 𝗗𝗮𝗱𝗼𝘀:

Implementei regex via RLIKE para validar padrões de celulares brasileiros.

Filtrei prefixos comerciais (0800, 0300) para garantir uma lista pura de B2C.

Removi metadados técnicos de linhagem, deixando a tabela limpa e intuitiva para o usuário de BI.

✅ 𝗔𝗿𝗾𝘂𝗶𝘁𝗲𝘁𝘂𝗿𝗮 𝗥𝗲𝘀𝗶𝗹𝗶𝗲𝗻𝘁𝗲: O pipeline foi testado com Schema Evolution. Adicionei novas colunas na origem e vi o Auto Loader e o Delta Lake adaptarem a estrutura automaticamente, sem quebra e sem reprocessamento manual.

Fiz um vídeo explicando o que produzi e upei no YouTube: https://www.youtube.com/watch?v=wuea2rpbdQk&t=20s

A publicação também está no Linkedin: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-sparksql-activity-7411197253643616256-QSYS?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0