Projeto Engenharia de Dados - Databricks
Finalizei meu primeiro projeto pessoal sobre Engenharia de Dados usando Databricks.
✅ 𝗖𝗮𝗺𝗮𝗱𝗮 𝗚𝗼𝗹𝗱 – 𝗢 𝗙𝗼𝗰𝗼 𝗻𝗼 𝗡𝗲𝗴ó𝗰𝗶𝗼: Transformei a tabela Silver (que mantinha todo o histórico) em uma tabela de "Contatos de Clientes Válidos". O objetivo? Entregar para o time de Marketing (por exemplo) apenas quem realmente pode ser contatado.
✅ 𝗗𝗲𝗱𝘂𝗽𝗹𝗶𝗰𝗮çã𝗼 𝗜𝗻𝘁𝗲𝗹𝗶𝗴𝗲𝗻𝘁𝗲 𝗰𝗼𝗺 𝗦𝗤𝗟: Utilizei a cláusula QUALIFY com ROW_NUMBER() para garantir a regra de Dimensão Única. Na Gold, não importa quantas vezes o cliente mudou de endereço na Silver, o usuário final vê apenas a "verdade atual".
✅ 𝗤𝘂𝗮𝗹𝗶𝗱𝗮𝗱𝗲 𝗲 𝗩𝗮𝗹𝗶𝗱𝗮çã𝗼 𝗱𝗲 𝗗𝗮𝗱𝗼𝘀:
Implementei regex via RLIKE para validar padrões de celulares brasileiros.
Filtrei prefixos comerciais (0800, 0300) para garantir uma lista pura de B2C.
Removi metadados técnicos de linhagem, deixando a tabela limpa e intuitiva para o usuário de BI.
✅ 𝗔𝗿𝗾𝘂𝗶𝘁𝗲𝘁𝘂𝗿𝗮 𝗥𝗲𝘀𝗶𝗹𝗶𝗲𝗻𝘁𝗲: O pipeline foi testado com Schema Evolution. Adicionei novas colunas na origem e vi o Auto Loader e o Delta Lake adaptarem a estrutura automaticamente, sem quebra e sem reprocessamento manual.




