Construindo um Pipeline de Dados com Arquitetura Medalhão

Durante meus estudos em bootcamps, decidi aplicar o que aprendi em um projeto próprio. O objetivo foi criar um pipeline de dados de ponta a ponta, inspirado em datasets públicos da Netflix, para praticar conceitos de ETL, orquestração e visualização.
O pipeline segue a arquitetura Medalhão, que organiza os dados em três camadas:
- Bronze (Bruta): ingestão dos dados originais em formato Parquet.
- Silver (Tratada): consolidação e transformação, com codificação de variáveis e limpeza.
- Gold (Enriquecida): aplicação de um modelo simples de Machine Learning (RandomForest) e carga no PostgreSQL.
Ferramentas Utilizadas:
- Luigi: para orquestração das tarefas e definição de dependências.
- Pandas: para transformação e limpeza dos dados.
- Parquet + PyArrow: para armazenamento eficiente em formato colunar.
- SQLAlchemy + psycopg2: para persistência da camada Gold no PostgreSQL.
- Streamlit: para criação de um dashboard interativo que consome os dados da camada Gold.
- Poetry + Docker Compose: para gerenciar dependências e provisionar o ambiente.
Execução do Pipeline:
- Setup inicial: Estruturação do projeto e preparação do ambiente.
- Instalação de dependências: via Poetry e Makefile.
- Orquestração: execução das tarefas com Luigi, passando pelas camadas Bronze → Silver → Gold.
- Visualização: dashboard interativo com Streamlit, acessível em http://localhost:8501.
O pipeline entrega dados tratados e enriquecidos prontos para análise, além de um dashboard que facilita a visualização dos resultados.
Próximos Passos:
Planejo evoluir o projeto com monitoramento usando Prometheus e Grafana, além de explorar técnicas mais avançadas de validação de qualidade de dados.
Esse projeto foi desafiador, principalmente porque nunca trabalhei profissionalmente com pipelines de dados. Precisei pesquisar muito, errar e refazer várias vezes. Mas no fim, consegui construir algo único que reflete meu aprendizado e dedicação.
Estou compartilhando aqui justamente para trocar experiências: comentários, sugestões de melhoria e críticas construtivas são muito bem-vindos. Acredito que aprender em comunidade acelera o crescimento e ajuda a enxergar pontos que sozinho eu não perceberia.
👉 GitHub - Pipeline de Dados Netflix: paulocarlosfilho/netflix-data: Repositorio para uma ETL baseado nos conceitos da DIO



