Paulo Filho
Paulo Filho22/04/2026 16:17
Compartilhe

Construindo um Pipeline de Dados com Arquitetura Medalhão

  • #Docker
  • #PostgreSQL
  • #Python
  • #SQL

image

Durante meus estudos em bootcamps, decidi aplicar o que aprendi em um projeto próprio. O objetivo foi criar um pipeline de dados de ponta a ponta, inspirado em datasets públicos da Netflix, para praticar conceitos de ETL, orquestração e visualização.

O pipeline segue a arquitetura Medalhão, que organiza os dados em três camadas:

  • Bronze (Bruta): ingestão dos dados originais em formato Parquet.
  • Silver (Tratada): consolidação e transformação, com codificação de variáveis e limpeza.
  • Gold (Enriquecida): aplicação de um modelo simples de Machine Learning (RandomForest) e carga no PostgreSQL.

Ferramentas Utilizadas:

  • Luigi: para orquestração das tarefas e definição de dependências.
  • Pandas: para transformação e limpeza dos dados.
  • Parquet + PyArrow: para armazenamento eficiente em formato colunar.
  • SQLAlchemy + psycopg2: para persistência da camada Gold no PostgreSQL.
  • Streamlit: para criação de um dashboard interativo que consome os dados da camada Gold.
  • Poetry + Docker Compose: para gerenciar dependências e provisionar o ambiente.

Execução do Pipeline:

  • Setup inicial: Estruturação do projeto e preparação do ambiente.
  • Instalação de dependências: via Poetry e Makefile.
  • Orquestração: execução das tarefas com Luigi, passando pelas camadas Bronze → Silver → Gold.
  • Visualização: dashboard interativo com Streamlit, acessível em http://localhost:8501.

O pipeline entrega dados tratados e enriquecidos prontos para análise, além de um dashboard que facilita a visualização dos resultados.

Próximos Passos:  

Planejo evoluir o projeto com monitoramento usando Prometheus e Grafana, além de explorar técnicas mais avançadas de validação de qualidade de dados.

Esse projeto foi desafiador, principalmente porque nunca trabalhei profissionalmente com pipelines de dados. Precisei pesquisar muito, errar e refazer várias vezes. Mas no fim, consegui construir algo único que reflete meu aprendizado e dedicação.

Estou compartilhando aqui justamente para trocar experiências: comentários, sugestões de melhoria e críticas construtivas são muito bem-vindos. Acredito que aprender em comunidade acelera o crescimento e ajuda a enxergar pontos que sozinho eu não perceberia.

👉 GitHub - Pipeline de Dados Netflix: paulocarlosfilho/netflix-data: Repositorio para uma ETL baseado nos conceitos da DIO

Linkdin: Paulo Carlos | LinkedIn

Compartilhe
Comentários (1)
Cíntia Souza
Cíntia Souza - 25/04/2026 20:33

Dominar a arquitetura Medalhão com Luigi e Docker mostra um pensamento estratégico de engenharia que vai muito além do básico! Estruturar o fluxo desde a ingestão bruta até a camada Gold enriquecida com Machine Learning é o que define um pipeline de dados profissional e escalável. O uso do Streamlit para fechar o ciclo com visualização entrega um valor real e imediato para o negócio. Projetos assim, que saem da teoria e resolvem o processo de ponta a ponta, são o melhor cartão de visitas possível. Excelente execução!