SQL na Prática: Aprenda com Dados Reais
- #SQL
Dentro da minha jornada rumo à Análise de Dados me deparei com uma dificuldade muito grande, praticar os Scripts da linguagem SQL, e isso não é algo tão obvio como em outras linguagens (lógico que depende muito do que você está estudando) pois basta você ter um enunciado ou um exercício e gerar o código para construir um programa que atenda a determinada funcionalidade. Com o SQL acaba sendo um pouco diferente pois ele é apenas uma linguagem de consulta. É possível gerar uma base de dados fictícia mas fica difícil gerar as situações para a consulta, principalmente se você é novo na área.
Neste artigo eu quero mostrar uma maneira de você conseguir uma base de dados reais e uma forma de pensar em como você gerar situações para serem respondidas com as consultas do SQL.
- Onde obter a base e o que ela conta
O primeiro ponto é de onde vem os dados e o que eles contam. Se você pensar que o objetivo de um analista de dados é prover insigths que irão acontar decisões, esses dados precisam ser bem interpretados e direcionados aos objetivos das pessoas que irão usá-los e a parte difícil é simular situações de estudos para simular isso. A minha proposta é iniciar pensando em pessoas que você conhece e ama muito.
Como exemplo vamos pensar que você vai levar sua família para uma viagem de cruzeiro, porém alguém da família (pai, mãe, irmão, filho ou parentada) que tem um pouco de receio de passar vários dias dentro de um navio. Como você convenceria essa pessoa que será uma viagem segura?
E a resposta é mostrar que essas embarcações são sehttps://dados.gov.br/dados/conteudo/perguntas-frequentesguras e passam por fiscalizações periodicamente.
Mas como?
Mostrando o registro das inspeções que são feitas?
E onde eu acho isso?
No site de Dados abertos do Governo (https://dados.gov.br/signin)
Esse site possui uma quantidade enorme de dados registrado que podem ser usadas para estudos.
"O Portal Brasileiro de Dados Abertos é a ferramenta disponibilizada pelo governo para que todos possam encontrar e utilizar os dados e as informações públicas. O portal preza pela simplicidade e organização para que você possa encontrar facilmente os dados e informações que precisa. O portal também tem o objetivo de promover a interlocução entre atores da sociedade e com o governo para pensar a melhor utilização dos dados, promovendo impactos positivos sob os pontos de vista social e econômico.
O portal tem o objetivo de disponibilizar dados relativos às mais variadas temáticas da administração pública. O portal contém apenas dados abertos. Isso significa que dados que contenham alguma restrição de acesso, tais como aquelas advindas de sigilo ou privacidade, estão fora do escopo deste portal.
O portal funciona como um catálogo federado que facilita a busca e uso de dados publicados pelos órgãos do governo. Dadas as limitações de recursos, os diversos órgãos e entidades da administração pública disponibilizam os dados conforme os cronogramas estabelecidos em seus Planos de Dados Abertos (PDAs). Se os dados que você procura não estão no portal, verifique se o PDA do órgão responsável tem esses dados em seu cronograma de disponibilização futura. Caso não esteja previsto no cronograma, ainda é possível abrir uma solicitação de acesso à informação, com base no Art. 6º do Decreto nº 8.777/2016." (https://dados.gov.br/dados/conteudo/perguntas-frequentes)
Os passos para acessar esses dados são:
- Acesse o site (https://dados.gov.br/signin) e na barra de pesquise procure por curzeiros
- Irão aparecer diversos resultados, procure um com o título "Inspeções Sanitárias em navios de cruzeiros" e clique nele
- Na página que abri haverão várias informações referentes as inspeções que são realizadas nos cruzeiros. É importante que você leia a descrição (fala do objetivos daqueles dados) e os recursos (onde encontramos os dados que desejamos)
- Faça o download da documentação e dicionário (PDF) e também dos dados das inspeções (CSV).
- Compreensão de onde vem os dados
Prontinho, você tem uma base de dados para explorar com o SQL e você tem um dicionário que irá fala o que significam as informações que constam no arquivo CSV. É extremamente importante que você tanha domínio dobre essa documentação pois ela é a base para a compreensão dos dados que serão trabalhados e o que você irá extrair para mostrar aos seus familiares.
Esse arquivo é pequeno (8 páginas contando capa e sumário) mas informa como são realizadas as inspeções, quando foram realizadas as coletadas de dados e a atualização destes dados e como interpretar os dados no Arquivo CSV (campo e descrição do campo).
Dominar essas informações é como dominar um idioma, quanto melhor for, mais fácil será sua comunicação.
E como a base de dados basta você realizar as práticas que deseja, seja uma consulta (SELECT) seja uma codificação (CASE).
SE existe algo que você não compreendeu, basta comentar aqui. Um abraço.