Como usei Python para analisar dados de filmes (e como você pode também)
Você já pensou em usar Python para analisar dados de algo que você gosta, como filmes? Foi exatamente isso que fiz neste mini-projeto: peguei um arquivo com alguns títulos e usei bibliotecas como Pandas e Seaborn para descobrir padrões — como os filmes mais bem avaliados, os gêneros mais frequentes e a relação entre receita e nota.
Mesmo sendo iniciante, é totalmente possível replicar esse projeto. Neste artigo, te mostro os passos que segui, com código simples e direto.
🎯 Objetivo
- Ver os filmes com maiores notas
- Identificar gêneros mais comuns
- Ver se nota e receita têm alguma relação
🛠️ Ferramentas
- Python + Pandas
- Matplotlib / Seaborn
- Jupyter Notebook
⚙️ Etapas
1. Carregamento dos dados
import pandas as pd # Importando Pandas
df = pd.read_excel('dados_filmes.xlsx') # Lendo o arquivo Excel
2. Limpeza básica
df = df[['title', 'vote_average', 'genres', 'revenue']] # Selecionando colunas importantes
df = df.dropna() # Removendo linhas com valores ausentes
3. Análise simples
# Ordenando o DataFrame pela coluna 'vote_average' em ordem decrescente
top_rated = df.sort_values(by='vote_average', ascending=False).head(10)
# Exibindo as colunas 'title' (Título) e 'vote_average' (Nota Média)
print(top_rated[['title', 'vote_average']])
4. Gráfico de barras com Seaborn: Para visualizar os filmes mais bem avaliados.
import seaborn as sns
import matplotlib.pyplot as plt
# Ordenando os filmes pela nota
top_rated = top_rated.sort_values(by='vote_average', ascending=False)
# Estilizando o gráfico
plt.figure(figsize=(10, 6))
sns.set_theme(style="whitegrid")
ax = sns.barplot(data=top_rated, x='vote_average', y='title', palette="Blues_r")
# Adicionando título e rótulos
plt.title('Top 10 Filmes com Melhores Notas', fontsize=14)
plt.xlabel('Nota Média', fontsize=12)
plt.ylabel('Filme', fontsize=12)
# Adicionando os valores no gráfico
for i, value in enumerate(top_rated['vote_average']):
ax.text(value - 0.5, i, f"{value:.1f}", color='black', va='center', fontsize=11)
plt.show()
5. Gêneros mais frequentes: Podemos contar a frequência de cada gênero e visualizar em um gráfico de barras:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# Contando a frequência dos gêneros
genre_counts = df['genres'].value_counts().head(10) # Pegando os 10 mais frequentes
# Criando gráfico
plt.figure(figsize=(10, 5))
sns.barplot(x=genre_counts.values, y=genre_counts.index, palette="viridis")
plt.title('Gêneros mais frequentes nos filmes')
plt.xlabel('Quantidade de filmes')
plt.ylabel('Gênero')
plt.show()
6. Relação entre receita e nota: Aqui podemos visualizar a correlação entre receita e nota média dos filmes usando um gráfico de dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='revenue', y='vote_average', alpha=0.7)
plt.xscale('log') # Ajustando escala da receita
plt.title('Relação entre Receita e Nota Média dos Filmes (Escala Log)')
plt.xlabel('Receita (log)')
plt.ylabel('Nota Média')
plt.show()
Esse tipo de projeto é ótimo pra quem está começando com análise de dados. É simples, e prático.
#️⃣ #Python #AnáliseDeDados #CiênciaDeDados #ProjetosComPython