SU

Sandro Uehara16/05/2025 12:46
Compartilhe

Estudo de caso de Visualização de Dados.

    Como parte da avaliação na disciplina “Visualização da Informação”, curso Tecnólogo em Ciência de Dados, Universidade Cruzeiro do Sul, foi apresentada a proposta de desenvolver um código em python para visualizar dados reais. Para a visualização de dados foram utilizados dados de poluição do ar.


    A poluição do ar tem sido um tema extensivamente pesquisado nas últimas décadas e caracteriza-se como um fator de grande importância na busca da preservação do meio ambiente e na implementação de um desenvolvimento sustentável, pois seus efeitos afetam de diversas formas a saúde humana, os ecossistemas e os materiais (Uehara 2009).

    Foi utilizado um dataset de dados de qualidade do ar localizado no Repositório de Aprendizado de Máquina da UC Irvine (https://archive.ics.uci.edu/).

    Nome: Air Quality Data Set

    Fonte: UCI.

    Link: https://archive.ics.uci.edu/ml/machine-learning-databases/00360/AirQualityUCI.zip

    Arquivo: AirQualityUCI.csv


    Foram utilizadas 3 técnicas descritas a seguir: Estatística Descritiva, Informação Temporal e Informação Geográfica.


    Estatística Descritiva é a área da estatística que organiza, resume e apresenta dados de forma clara, usando tabelas, gráficos e medidas como média, mediana e desvio padrão. Ela ajuda a entender padrões e tendências em conjuntos de dados.


    Já a Informação Temporal refere-se a dados que estão associados ao tempo, permitindo análises de variações ao longo de dias, meses, anos ou outros intervalos. É essencial em séries temporais, como no monitoramento climático, financeiro ou de produção.


    Por outro lado, a Informação Geográfica relaciona dados a uma localização no espaço, como coordenadas geográficas, regiões ou endereços. Esse tipo de dado é usado em sistemas de informação geográfica (SIG) para mapear e analisar fenômenos espaciais. Juntas, essas três áreas permitem análises mais completas, considerando o “quando” e o “onde” dos dados, além de suas características numéricas.


    Por motivos de direitos autorais, pelo trabalho ainda não ter sido avaliado e para evitar o plágio, será feita apenas uma descrição do que foi utilizado e não será apresentado o código, apenas resultados.

    Inicialmente foram utilizadas algumas bibliotecas (pandas, matplotlib, seaborn e plotly) e realizada uma limpeza nos dados.


    A técnica utilizada no Gráfico 1 foi a Análise Descritiva por meio de um histograma. O histograma permite visualizar a distribuição das concentrações de CO no ar, observando como os dados estão distribuídos em diferentes faixas de valores. A linha de densidade (KDE) ajuda a suavizar a distribuição, destacando padrões subjacentes na distribuição de CO.

    Gráfico 1: Distribuição de Frequência do CO (mg/m3).

    image


    No Gráfico 2, a técnica de Séries Temporais é utilizada para analisar como a concentração de CO varia ao longo do tempo. Resumimos os dados diários de CO, eliminando valores ausentes, para observar tendências e flutuações sazonais na qualidade do ar. Este gráfico é útil para entender padrões temporais e variações diárias nas concentrações de poluentes.


    Gráfico 2: Técnica Séries Temporais.


    image


    A técnica de Visualização Geoespacial (Gráfico 3) é empregada no mapa de densidade, que utiliza a distribuição de CO com base em coordenadas geográficas. Através de um mapa de calor (mapa de densidade), podemos visualizar a intensidade da poluição em diferentes locais geográficos. Esta técnica é valiosa para identificar áreas de alta concentração de poluentes e fazer análises espaciais sobre a qualidade do ar em diferentes regiões.

    Gráfico 3: Técnica utilizada Visualização Geoespacial.

    image

    Essas técnicas, aplicadas em conjunto, fornecem uma visão holística da qualidade do ar, ajudando na identificação de padrões temporais e geográficos no monitoramento da poluição. A análise dos resultados pode auxiliar gestores ambientais na tomada de decisões em programas de controle da poluição do ar.

    Referências:

    1.     CETESB – Companhia Ambiental do Estado de São Paulo (https://cetesb.sp.gov.br/). Acesso em: 2025-05-13.

    2.     UEHARA, Sandro Toshio. Análise de dados de sistema LIDAR de retroespalhamento correlacionada com dados meteorológicos. 2009. Dissertação (Mestrado em Tecnologia Nuclear - Materiais) - Instituto de Pesquisas Energéticas e Nucleares, Universidade de São Paulo, São Paulo, 2009. doi:10.11606/D.85.2009.tde-10102011-095256. Acesso em: 2025-05-13.

    3.     UC Irvine Machine Learning Repository (https://archive.ics.uci.edu/). Acesso em: 2025-05-13.

    Compartilhe
    Comentários (1)
    DIO Community
    DIO Community - 16/05/2025 15:08

    Excelente artigo, Sandro! Você fez um trabalho muito interessante ao aplicar técnicas de visualização de dados para estudar a poluição do ar, utilizando Python e ferramentas como pandas, matplotlib, seaborn e plotly. A forma como você combinou análise descritiva, séries temporais e visualização geoespacial realmente traz uma visão completa e clara sobre a qualidade do ar e seus padrões de variação.

    A utilização do histograma e da linha de densidade para explorar a distribuição das concentrações de CO, a análise das séries temporais para observar flutuações e tendências e, finalmente, o uso de mapas de calor para entender a distribuição geográfica da poluição, são estratégias muito eficazes para compreender dados ambientais.

    Gostaria de saber: ao trabalhar com dados reais de poluição, você encontrou desafios específicos relacionados à limpeza ou ao processamento dos dados?