Kaue Abbehausen
Kaue Abbehausen22/05/2024 15:36
Compartilhe

Desigualdade na educação: visto pela ciência de dados

    Nesta narrativa mostrarei a você como eu, com dados sobre desigualdade educacional mundial, relacionei o desenvolvimento humano com a desigualdade. Quero contar a você como abordei o problema de compreender a relação de educação com o desenvolvimento do país usando ciência de dados, e compartilhar as informações descobertas.

    O primeiro passo: Os dados

    Os dados foram retirados de dois sites:

    1. Inequality in Education Around the World: A base de dados do Kaggle conta com nomes de países, taxas de desigualdade em 10 anos, rank de índice de desenvolvimento humano (IDH) e grupo de desenvolvimento humano (GDH)
    2. Humam Development Reports: O site contém relatórios de desenvolvimento humano ao redor do mundo. Ele serviu para adicionar dados de expectativa de vida e de estudos, e anos de estudos reais do país.

    Ambos os dados receberam tratamentos: análise de dados faltantes e duplicados. Alguns dados foram retirados e outros adicionados. Também foram feitas traduções de dados e variáveis. E para finalizar a compreensão primária analisei as distribuições dos dados e correlações, afim de observar outliers, distribuições e entendimento das relações dos dados.

    O segundo passo: Análise exploratória

    Na análise exploratória busquei entender quais as relações entre as variáveis. Um foco importante foi mostrar diferenças entre os diferentes grupos de desenvolvimento humano. Os grupos são quantificados entre sua taxa de desenvolvimento humano: Muito alto, Alto, Médio e Baixo.

    Primeiro mostro a você que grupos mais altos possuem os melhores ranks quanto a desenvolvimento humano.

    image

    Por serem grupos acima de alto e muito alto desenvolvimento humano é natural que a expectativa de vida também sejam as maiores.

    image

    E mostro abaixo que com a expectativa de vida alta também há maior tempo média na escola.

    image

    Com essas informações podemos dizer que em países com GDH alto e muito alto a população vive mais tempo e se mantém mais tempo nas escolas. Porém, não estamos falando de desigualdades. Será que países neste categoria apresentam menores taxas de desigualdade?

    image

    De fato, em 2021 os grupos alto e muito alto apresentavam menores taxa de desigualdade. A sequência de informações de que países na categoria de alto e muito alto desenvolvimento humano apresentam os melhores valores quanto a IDH, expectativa de vida, anos de estudo e taxas de desigualdade na educação leva ao seguinte pensamento: são os países com melhores investimentos em educação. Abaixo apresento a resposta do porque esse pensamento não está correto.

    image

    O grupo baixo desenvolvimento humano apresentou a menor mudança aos longos dos anos pois eram os países com informações faltantes, que foram preenchidas com médias dos valores existentes.

    Na imagem, o resultado apresentado é: o grupo muito alto teve a menor taxa de variação ao longo de 10 anos. Isto significa que a mudança a cada ano diminui, mas não tanto quanto nos grupos Alto e Médio.

    Este resultado é contraintuitivo, por isso realizei testes de hipótese comparando os três grupos entre si. O resultado final afirmou que não há diferença estatística entre os três grupos, ou seja, nenhum dos três apresentam diferença no investimento para diminuição de desigualdade na educação.

    O Terceiro passo: modelo de classificação

    Neste último passo o objetivo é classificar os países em grupos de desenvolvimento humano usando as informações: taxa de desigualdade, variação por ano, IDH, regiões no mundo. Para tal criei um modelo de machine learning.

    Foram testados 4 modelos iniciais de classificação. Destes modelos o que apresentou melhores resultados de precisão e acurácia foi um modelo de DecisionTreeClassifier. Os resultados analisados foram para treino e para teste.

    Na segunda etapa, o modelo escolhido passou por buscar de otimizações. Mudanças nos hiper parâmetros foram feitas, buscando a combinação que resultasse no melhor resultado. Usei a abordagem do GridSearchCV e RandomSerchCV.

    A melhor combinação foi encontrada e realizei o treinamento final do modelo. No fim, usando acurácia, precisão e matriz confusão, realizando o teste e a validação, o modelo teve o seguinte resultado: 97%.

    Finalizei realizando o deploy do modelo.

    Conclusão

    Neste artigo contei a você que misturei dois dados sobre desigualdade e características sociais do pais, principalmente quanto a educação. Analisando os dados descobri que grupos de níveis alto e muito alto no desenvolvimento humano tem maiores IDH, expectativa de vida e anos de estudos, além de ter as menores taxas de desigualdade em 2021. Mesmo assim não há diferença significativa na diminuição de desigualdade entre os anos de 2010 e 2021 para os grupos médio, alto e muito alto.

    Finalizei este projeto de desigualdade educacional criando um modelo de classificação que categoriza os países entre os quatros grupos de desenvolvimento humano, com uma taxa de precisão de 97%.

    E você pode encontrar o projeto no meu github.

    Compartilhe
    Comentários (0)