Aprendizado de máquina não supervisionado

O aprendizado de máquina não supervisionado envolve o treinamento de modelos usando dados que consistem apenas em valores de recursos sem rótulos conhecidos. Os algoritmos de aprendizado de máquina não supervisionados determinam relacionamentos entre os recursos das observações nos dados de treinamento.

Clustering

A forma mais comum de aprendizado de máquina não supervisionado é o clustering. Um algoritmo de clustering identifica semelhanças entre observações com base nos seus recursos e as agrupa em clusters discretos. Por exemplo:

Agrupe flores semelhantes com base no tamanho, no número de folhas e no número de pétalas.
Identificar os grupos de clientes semelhantes com base nos atributos demográficos e no comportamento de compra.

Em alguns aspectos, o clustering é semelhante à classificação multiclasse, pois categoriza as observações em grupos discretos. A diferença é que, ao usar a classificação, você já conhece as classes às quais pertencem as observações nos dados de treinamento; portanto, o algoritmo funciona determinando o relacionamento entre os recursos e o rótulo de classificação conhecido. No clustering, não existe um rótulo de cluster previamente conhecido e o algoritmo agrupa as observações de dados com base puramente na similaridade dos recursos.

Em alguns casos, o clustering é utilizado para determinar o conjunto de classes existentes antes de treinar um modelo de classificação. Por exemplo, você deve usar o clustering para segmentar seus clientes em grupos e, em seguida, analisar esses grupos para identificar e categorizar diferentes classes de clientes (alto valor - baixo volume, pequenos compradores frequentes e assim por diante). Em seguida, você pode usar suas categorizações para rotular as observações nos resultados do clustering e usar os dados rotulados para treinar um modelo de classificação que preveja a qual categoria de cliente um novo cliente pode pertencer.

Regressão

Os modelos de regressão são treinados para prever valores numéricos de rótulo com base em dados de treinamento que incluem recursos e rótulos conhecidos. O processo de treinamento de um modelo de regressão (ou qualquer modelo de machine learning supervisionado) envolve várias iterações nas quais você usa um algoritmo apropriado (geralmente com algumas configurações parametrizadas) para treinar um modelo, avaliar o desempenho preditivo do modelo e refinar o modelo repetindo o processo de treinamento com algoritmos e parâmetros diferentes até atingir um nível aceitável de precisão preditiva.

Métricas de avaliação de regressão

Com base nas diferenças entre os valores previstos e reais, você pode calcular algumas métricas comuns que são usadas para avaliar um modelo de regressão.

MAE (Erro Médio Absoluto)

A variação nesse exemplo indica quantos sorvetes cada previsão errou. Não importa se a previsão estava acima ou abaixo do valor real (portanto, por exemplo, -3 e +3 indicam uma variação de 3). Essa métrica é conhecida como o erro absoluto para cada previsão e pode ser resumida para todo o conjunto de validação como o MAE (erro absoluto médio).

No exemplo do sorvete, a média dos erros absolutos (2, 3, 3, 1, 2 e 3) is 2,33.

EQM (erro quadrático médio)

A métrica do erro médio absoluto leva em conta todas as discrepâncias entre rótulos previstos e reais igualmente. No entanto, seria preferível ter um modelo consistentemente errado por uma pequena quantidade do que um que produz menos erros, mas maiores. Uma maneira de produzir uma métrica que "amplifica" erros maiores elevando ao quadrado os erros individuais e calculando a média dos valores quadrados. Essa métrica é chamada de EQM (erro quadrático médio).

Em nosso exemplo do sorvete, a média dos valores absolutos quadrados (que são 4, 9, 9, 1, 4 e 9) é 6.

REQM (Raiz do Erro Quadrático Médio)

O erro quadrático médio ajuda a levar em conta a magnitude dos erros, mas como ele eleva ao quadrado os valores de erro, a métrica resultante não representa mais a quantidade medida pelo rótulo. Em outras palavras, podemos dizer que o EQM do nosso modelo é 6, mas isso não mede sua precisão em termos do número de sorvetes que foram previstos de forma errada; 6 é apenas uma pontuação numérica que indica o nível do erro nas previsões de validação.

Se quisermos medir o erro em termos do número de sorvetes, precisamos calcular a raiz quadrada do EQM, que produz uma métrica chamada raiz do erro quadrático médio. Nesse caso, √6, que é 2,45 (sorvetes).

Coeficiente de determinação (R2)

Todas as métricas até agora comparam a discrepância entre os valores previstos e os reais para avaliar o modelo. No entanto, na realidade, há uma variação aleatória natural nas vendas diárias de sorvetes que o modelo leva em conta. Em um modelo de regressão linear, o algoritmo de treinamento se ajusta em uma linha reta que minimiza a variação média entre a função e os valores de rótulo conhecidos. O coeficiente de determinação (mais comumente conhecido como R2 ou R ao quadrado) é uma métrica que mede a proporção de variação nos resultados de validação que podem ser explicados pelo modelo, em oposição a algum aspecto anômalo dos dados de validação (por exemplo, um dia com um número de vendas de sorvetes altamente incomum devido a um festival local).

O cálculo do R2 é mais complexo do que das métricas anteriores. Ele compara a soma das diferenças quadradas entre rótulos previstos e os reais com a soma das diferenças quadradas entre os valores de rótulo reais e a média dos valores de rótulo reais, dessa forma:

R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2

Não se preocupe muito se isso parece complicado. A maioria das ferramentas de machine learning pode calcular a métrica para você. O ponto importante é que o resultado é um valor entre 0 e 1 que descreve a proporção de variação explicada pelo modelo. Em termos simples, quanto mais próximo de 1 esse valor for, melhor será o ajuste dos dados de validação do modelo. No caso do modelo de regressão do sorvete, o R2 calculado com base nos dados de validação é 0,95.