IS

Igor Schmidt07/07/2025 21:37
Compartilhe

Um pouco do meu estudo para a certificação MS AI-900 Parte 2

    Princípios básicos do aprendizado de máquina

    Introdução

    O aprendizado de máquina é, em muitos aspectos, a interseção de duas disciplinas: ciência de dados e engenharia de software. O objetivo do aprendizado de máquina é utilizar dados para criar um modelo preditivo que possa ser incorporado a um aplicativo ou serviço de software. Para atingir esse objetivo, é obrigatória a colaboração entre os cientistas de dados, que exploram e preparam os dados antes de utilizá-los para treinar um modelo de aprendizado de máquina, e os desenvolvedores de software, que integram os modelos aos aplicativos em que são usados para prever novos valores de dados (um processo conhecido como inferência).

    Neste módulo, você vai explorar alguns dos principais conceitos nos quais o machine learning se baseia, aprender a identificar diferentes tipos de modelos de machine learning e analisar como os modelos de machine learning são treinados e avaliados. Por fim, você saberá como utilizar o Microsoft Azure Machine Learning para treinar e implantar um modelo de machine learning, sem a necessidade de escrever nenhum código.

    Observação

    O aprendizado de máquina é baseado em técnicas matemáticas e estatísticas, algumas das quais são descritas em um alto nível neste módulo. Mas não se preocupe se você não for um especialista em matemática! O objetivo do módulo é ajudar você a obter uma intuição de como o aprendizado de máquina funciona, manteremos a matemática no mínimo necessário para entender os principais conceitos.

    O que é o aprendizado de máquina?

    O aprendizado de máquina tem suas origens na estatística e na modelagem matemática de dados. A ideia fundamental do aprendizado de máquina é utilizar dados de observações passadas para prever resultados ou valores desconhecidos. Por exemplo:

    • O proprietário de uma sorveteria pode usar um aplicativo que combina vendas históricas e registros meteorológicos para prever quantos sorvetes provavelmente serão vendidos em um determinado dia, com base na previsão do tempo.
    • Um médico pode utilizar dados clínicos de pacientes anteriores para executar testes automatizados que preveem se um novo paciente está em risco de diabetes com base em fatores como peso, nível de glicose no sangue e outras medidas.
    • Um pesquisador na Antártica pode utilizar observações passadas para automatizar a identificação de diferentes espécies de pinguins (como Adélia, Gentoo ou Chinstrap) com base em medições das nadadeiras, bico e outros atributos físicos da ave.

    O aprendizado de máquina como uma função

    Como o aprendizado de máquina é baseado na matemática e na estatística, é comum pensar nos modelos de machine learning em termos matemáticos. Fundamentalmente, um modelo de aprendizado de máquina é um aplicativo de software que encapsula uma função para calcular um valor de saída com base em um ou mais valores de entrada. O processo de definição dessa função é conhecido como treinamento. Após a definição da função, você pode utilizá-la para prever novos valores em um processo chamado inferência.

    1. Os dados de treinamento consistem em observações passadas. Na maioria dos casos, as observações incluem os atributos observados ou recursos do objeto que está sendo observado e o valor conhecido do objeto que você deseja treinar um modelo para prever (conhecido como rótulo). Em termos matemáticos, você verá com frequência os recursos serem referidos utilizando o nome abreviado da variável x, e o rótulo ser referido como y. Normalmente, uma observação consiste em vários valores de recursos, de modo que x é, na verdade, um vetor (uma matriz com vários valores), da seguinte forma: [x1,x2,x3,...].

    2. Para deixar isso mais claro, vamos considerar os exemplos descritos anteriormente:
    1. No cenário de vendas de sorvete, nosso objetivo é treinar um modelo que possa prever o número de vendas de sorvete com base na previsão do tempo. As medidas meteorológicas do dia (temperatura, precipitação, velocidade do vento etc.) serão os recursos (x), e o número de sorvetes vendidos em cada dia será o rótulo (y).
    2. No cenário médico, o objetivo é prever se um paciente está ou não em risco de diabetes com base nas suas medições clínicas. As medidas do paciente (peso, nível de glicose no sangue etc.) são recursos (x), e a probabilidade de diabetes (por exemplo, 1 para em risco, 0 para sem risco) é o rótulo (y).
    3. No cenário de pesquisa na Antártica, desejamos prever a espécie de um pinguim com base em seus atributos físicos. As principais medidas do pinguim (comprimento das nadadeiras, largura da cobrança e assim por diante) são os recursos (x) e a espécie (por exemplo, 0 para Adélia, 1 para Gentoo ou 2 para Chinstrap) é o rótulo (y).

    4. Um algoritmo é aplicado aos dados para tentar determinar um relacionamento entre os recursos e o rótulo e generalizar esse relacionamento como um cálculo que pode ser executado em x para calcular y. O algoritmo específico usado depende do tipo de problema preditivo que você está tentando resolver (há mais sobre este assunto mais adiante), mas o princípio básico é tentar ajustar uma função aos dados, na qual os valores dos recursos podem ser usados para calcular o rótulo.
    1. O resultado do algoritmo é um modelo que encapsula o cálculo derivado pelo algoritmo como uma função - vamos chamá-la de f. Em notação matemática:

    y = f(x)

    1. Agora que a fase de treinamento foi concluída, o modelo treinado pode ser utilizado para inferência. O modelo é essencialmente um programa de software que encapsula a função produzida pelo processo de treinamento. Você pode dar entrada em um conjunto de valores de recursos e receber como saída uma previsão do rótulo correspondente. Como a saída do modelo é uma previsão calculada pela função, e não um valor observado, você verá com frequência a saída da função mostrada como ŷ (que será deliciosamente verbalizado como "y-hat").

    Vamos explorar as etapas envolvidas no treinamento e na inferência.

    Compartilhe
    Comentários (0)