Como os computadores conseguem compreender frases?
- #Python
Para ser adequado ao machine learning ou deep learning, os dados geralmente precisam ser numéricos. Sons, imagens, ou informações quantitativas sobre produtos e clientes. Dados que não são numéricos podem ser mais desafiadores de treinar.
Com texto não poderia ser diferente, o objetivo desde artigo é falar sobre o conceito de "tokenização" e mostrar a implementação de um código simples onde este processo ocorre.
O que é tokenização?
Tokenização é um processo de pré-processamento de texto no qual cada palavra é decomposta em partes menores, chamadas tokens. Isso permite que a máquina reconheça e diferencie palavras, como verbos e substantivos, e até mesmo compreenda o significado semântico.
Por exemplo, a palavra 'Qualidade' pode* ser representada por uma sequência de números, como '11 22 33 44 55 66 33 66 77', o que facilita a compreensão da informação pelos computadores.
Exemplo simples
Existem várias maneiras de realizar a tokenização, cada uma com seus próprios prós e contras. Vou apresentar uma função simples que realiza essa tarefa de forma eficaz.
Resumidamente, este código mapeia cada palavra para um número e permite recuperar a palavra original usando o mesmo número. É um exemplo simples de tokenização.
Exclarecimentos
O código é parte de uma aula sobre transformers ministrada por Andrej Karpathy - Let's build GPT: from scratch, in code, spelled out.