O que é um Large Language Model?

#Machine Learning
#Python

Introdução

GPT-3, Llama-2... e recentemente Gemini. Talvez você não os conheça por esses nomes, mas toda vez que alguém pergunta "vamos ser substituídos por uma IA?", indiretamente ela está falando sobre eles, LLMs (Large Language Models).

Dada a complexidade do tema, vou apresentar o conceito de modo a esclarecer do que se trata e de como, no futuro, ter conhecimento sobre isso pode escalar a resolução de problemas por agentes além da área da tecnologia (meu sonho pessoal, essa é a verdadeira resolução da IA).

Dois arquivos e nada mais

Sim, é isso mesmo, um LLM como o GPT-3 contém apenas dois arquivos: um arquivo contendo parâmetros (referente à rede neural com a qual foi treinado) e um arquivo que os executa (que pode ser em qualquer linguagem). Eu sei, não parece interessante, não é?

Então...

A mágica acontece em como esses arquivos foram parar ali (nessa cápsula). Para treinar um LLM, você precisa seguir alguns passos:

Pré-Treino

1. Baixar texto

2. Comprimir

3. Modelo base

Fine-Tuning

1. Escrever instruções

2. Fornecer dados com label (alerta de humano)

3. Monitorar

Percebeu? Um LLM é uma combinação gigantesca de dados que foram extraídos de sites na internet (por exemplo). Eles são tratados, rotulados (ufa) e só depois um humano pode ajustar os parâmetros para usar como lhe convém (gera a cola para a prova de geografia de algum aluno da quinta série).