đ§ Entendendo as Camadas de Atenção no Machine Learning
Se vocĂȘ jĂĄ se perguntou como um modelo consegue âprestar atençãoâ nas palavras certas de uma frase, bem-vindo ao mundo das Attention Layers! đ€âš
As camadas de atenção surgiram como uma forma de melhorar o desempenho de redes neurais, especialmente nas tarefas de tradução automåtica, resumo de textos, classificação de sentimentos e muito mais.
đ O que Ă© Atenção?
A ideia principal Ă© simples (e genial): dar pesos diferentes para cada parte da entrada, dependendo da sua importĂąncia para a tarefa. Ă como se o modelo perguntasse:
-âEm que parte da frase eu deveria focar para prever a prĂłxima palavra?â
𧩠Tipos de Atenção:
- Self-Attention: cada palavra olha para todas as outras da frase (inclusive ela mesma). Usado no Transformer.
- Multi-Head Attention: vĂĄrias âatençÔesâ paralelas, capturando diferentes aspectos do contexto.
- Cross-Attention: uma sequĂȘncia presta atenção em outra (ex: entrada vs. saĂda no Transformer Encoder-Decoder).
đ„ Por que Ă© importante?
Antes das camadas de atenção, modelos tinham dificuldade em entender dependĂȘncias longas. Com atenção, conseguimos:
- âCompreender contexto
- âCapturar relaçÔes complexas
- âAumentar performance com menos custo computacional
đ§ Resumo Visual da Self-Attention (modo texto đ):
Palavra 1 âĄïž olha para âĄïž todas as palavras da frase
Palavra 2 âĄïž idem
...
Cada palavra âĄïž recebe uma pontuação de âatençãoâ baseada em similaridade
đ Curiosidade
Modelos como BERT, GPT, T5 e atĂ© o ChatGPT usam atenção como base! đĄ
Abaixo, linha do tempo Transformers:






