[Paper Club] Resumo da Lista de Leitura (19/1 até 26/1) - Inteligência Artificial
- #Inteligência Artificial (IA)
Introdução
Olá pessoal, como prometido. Segue algumas anotações dos dois trabalhos os quais li durante essa semana. Eles acompanham imagens e analogias para melhor compreensão. Você pode encontrar a lista neste artigo. A ideia é simplificar o máximo possível, para que novos termos sejam aprendidos e você possa aprofundar o seu entendimento sobre a Matemática presente na Inteligência Artificial.
Imagenet Classifier with Deep Convolutional Neural Networks - Artigo
Notas
Em uma linha: Este trabalho trata sobre o uso de uma rede neural profunda usada para classificação de imagens.
Key Points
- Imagenet é uma famosa base de dados que contém milhares de imagens.
- Deep Neural Networks são redes neurais com várias camadas
- Convolucional vem de convolução, que nada mais é que uma operação que envolve produto matricial.
- CNNs são usadas para classificação de imagens.
- Dropout é um mecanismo usado para reduzir o overfitting, consiste em aleatoriamente desativar neurônios, isto obriga a rede neural aprender novos caminhos.
- Característica da Rede Neural
- cinco convolutional layers
- max pooling (camada da rede neural que reduzir a quantidade de informações escolhendo apenas o essencial)
- 60 milhões de parâmetros (pesos)
- 650M de neurônios
- dropout para reduzir overfitting
- Os resultados são superiores ao que foi alcançado com modelos anteriores para classificação de imagens.
- A profundidade é fundamental, a remoção de apenas uma camada mostrou perdas de até 2% na performance.
- Todo processo foi feito de forma supervisionada.
CNN (image source: https://www.datacamp.com/pt/tutorial/introduction-to-convolutional-neural-networks-cnns)
Keep Neural Nets Simples By Minimizing the Description Length of the Weights - Artigo
Notes
Em uma linha: O objetivo do trabalho é apresentar um novo método, capaz de reduzir a quantidade de informações nos pesos em modelos de redes neurais supervisionados, isso é importante porque torna o treinamento mais rápido.
Key Points
- Reduzir a quantidade de informações nos pesos é uma maneira eficiente de prevenir o overfitting.
- A ideia é usar a aproximação Gaussiana, como forma de evitar métodos custosos como o de Monte Carlo.
- O ruído adicionado nos pesos é acompanhado de correções, por isso funciona.
- A ideia se baseia na abordagem MDL. Princípio de Comprimento de Dimensão.
- O processo simplifica o cálculo de derivadas, algo necessário em métodos como a retropropagação.
- Description Length of the Weights: A quantidade de informações necessárias para representar os pesos de um modelo.
- Prior Distribution: “Palpite” em relação a distribuição dos dados.
- Posterior Distribuição: Atualização da distribuição baseada no que você sabe sobre os dados (Pior Distribuição).
- Monte Carlo methods: Algoritmo usado em tarefas de otimização.
Comportamento de um neurônio em uma Rede Neural (image source: https://www.mql5.com/pt/articles/5486)
Leituras Adicionais
- https://www.cs.toronto.edu/~hinton/absps/colt93.pdf
- https://www.youtube.com/watch?v=nDnlK68H2O0
- https://edisciplinas.usp.br/pluginfile.php/4946279/mod_resource/content/1/1.1-MCmethod.pdf
- https://betterexplained.com/articles/intuitive-convolution/
Nota do autor
- Seja paciente sobre possíveis erros gramaticais, a julgar pela recorrência deles você sabe o quanto eu usei o ChatGPT ou qualquer outra ferramenta para escrever o mesmo.
- Este trabalho levou tempo para ser pesquisado e filtrado, escrever é uma tarefa nobre e árdua. Se sentir confortável, deixe seu feedback (construtivo).
- Em caso de dúvidas, deixe nos comentários abaixo (farei o possível para responder a tempo).
Se gostou deste tipo de conteúdo você pode me seguir na DIO ou em outras plataformas: