Mineração de Textos e Manipulação de Arquivos - Um Scanner Varredor de Redes Sociais ou um Chat com Inteligência Artificial?
- #Java
Salve, turma. Hoje trago o tema de manipulação de arquivos em Java com o tema de Mineração de Textos. Estava estudando o capitulo 15 do livro de Deitel, que trata de Arquivos, Fluxos e Serialização de Objetos.
Enquanto estava replicando o exemplo 15.2, aprendendo a capturar dados de arquivos e pastas, utilizei os pacotes:
- java.nio.file
- java.util
- java.io
E as classes utilizadas foram:
- Files
- Path
- Paths
- DirectoryStream
- IOException
- Scanner
Você pode se perguntar: Mas, por que aprender a manipular arquivos? Alguns programas que você criar poderão criar textos, planilhas, arquivos em .pdf, xml, csv, txt, e você precisará armazenar esses dados em algum diretório(pasta), ou precisará acessar esses arquivos para dentro do seu programa, para realizar busca de informação, tratamento de dados, ou até, substituir dados dentro desses sistemas que você criou. Sem perceber, você pode estar criando um Minerador de Textos.
As redes sociais utilizam muito isso. Você já percebeu? Existem políticas de privacidade que ficam analisando comentários. Se você fizer um comentário abusivo, preconceituoso, contra uma pessoa ou raça, é possível que o scanner varredor, passe pelo seu comentário e diga... "Hum... nesse comentário tem uma das palavras que não poderia ser utilizado nesta plataforma. Logo, vou bloquear esse comentário, e deixar que a pessoa dona dele conteste se esse bloqueio foi correto ou não. Assim, a pessoa ficará assustada, afinal, ela foi bloqueada e ainda refletirá sobre a sua conduta: má fé! Caso contrário, se foi um erro meu, da plataforma, assim que ela contestar, iriei verificar que ela está correta e desbloquearei o comentário".
Um comentário, um artigo, um texto, tudo no final, será armazenado em algum ambiente de forma persistente, ou seja, vira um arquivo, dentro de uma pasta, que precisará ser acessado no momento correto, ou excluído, ou editado, ou apresentado.
Minerar textos, nada mais do que criar um programa que ler textos procurando informações precisas. Neste meio, temos o processo de tokenização, contagem de palavras, procura de palavras repetidas e a frequência que aparecem, tamanho de frases, frases repetidas, e tantas outras variações de pesquisa de texto.
Cabe nesse meio envolver Análise léxica e Análise sintática, da língua portuguesa mesmo, ou seja, seu programa que analisa textos pode identificar se há erros de gramática ou erros de escrita de palavras, mas é algo um pouco mais complexo para está conversa.
Hoje, podemos ver isso de forma aplicada com maestria, nas ferramentas de inteligência artificial, tal como, chats que respondem a clientes de forma automática, sem necessidade de interação humana, ou seja, o chat está lendo o texto, procurando informações e tomando decisões, do que responder, seja de forma simples, tal como um filtro automático de resposta do WhatsApp ou Instagram, seja algo complexo, tal como um chat GPT.
É um tema complexo, pois pode envolver banco de dados no meio dele, ou apenas manipulação pura de arquivos e pastas com a finalidade de minerar informações, tomar decisões e responder como se fosse um humano.
Gostou do tema?
Bateu o desejo de estudar arquivos e mineração de dados?
LinkedIn: https://www.linkedin.com/in/olivalpaulino/
#backend #java