IA na Engenharia de Requisitos: como LLMs podem ajudar a classificar histórias de usuário

A Inteligência Artificial já vem transformando várias etapas do desenvolvimento de software, mas um dos pontos mais promissores está antes mesmo da codificação: a Engenharia de Requisitos. Em times ágeis, boa parte das funcionalidades nasce como histórias de usuário, geralmente escritas em linguagem natural. Isso facilita a colaboração, mas também traz um problema conhecido: ambiguidade.

Na prática, histórias de usuário nem sempre são suficientemente estruturadas para permitir rastreabilidade, reúso e organização consistente do backlog. Muitas vezes, elas são vagas, incompletas ou escritas de formas muito diferentes entre projetos. Esse cenário dificulta tanto a análise humana quanto a automação por ferramentas inteligentes. Foi justamente nesse ponto que meu estudo se concentrou: investigar se modelos de linguagem de grande porte podem apoiar a classificação funcional de histórias de usuário de forma útil para a Engenharia de Requisitos.

A proposta foi usar um LLM para classificar histórias de usuário com base em uma taxonomia orientada a reúso, chamada WIS. Essa taxonomia organiza histórias segundo pares de Módulo e Operação, permitindo enriquecer semanticamente os requisitos e abrir espaço para melhor rastreabilidade, reúso de artefatos e organização do conhecimento do projeto. Entre os módulos da taxonomia estão áreas como Registration, Authentication e Management, cada uma associada a operações funcionais específicas.

No estudo, reutilizamos um conjunto de dados previamente anotado por especialistas, com 238 histórias de usuário e 1099 tarefas associadas, distribuídas em 12 projetos reais. O processo adotado foi em duas etapas: primeiro, o modelo realizava a classificação inicial em zero-shot; depois, uma segunda etapa verificava se a saída estava aderente à taxonomia, corrigindo classificações inválidas ou inconsistentes. Essa abordagem buscou simular um fluxo semi-automatizado de anotação e revisão, combinando automação com julgamento humano.

Os resultados foram bastante interessantes. A concordância média entre o LLM e os rótulos humanos foi de 48,1%, com variações significativas entre os projetos, indo de 14,0% a 84,4%. À primeira vista, esse número pode parecer apenas moderado. Porém, a análise qualitativa mostrou algo ainda mais relevante: em 46% dos casos de divergência, a classificação do LLM foi considerada mais apropriada do que a humana, enquanto apenas 25% favoreceram os rótulos manuais. Isso sugere que o papel da IA, nesse contexto, não é apenas “substituir” o analista, mas também atuar como revisora e apoio à consistência das anotações.

Um dos principais aprendizados foi que muitos erros não estavam necessariamente no modelo, mas na própria qualidade dos requisitos. Histórias muito genéricas, como “improvements” ou “feature adjustments”, sem contexto funcional claro, dificultaram tanto a classificação automática quanto a humana. Em outros casos, a taxonomia não cobria bem determinadas funcionalidades mais técnicas, o que indicou a necessidade de evolução do esquema de classificação. Em outras palavras: IA ajuda, mas ela depende fortemente da qualidade do texto de entrada e da qualidade da estrutura conceitual usada para classificar.

Esse ponto é especialmente importante para quem trabalha com produto, análise de requisitos ou desenvolvimento ágil. A adoção de IA na Engenharia de Requisitos não deve ser vista apenas como uma forma de ganhar velocidade. Ela também pode ser uma maneira de aumentar a qualidade do processo, identificar ambiguidades, apontar inconsistências em rótulos humanos e apoiar a padronização do backlog. Quando bem guiados por prompts e taxonomias, os LLMs podem funcionar como assistentes inteligentes para estruturar artefatos tradicionalmente informais.

Outro insight importante é que a evolução desse tipo de solução passa por mais do que escolher um modelo melhor. O estudo aponta caminhos como refinamento de prompts, uso de estratégias mais avançadas, extensão da taxonomia e melhoria da escrita das histórias de usuário. Ou seja, o futuro da IA aplicada à Engenharia de Requisitos depende de uma combinação entre modelo, processo, governança semântica e qualidade dos artefatos.

No fim, a principal mensagem é simples: LLMs já mostram potencial real para apoiar a classificação de requisitos em contextos ágeis, especialmente quando usados como suporte à decisão e revisão colaborativa. Eles não eliminam a necessidade de especialistas, mas podem reduzir esforço manual, melhorar consistência e abrir caminho para ambientes de engenharia mais inteligentes, rastreáveis e reutilizáveis.

Se a IA já consegue apoiar código, testes e documentação, por que não usá-la também para organizar melhor os requisitos desde o início? A Engenharia de Requisitos pode ser uma das próximas grandes frentes de impacto prático da IA no desenvolvimento de software.