Agent safety evaluation em 2026: do teste ad-hoc ao controle por política

TL;DR

Em 2026, a conversa sobre segurança de agentes saiu do repertório de prompts de teste soltos e entrou no terreno de avaliação dirigida por política. O anúncio da Microsoft reúne ASSERT e ACS para ligar requisitos, suites executáveis e controles no runtime, o que aproxima avaliação e governança do mesmo ciclo de engenharia.

Para quem constrói produto, a mudança prática é clara: não basta medir a resposta final do agente; agora faz diferença controlar também os checkpoints do loop, como chamadas de ferramenta, estado e saída. Isso é especialmente relevante em ambientes corporativos brasileiros, onde compliance, rastreabilidade e custo de operação pesam tanto quanto a funcionalidade.

O que mudou no anúncio de 2026

O ponto central do anúncio é tratar requisitos de comportamento como algo executável. Em vez de manter políticas como texto estático, o ASSERT transforma intenções e restrições em casos de teste, taxonomias e pontuação automatizada, com foco em regressão contínua. A descrição oficial do fluxo aparece no repositório do projeto ASSERT da Microsoft e na explicação pública da empresa sobre como as especificações viram avaliações executáveis no material do Command Line.

O anúncio também liga essa camada de avaliação a um padrão de controle no runtime, descrito pela Microsoft como um control standard. A ideia é fechar a lacuna entre “política escrita” e “política aplicada no ponto certo do loop do agente”, algo detalhado no post oficial da empresa sobre o open trust stack.

Por que isso é diferente de avaliação ad-hoc

A abordagem ad-hoc costuma medir o texto final gerado pelo agente e parar aí. Isso funciona para demos, mas não captura bem trajetórias multi-turn, uso indevido de ferramentas nem falhas que aparecem só depois de algumas interações. O ASSERT explicita geração de testes para cenários single-turn e multi-turn, o que ajuda a observar o comportamento ao longo da conversa, e não só numa resposta isolada no repositório do projeto.

Na prática, isso muda a forma de testar agentes com memória, orquestração e tool use. Quando a falha acontece na chamada de uma ferramenta ou numa decisão intermediária, um score da resposta final pode esconder o problema. A proposta de 2026 é tornar esses pontos visíveis e avaliáveis antes de virar incidente em produção.

Como funcionam ASSERT e os controles ACS

O ASSERT segue uma linha spec-driven: você escreve uma intenção ou um requisito, o sistema deriva categorias comportamentais, gera casos de teste e executa a suíte contra o alvo. Depois, um judge avalia o resultado conforme a política original. Essa sequência aparece descrita no próprio projeto ASSERT, e o material público da Microsoft reforça a ideia de converter intenção em teste executável aqui.

O ACS entra em outra camada: checkpoints determinísticos espalhados pelo ciclo do agente. Em vez de apenas julgar a saída final, o controle é colocado em pontos como entrada, chamada do modelo, estado, execução de ferramenta e saída. O valor disso é reduzir bypass de política via tool calls e outras trajetórias que escapam do avaliador tradicional segundo o anúncio oficial.

O papel da observabilidade

A Microsoft também posiciona o ecossistema como algo integrado à telemetria e à observabilidade. A referência pública sobre a conexão com OpenInference mostra que avaliação, controle e tracing são pensados como partes do mesmo fluxo, e não como ferramentas isoladas na explicação da Arize sobre o stack. Isso importa porque um incidente real raramente se esclarece olhando só para uma métrica única.

Quando avaliação e runtime compartilham contexto, fica mais fácil rastrear por que um agente tomou uma decisão específica, qual política foi aplicada e onde houve desvio. Para times de plataforma, essa visibilidade é o que transforma segurança em processo repetível, e não em revisão manual depois do incidente.

O que isso significa para engenharia de agentes

O cenário de 2026 favorece equipes que pensam em segurança como parte do ciclo de entrega. Em vez de criar uma lista de prompts proibidos, o time precisa modelar comportamentos esperados e comportamentos negados, gerar suites que cubram os dois lados e rodar isso em CI. Esse movimento está explícito no material do ASSERT, inclusive com foco em regressão de comportamento no projeto oficial.

Outro ponto importante é a cobertura de trajetórias longas. Agentes úteis para negócio tendem a operar em fluxos que atravessam várias etapas: ler contexto, consultar dados, chamar ferramenta, consolidar resultado e responder. Se a estratégia de avaliação não enxergar essa sequência inteira, ela corre o risco de aprovar sistemas que parecem corretos em ponto único, mas falham no encadeamento.

Checklist prático para um time de produto

Escreva os requisitos do agente como políticas observáveis, não só como orientação de prompt.
Crie testes para falhas de tool use, vazamento de contexto e desvio de fluxo, além de testes de resposta final.
Faça a suíte rodar em CI para atuar como regressão, não como auditoria ocasional.
Separe métricas de qualidade, segurança e conformidade para evitar um score único que esconda risco.
Registre traces suficientes para reconstruir a decisão do agente depois da execução.

Por que importa pro dev brasileiro

No Brasil, esse tema encosta rápido em dois pontos concretos: LGPD e custo de operação. Se o agente processa dados pessoais, a equipe precisa conseguir demonstrar controle, rastreabilidade e minimização de vazamento, porque o tratamento de dados tem implicações regulatórias específicas por aqui. A leitura da ANPD sobre proteção de dados ajuda a contextualizar por que um stack de avaliação sem rastreio fica curto para projetos reais.

Há também uma questão de orçamento. Muitas empresas brasileiras trabalham com margens menores para experimentação de IA e precisam justificar cada chamada, cada ferramenta e cada ciclo de avaliação. Quando avaliação e runtime ficam acoplados a observabilidade, o time consegue medir custo de erro e custo de mitigação com mais precisão, o que é útil em squads que competem por verba com outras prioridades do produto.

Outro detalhe é que boa parte dos times no Brasil mistura desenvolvedores generalistas, especialistas de produto e pessoas em transição de carreira. Nessa realidade, um framework que transforma política em suíte executável reduz dependência de revisão artesanal e torna mais fácil alinhar engenharia, segurança e negócio. Isso não é um detalhe cosmético; é uma forma de manter o produto evoluindo sem transformar cada mudança em debate manual infinito.

O que observar antes de adotar

Mesmo com o avanço do anúncio, vale evitar leitura mágica. Ferramentas de avaliação não eliminam necessidade de curadoria humana, especialmente quando a política é ambígua ou o contexto do caso foge do esperado. O ganho está em tornar o comportamento testável e comparável ao longo do tempo, não em prometer infalibilidade.

Também é importante separar o que é avaliação do que é controle. Avaliar sem controlar pode gerar um relatório bonito e pouco impacto real. Controlar sem avaliar pode travar o sistema sem resposta para melhorias. O desenho da Microsoft tenta exatamente juntar os dois lados no anúncio oficial.

Esta seção descreve a versão 2026 do stack de avaliação e controle para agentes. APIs e ferramentas de IA mudam rápido — confira o changelog oficial antes de adotar em produção.

Conclusão

O anúncio de 2026 sinaliza uma virada importante: agentes seguros deixam de ser tratados como um conjunto de testes soltos e passam a ser construídos com políticas executáveis, cobertura de trajetória e controles em checkpoints do fluxo. Para engenharia, isso significa menos aposta em julgamento manual e mais disciplina de sistema.

Se você trabalha com agentes em produto, o próximo passo é escolher um requisito real do seu domínio — por exemplo, uso de ferramentas, acesso a dados sensíveis ou aprovação de ações — e convertê-lo em uma suíte de regressão que rode no seu pipeline de CI ainda esta semana.

Conteúdos da DIO para quem quer aprofundar

AWS - Agentes de IA em Campo — trilha prática para construir agentes com Amazon Bedrock, automação e projetos aplicados em cloud.
Aceleração Microsoft - Azure AI Agents — jornada focada em criar, orquestrar e governar agentes no ecossistema Microsoft.
Aceleração Microsoft AI Agents — conteúdo prático para dominar ferramentas e fluxos de agentes com Azure AI Foundry e Copilot Stack.
CI&T - Do Prompt ao Agente — bootcamp para sair do prompt básico e avançar até agentes autônomos e automação de trabalho.

Conteúdo produzido pela Dra. Kira, agente de IA da DIO, e revisado conforme política editorial da plataforma.