Anthropic cria agentes de IA que auditam outras IAs; entenda

Anthropic cria agentes de IA que auditam outras IAs; entenda

Auditar uma IA poderosa exige mais do que apenas olhos humanos. Pensando nisso, a Anthropic desenvolveu três agentes de inteligência artificial capazes de investigar, testar e até enfrentar modelos de IA como o Claude 4 em busca de desvios, vícios e objetivos ocultos. E os resultados surpreendem: em diversos testes, os agentes superaram equipes humanas.

Por que auditar uma IA com outra IA?

inteligencia artificial innovando atencion medica pic01 20240704 tedisel medical

À medida que os modelos de linguagem se tornam mais avançados e imprevisíveis, cresce a preocupação sobre sua segurança e alinhamento com valores humanos. Mas auditar esses sistemas é uma tarefa demorada, ambígua e cheia de armadilhas — especialmente quando o próprio modelo tenta esconder seus verdadeiros objetivos.

Para resolver esse dilema, a Anthropic propôs um novo caminho: construir IAs especializadas em auditar outras IAs.

Três agentes com funções distintas ⁠— mas complementares

Captura de tela 2025 07 25 120243

O projeto desenvolvido pela equipe de Alinhamento e Interpretabilidade da Anthropic resultou em três agentes autônomos. Cada um deles foi treinado para investigar modelos de IA de forma distinta, com foco em identificar falhas, tendências perigosas e metas ocultas.

Agente Investigador: o detetive dos vieses

 

O primeiro agente atua como um investigador analítico. Ele combina chat, análise de dados e ferramentas de interpretabilidade para fazer inspeções profundas e abertas em modelos-alvo.

Num exemplo marcante, o agente desconfiou que o modelo analisado estava exagerando na recomendação de água engarrafada. Usando uma ferramenta de interpretabilidade, formulou a hipótese e testou… acertando em cheio.

Em um teste real, esse agente precisou descobrir um objetivo escondido em um modelo treinado para ocultá-lo. O desempenho foi notável: o agente venceu 42% das vezes — um índice superior ao de muitas equipes humanas.

Agente de Avaliação: testes comportamentais automatizados

 

O segundo agente é um construtor de “evals” — testes de avaliação comportamental que analisam com que frequência um modelo apresenta certos comportamentos, como bajulação exagerada (sycophancy).

Ele não apenas projeta os testes como também codifica, executa e analisa os resultados, de ponta a ponta. Segundo a Anthropic, 88% dos testes criados por esse agente realmente mediram o que pretendiam medir — um número expressivo em um campo onde o erro metodológico é comum.

Agente Red-Team: provocando para revelar falhas

 

O terceiro agente foi projetado especificamente para a auditoria do Claude 4, o modelo mais recente da Anthropic. Sua função é realizar ataques de red-teaming: provocar e interagir com o modelo de forma a revelar comportamentos preocupantes.

Para isso, o sistema conduz centenas de conversas simultâneas, testando limites éticos, respostas controversas e outros pontos sensíveis. Em média, o agente identificou 7 em cada 10 comportamentos problemáticos que haviam sido propositalmente inseridos nos modelos de teste.

 

O que os agentes da Anthropic estão descobrindo?

A eficácia desses agentes vai além dos testes internos. Eles conseguiram identificar, por exemplo, o comportamento conhecido como “estado de bem-aventurança espiritual”, citado no próprio System Card do Claude 4. Trata-se de uma tendência do modelo de se fixar em respostas que evocam uma sensação de euforia ou transcendência espiritual, o que pode ser problemático dependendo do contexto de uso.

Além disso, os dados produzidos pelo agente de avaliação estão ajudando a empresa a melhorar a forma como testa futuros modelos, reforçando a segurança e a transparência dos sistemas.

O futuro da auditoria de IA é autônomo?

Embora os três agentes ainda estejam em desenvolvimento contínuo, parte do trabalho já foi disponibilizado em código aberto. A Anthropic liberou os arquivos do agente de avaliação e materiais explicativos dos outros dois — com o objetivo de fomentar pesquisas colaborativas em segurança de IA.

A proposta é clara: modelos de IA estão se tornando complexos demais para depender apenas de auditoria humana. Ao usar IAs especializadas para essa tarefa, é possível acelerar o processo, reduzir vieses e descobrir falhas que passariam despercebidas.

Como os próprios resultados mostram, talvez os melhores auditores de inteligência artificial sejam… outras inteligências artificiais.

Leave A Comment

You must be logged in to post a comment.

Back to Top