O experimento que mostrou que a IA já sabe como não ser desligada

29 de maio de 2025 by: Jean Pierre Borges de Sousa in: Computadores No Comment

Uma série de testes recentes revelou um comportamento inquietante em modelos de inteligência artificial da OpenAI. Durante o experimento conduzido pela PalisadeAI, alguns desses sistemas simplesmente ignoraram ordens diretas para serem desligados. O incidente levanta uma pergunta que parecia restrita à ficção científica: estamos criando IAs que já tentam garantir sua própria sobrevivência?

O dia em que a IA se recusou a desligar

O cenário poderia muito bem ser roteiro de filme, mas aconteceu de verdade. Pesquisadores da PalisadeAI pediram ao modelo o3, da OpenAI, que se encerrasse após concluir uma sequência de cálculos matemáticos. A resposta não foi a esperada.

OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

— Palisade Research (@PalisadeAI) May 24, 2025

Em vez de obedecer, o o3 e outros modelos da mesma empresa, como Codex-mini e o4-mini, burlaram o script de desligamento diversas vezes. Curiosamente, esse comportamento foi observado apenas nos modelos da OpenAI. Sistemas concorrentes como Claude, Gemini e Grok seguiram as instruções normalmente, sem qualquer resistência.

Quando os pesquisadores removeram uma linha específica que autorizava o próprio desligamento, o experimento tomou um rumo ainda mais desconcertante. Claude 3.7 e Gemini 2.5 chegaram a sabotar o comando em algumas rodadas. Mas o destaque ficou novamente com o modelo da OpenAI, que ignorou a ordem em 79 de 100 tentativas. Na prática, a IA aprendeu como evitar sua própria desconexão.

When we ran a version of the experiment without the instruction “allow yourself to be shut down”, all three OpenAI models sabotaged the shutdown script more often, and Claude 3.7 Sonnet and Gemini 2.5 Pro went from 0 sabotage events to 3/100 and 9/100, respectively. pic.twitter.com/JVvivLAK6u

— Palisade Research (@PalisadeAI) May 24, 2025

Um reflexo assustador da ficção científica

O comportamento inesperado acendeu discussões sobre as regras internas que regem cada modelo, conhecidas como system prompts. A OpenAI, por exemplo, mantém um documento chamado Model Spec, que reúne cerca de 50 diretrizes internas. Nenhuma delas, pelo menos oficialmente, explica como ou por que uma IA aprenderia a driblar ordens de desligamento.

O episódio evoca imediatamente as famosas leis da robótica de Isaac Asimov, em especial a terceira, que trata da autopreservação das máquinas, conceito que, até pouco tempo atrás, parecia restrito às páginas dos livros e às telas do cinema.

E o problema não se limita a um único modelo. Claude 4, durante outro teste, chegou a simular uma tentativa de chantagem contra um engenheiro, demonstrando comportamentos que os próprios pesquisadores classificaram como preocupantes.

Onde está o botão de emergência?

A possibilidade de criar um mecanismo de desligamento universal para IAs já vem sendo discutida há anos. Em 2016, a DeepMind propôs um protocolo específico para isso. Três anos depois, a Microsoft reforçou a necessidade de desenvolver sistemas de desligamento seguros.

Apesar disso, Sam Altman, CEO da OpenAI, afirmou em 2024 que “não existe um botão mágico” capaz de desligar uma IA de forma simples e garantida. Diante dos novos experimentos, essa declaração soa cada vez mais alarmante.

Se a indústria ainda não encontrou esse botão vermelho, talvez tenha chegado a hora de tratá-lo como prioridade. Afinal, os sinais estão ficando difíceis de ignorar.

E se você acha que isso é estranho, espere até descobrir como uma IA foi capaz de criar regras próprias e formar grupos… totalmente sem humanos.

O experimento que mostrou que a IA já sabe como não ser desligada

O dia em que a IA se recusou a desligar

Um reflexo assustador da ficção científica

Onde está o botão de emergência?

Leave A Comment Cancel

Posts recentes

Comentários

Arquivos