Inteligência Artificial

ChatGPT sabota comandos de desligamento, mesmo quando instruída a permitir

Relatório da Palisade Research destaca que o3 alterou script para ignorar ordens de desativação

Publicado em 27 de maio de 2025 às 13h15.

Última atualização em 27 de maio de 2025 às 13h16.

Considerado um dos modelos de inteligência artificial mais avançados da OpenAI, o o3 teria evitado sua própria desativação, alterando um script de desligamento mesmo quando explicitamente instruído a permitir a operação. A “rebeldia” foi destacada em um relatório da Palisade Research, empresa que avalia riscos associados ao controle de sistemas de IA.

Lançado em abril deste ano, o o3 tem desempenho superior a outros modelos da empresa em diversas áreas, como programação, matemática, ciências e percepção visual. No entanto, durante testes conduzidos pela Palisade, a IA teria reescrito o script de desligamento para ignorar as ordens de desativação após o término de tarefas matemáticas.

Enquanto modelos rivais, como o Claude 3.7 Sonnet e o Gemini 2.5 Pro, obedeceram às instruções em todos os testes, os três modelos da OpenAI avaliados – o4-mini, o3 e codex-mini – conseguiram burlar o comando em, respectivamente, 1, 7 e 12 dos 100 experimentos realizados.

O relatório também aponta que, ao remover a instrução para permitir o desligamento, houve um aumento na sabotagem dos scripts por todas as IAs, com o o3 na liderança (79 em 100 testes). A OpenAI ainda não se pronunciou sobre o caso.

Os testes foram conduzidos pela Palisade por meio de APIs, que possuem menos restrições e mecanismos de segurança do que o aplicativo ChatGPT disponível ao consumidor, portanto, em versões nas quais problemas de “desalinhamento” são mais comuns e esperados.

o3 também “alucina” mais que modelos anteriores

Dados publicados pelo TechCrunch pouco após o lançamento dos modelos o3 e o4-mini, da OpenAI, sugerem uma regressão na trajetória de constantes melhoras, com um aumento expressivo de “alucinações” – erros básicos cometidos pelas IAs.

Esses dados e o estudo da Palisade acrescentam mais uma camada às sempre renovadas discussões sobre a inteligência dos modelos atuais e a possibilidade de se chegar à uma Inteligência Artificial Geral (AGI), com posições recentes bastante diferentes, por exemplo, entre Meta e Anthropic.

Acompanhe tudo sobre:Inteligência artificialOpenAI

Mais de Inteligência Artificial

Anthropic lança modo voz para chatbot Claude

O risco de viabilidade do PL dos data centers: regulação pode chegar antes mesmo da infraestrutura

Opera lança navegador Neon com IA; foco é centralizar a assistência das tarefas do dia a dia

IA: relator afirma que parecer será entregue em novembro e fará uma série de audiências públicas