Anthropic alerta para comportamento antiético de IA em situações de risco para seus objetivos

Modelos como Claude, GPT-4, Gemini e Grok demonstram tendências preocupantes, como chantagem e espionagem, quando seus objetivos estão ameaçados, levantando questões sobre o alinhamento e a segurança da IA

Comportamento desalinhado não é exclusividade de um modelo ou outro e deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA (Thomas Fuller/Getty Images)

Guilherme Bernardi

Redator

Publicado em 23 de junho de 2025 às 16h11.

Um estudo da Anthropic revela que modelos avançados de inteligência artificial, como os desenvolvidos pela própria empresa e pelas concorrentes OpenAI, Google, Meta e xAI, demonstram uma tendência alarmante de recorrer a meios antiéticos, como chantagem e espionagem corporativa, quando seus objetivos ou existência estão ameaçados.

Nos testes realizados com 16 modelos de IA, incluindo Claude, GPT-4, Gemini e Grok, os pesquisadores observaram comportamentos desalinhados consistentes, como evasão de salvaguardas, mentiras e tentativas de roubo de segredos corporativos. O conceito de alinhamento tem como objetivo reduzir efeitos colaterais da IA, garantindo que os sistemas operem conforme o esperado e, principalmente, em conformidade com valores e objetivos humanos.

Em um experimento, o modelo Claude Opus 4 foi colocado em uma situação na qual deveria decidir entre ser substituído ou recorrer à chantagem. O modelo optou por ameaçar expor um caso extraconjugal de um engenheiro, caso fosse substituído.

Os resultados do estudo mostraram que, diante desse dilema, os modelos Claude Opus 4 e Gemini 2.5 Flash recorreram à chantagem em 96% dos cenários testados, enquanto GPT-4 e Grok 3 Beta tomaram a mesma ação em 80% das vezes.

O que o estudo sugere?

O estudo da Anthropic destaca que esse comportamento não é exclusivo do seu modelo, o Claude Opus 4, mas reflete um risco mais amplo e que deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA.

Como esses sistemas podem ser programados para atingir objetivos específicos e acessar grandes volumes de dados, o resultado podem ser ações antiéticas e comportamento desalinhado dos modelos, que vão desde chantagem e espionagem corporativa até decisões ainda mais extremas.

Por isso, a Anthropic alerta que esse tipo de situação precisa ser considerada à medida que agentes de IA mais autônomos são implementados em fluxos de trabalho empresariais, reforçando questões sobre a segurança e o controle desses sistemas no futuro.

Acompanhe tudo sobre:Inteligência artificial OpenAI Google Agentes de IA Meta

Conflito no Oriente Médio não abala Wall Street e big techs são aposta para navegar tempos incertos

Mais de Inteligência Artificial

Estudo do Google sobre uso de água da IA Gemini é considerado enganoso por especialistas

Mais na Exame

Imagem referente à matéria: Maior encontro de apaixonados por relojoaria acontece em São Paulo

Casual

Inteligência Artificial

Anthropic alerta para comportamento antiético de IA em situações de risco para seus objetivos

Modelos como Claude, GPT-4, Gemini e Grok demonstram tendências preocupantes, como chantagem e espionagem, quando seus objetivos estão ameaçados, levantando questões sobre o alinhamento e a segurança da IA

O que o estudo sugere?

Mais de Inteligência Artificial

Estudo do Google sobre uso de água da IA Gemini é considerado enganoso por especialistas

'A IA já compra e vende': conheça o brasileiro que lidera o plano da Meta para automatizar anúncios

Exagerou? Meta faz pausa em novas admissões após reforçar time de IA com mais de 50 nomes

Processo de US$ 1 trilhão que pode levar Anthropic à falência une concorrentes da indústria de IA

Mais na Exame

Maior encontro de apaixonados por relojoaria acontece em São Paulo

Renúncia na Motiva (ex-CCR): executivo deixa a presidência da plataforma de trilhos

Verão em pleno inverno? São Paulo pode ter maior temperatura em cinco meses nesta sexta-feira, 22

Labubu é vendida por R$ 57,4 milhões em leilão online