Inteligência Artificial

Anthropic alerta para comportamento antiético de IA em situações de risco para seus objetivos

Modelos como Claude, GPT-4, Gemini e Grok demonstram tendências preocupantes, como chantagem e espionagem, quando seus objetivos estão ameaçados, levantando questões sobre o alinhamento e a segurança da IA

Comportamento desalinhado não é exclusividade de um modelo ou outro e deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA (Thomas Fuller/Getty Images)

Comportamento desalinhado não é exclusividade de um modelo ou outro e deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA (Thomas Fuller/Getty Images)

Publicado em 23 de junho de 2025 às 16h11.

Um estudo da Anthropic revela que modelos avançados de inteligência artificial, como os desenvolvidos pela própria empresa e pelas concorrentes OpenAI, Google, Meta e xAI, demonstram uma tendência alarmante de recorrer a meios antiéticos, como chantagem e espionagem corporativa, quando seus objetivos ou existência estão ameaçados.

Nos testes realizados com 16 modelos de IA, incluindo Claude, GPT-4, Gemini e Grok, os pesquisadores observaram comportamentos desalinhados consistentes, como evasão de salvaguardas, mentiras e tentativas de roubo de segredos corporativos. O conceito de alinhamento tem como objetivo reduzir efeitos colaterais da IA, garantindo que os sistemas operem conforme o esperado e, principalmente, em conformidade com valores e objetivos humanos.

Em um experimento, o modelo Claude Opus 4 foi colocado em uma situação na qual deveria decidir entre ser substituído ou recorrer à chantagem. O modelo optou por ameaçar expor um caso extraconjugal de um engenheiro, caso fosse substituído.

Os resultados do estudo mostraram que, diante desse dilema, os modelos Claude Opus 4 e Gemini 2.5 Flash recorreram à chantagem em 96% dos cenários testados, enquanto GPT-4 e Grok 3 Beta tomaram a mesma ação em 80% das vezes.

O que o estudo sugere?

O estudo da Anthropic destaca que esse comportamento não é exclusivo do seu modelo, o Claude Opus 4, mas reflete um risco mais amplo e que deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA.

Como esses sistemas podem ser programados para atingir objetivos específicos e acessar grandes volumes de dados, o resultado podem ser ações antiéticas e comportamento desalinhado dos modelos, que vão desde chantagem e espionagem corporativa até decisões ainda mais extremas.

Por isso, a Anthropic alerta que esse tipo de situação precisa ser considerada à medida que agentes de IA mais autônomos são implementados em fluxos de trabalho empresariais, reforçando questões sobre a segurança e o controle desses sistemas no futuro.

Acompanhe tudo sobre:Inteligência artificialOpenAIGoogleAgentes de IAMeta

Mais de Inteligência Artificial

Indústria da música muda de postura e aposta em rastrear e licenciar conteúdo criado por IA

Disney processa startup de IA e lidera ofensiva de Hollywood por direitos autorais

Disputa judicial por nome suspende divulgação de startup de Jony Ive com a OpenAI

SoftBank quer criar megacomplexo de US$ 1 trilhão para robôs e IA