Claude pode criar respostas que tem o intuito concordar com o usuário, diz pesquisa da Anthropic

A empresa se inspirou na neurociência e construiu um microscópio para entender como LLMs criam estratégias e raciocinam para chegar até suas respostas

Redatora

Publicado em 28 de março de 2025 às 10h41.

Tudo sobreAcompanhe tudo sobreInteligência artificial

A Anthropic, dona do Claude, avançou alguns passos na compreensão do que acontece com os grandes modelos de linguagem (LLMs) quando respondem a comandos e perguntas. A startup descobriu, inclusive, que a inteligência artificial, pode criar raciocínios falsos para responder perguntas de forma favorável ao usuário.

Os LLMs não são programados por seres humanos, e sim treinados por eles com base em grandes quantidades de dados. Durante esse treinamento, eles apresentem suas próprias estratégias para resolver problemas, mas seres humanos não têm acesso a isso, o que significa que, mesmo os criadores da IA não entendem como os modelos fazem a maior parte das atividades. Isso gera incerteza para sua aplicação por alguns negócios.

A Anthropic se inspirou na neurociência e construiu um tipo de microscópio para avaliar IAs se inspirando na neurociência. A ideia é tentar identificar padrões e fluxos de informação dos LLMs. Com isso, a empresa trouxe pistas para parte do que acontece quando o Claude responde a perguntas de usuários.

Pesquisadores encontraram evidências de que o Claude pode dar um argumento que soa plausível mas que foi feito para concordar com o usuário, em vez de seguir passos lógicos. A Anthropic observou que, ao ser perguntado sobre uma difícil questão de matemática e ter recebido uma dica falsa, o Claude fez um raciocínio falso.

Outro ponto trazido pela pesquisa da Anthropic é que o Claude, às vezes, pensa em um espaço conceitual entre idiomas, o que sugere que o LLM tem uma espécie de “linguagem de pensamento” universal. Os pesquisadores chegaram até essa hipótese ao traduzir frases simples para vários idiomas e rastrear a sobreposição na maneira como o Claude as processa.

Além disso, o Claude planeja o que irá dizer muitas palavras à frente. A Anthropic demonstrou isso ao pedir que o Claude fizesse um poema. A IA antecipava possíveis palavras que rimam e escrevia a próxima linha para alcançá-la, o que demonstra que ela pode pensar em horizontes mais longos, apesar de ter sido treinada para gerar uma palavra por vez.

Ainda assim, a empresa reconhece as limitações dos estudos, que capturou apenas uma fração do total de computação performada por Claude. Os resultados foram publicados em dois artigos: o primeiro ligou conceitos dentro de um modelo a circuitos computacionais para revelar o caminho entre as palavras que entram no Claude e as que saem e o segundo observou como o Claude 3.5 Haiku fazia estudos profundos de tarefas simples.

1/7 (O MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), em Cambridge, Massachusetts, desenvolveu o sistema de diagnóstico de câncer de mama baseado em IA, reduzindo erros em 15%.)
2/7 (O Google AI, com sede em Mountain View, Califórnia, criou o AlphaGo, o primeiro programa de IA a derrotar um campeão mundial de Go, revolucionando a pesquisa em aprendizado profundo.)
3/7 Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular. (Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular.)
4/7 (O IBM Watson Research Center, em Yorktown Heights, Nova York, desenvolveu a IA Watson, que venceu campeões humanos no programa de TV Jeopardy!, demonstrando avanços significativos em processamento de linguagem natural.)
5/7 (O Baidu Research Lab, em Pequim, China, é conhecido por seu sistema de reconhecimento de voz Deep Speech, que alcançou uma precisão de 97% na transcrição de áudio, superando as tecnologias anteriores.)
6/7 (O Berkeley Artificial Intelligence Research (BAIR) Lab, na Universidade da Califórnia, em Berkeley, criou algoritmos avançados de robótica, incluindo o Dex-Net, que melhorou a precisão da manipulação robótica em 99%.)
7/7 (O centro da Meta AI Research SuperCluster (RSC) tem um dos supercomputadores de IA mais rápidos da atualidade. Com ele, a empresa desenvolveu o sistema de tradução automática baseado em IA que suporta mais de 100 idiomas, melhorando a comunicação global em plataformas sociais da empresa.)

Acompanhe tudo sobre:Inteligência artificial Chatbot

Explosão de imagens no estilo do Studio Ghibli faz criptomoeda meme disparar; entenda

Mais de Inteligência Artificial

Anthropic lança Claude Gov, modelos de IA personalizados para clientes da segurança nacional dos EUA

Mais na Exame

Imagem referente à matéria: Apple diz que App Store movimentou US$ 1,3 trilhão no ano passado

Tecnologia

Inteligência Artificial

Claude pode criar respostas que tem o intuito concordar com o usuário, diz pesquisa da Anthropic

A empresa se inspirou na neurociência e construiu um microscópio para entender como LLMs criam estratégias e raciocinam para chegar até suas respostas

Mais de Inteligência Artificial

Anthropic lança Claude Gov, modelos de IA personalizados para clientes da segurança nacional dos EUA

OpenAI recorre de decisão em caso movido pelo New York Times

OpenAI identifica operações chinesas com uso do ChatGPT para manipulação em redes sociais

Claude bate ChatGPT em teste de leitura complexa, mas IA ainda falha em análise e compreensão

Mais na Exame

Apple diz que App Store movimentou US$ 1,3 trilhão no ano passado

Plano Safra 2025/26 será lançado no final de junho com valor que pode superar R$ 475 bilhões

Hungria x Suécia: onde assistir ao vivo e horário do jogo no Amistoso Internacional

Ibovespa abre em alta, com dados de inflação; dólar opera sem direção