Tecnologia

Como o Google venceu o Claude ao jogar Pokémon

A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada no jogo —, o Claude seguia travado no Monte Moon desde o fim de fevereiro.

Janaina Camargo
Janaina Camargo

Redatora na Exame

Publicado em 15 de abril de 2025 às 12h57.

Na última quinta-feira, 10, uma publicação viralizou no X (ex-Twitter), comparando o modelo de inteligência artificial Gemini, do Google, que supostamente estaria vencendo o Claude, da Anthropic, em uma disputa curiosa: jogar a trilogia do videogame Pokémon.

A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada no jogo —, o Claude seguia travado no Monte Moon desde o fim de fevereiro.

Após o post repercutir, os usuários recorreram ao Reddit para apontar que a "disputa" poderia não ter sido totalmente justa.

De acordo com as declarações, o Gemini contava com a ajuda de um minimapa personalizado, criado pelo desenvolvidor da transmissão realizada na Twitch, um recurso que ajudava o modelo a identificar "blocos" importantes no jogo e facilitava as decisões — algo que o Claude não tinha à disposição.

O caso reanimou discussões sobre os benchmarks utilizados para avaliar modelos de IA e o portal TechCrunch lembrou de dois episódios que já aconteceram em testes técnicos.

O primeiro caso destacado foi o da Anthropic, que obteve duas pontuações diferentes para o modelo Claude 3.7 Sonnet no benchmark SWE-bench Verified. Ele alcançou 62,3% de precisão, mas chegou a 70,3% quando usaram um "andaime personalizado", uma ferramenta extra criada pela empresa.

Já o segundo caso se trata da Meta, que ajustou uma versão do modelo Llama 4 Maverick para melhorar seu desempenho no teste LM Arena. A versão original do modelo teve uma pontuação significamente pior no mesmo teste.

Acompanhe tudo sobre:JogosInteligência artificialGoogle

Mais de Tecnologia

Consulta pública sobre regulação de redes sociais vai até o dia 17

Apple vai pular do iOS 19 para 26; mudança será anunciada na WWDC com foco no novo visual do sistema

O plano da Amazon para controlar o 'caos do marketplace'

Alibaba Cloud lança IDE com IA baseada no Qwen 3 e mais de 3 mil ferramentas integradas