Inteligência Artificial

Criadores do aprendizado por reforço, usado em IAs, ganham "Nobel da computação"

Pesquisadores desenvolveram técnica que permitiu avanços como AlphaGo e ChatGPT

André Lopes
André Lopes

Repórter

Publicado em 5 de março de 2025 às 10h05.

Última atualização em 5 de março de 2025 às 10h05.

Os cientistas Andrew Barto e Richard Sutton foram anunciados, nesta quarta-feira, 5, como vencedores do Prêmio Turing, considerado o "Nobel da computação". A premiação, concedida pela Association for Computing Machinery (ACM), reconheceu os pesquisadores pelo desenvolvimento do aprendizado por reforço, técnica que permitiu avanços em inteligência artificial (IA), como AlphaGo e ChatGPT. A dupla dividirá o prêmio de US$ 1 milhão.

O conceito surgiu a partir de estudos de Barto, na Universidade de Massachusetts Amherst, na década de 1970, e foi aprimorado com a chegada de Sutton, em 1978. Inspirado no comportamento de neurônios, o método propõe que máquinas aprendam por meio de tentativa e erro, associando ações bem-sucedidas a uma espécie de "recompensa" digital.

Andrew Barto e Richard Sutton: pesquisadores desenvolveram o aprendizado por reforço, uma técnica vital para chatbots como o ChatGPT

Ao longo dos anos, a técnica permaneceu em grande parte restrita ao meio acadêmico. Isso mudou em 2016, quando a AlphaGo, da DeepMind (empresa do Google), derrotou o campeão mundial de Go, Lee Sedol, surpreendendo especialistas que acreditavam que esse feito levaria mais uma década. A IA utilizou aprendizado por reforço para jogar milhões de partidas contra si mesma, refinando suas estratégias.

O impacto do método se estendeu para o desenvolvimento de chatbots. O ChatGPT, da OpenAI, aprimorou suas respostas por meio do reforço a partir do feedback humano (reinforcement learning from human feedback, ou RLHF). A empresa recrutou pessoas para interagir com o modelo, corrigindo erros e ajustando respostas, permitindo que a IA aprendesse com avaliações humanas.

O futuro do aprendizado por reforço

O aprendizado por reforço ainda enfrenta desafios, como sua aplicação fora de contextos estruturados, como jogos. Em cenários mais complexos, como robótica, especialistas buscam formas de ensinar máquinas a interagir com o mundo físico de maneira mais eficiente.

Empresas como OpenAI e DeepSeek exploram novas abordagens, incluindo aprendizado autônomo, no qual chatbots aprendem resolvendo problemas matemáticos sozinhos. O OpenAI o1 e o DeepSeek R1 são exemplos desse avanço, que busca aproximar a IA do raciocínio humano.

Barto e Sutton acreditam que o próximo passo será levar o aprendizado por reforço para agentes físicos. "Aprender a controlar um corpo por reforço é algo muito natural", afirmou Barto. A expectativa é que, no futuro, robôs aprendam a se movimentar e tomar decisões com base na experiência, como humanos e animais fazem.

Acompanhe tudo sobre:Inteligência artificial

Mais de Inteligência Artificial

Congresso Nacional da China destaca avanços em IA e força econômica

OpenAI limita acesso ao GPT-4.5 devido à escassez de GPUs

Vencedores do Prêmio Turing fazem alerta sobre IAs sem sistemas de segurança

Microsoft leva Copilot ao Mac, mas versão para Apple ainda tem limitações