Reinforcement Learning: conheça a técnica que está revolucionando a IA ao redor do mundo

Entenda como funciona o método por trás da solução de problemas complexos no mundo da inteligência artificial

Reinforcement learning: técnica usada da ia ao setor elétrico, com base em tentativa e erro. (Adobe Stock)

Gabriel Vidigal, Raphael Sampaio e Joaquim Dias Garcia

Publicado em 19 de maio de 2025 às 14h00.

Machine learning é o treinamento de ferramentas computacionais, incluindo modelos de Inteligência Artificial (IA), a partir de dados. Uma forma de realizar esse treinamento é através do reinforcement learning, uma estratégia análoga à tentativa e erro. O método baseia-se na interação de um agente (que nada mais é do que um programa de computador para tomar decisões) com um ambiente, que pode ser real ou simulado. A cada passo, o agente observa o estado atual do ambiente e realiza uma ação. Em seguida, o agente recebe uma “recompensa”, indicando se o resultado da ação foi bom ou ruim. Esse passo a passo é repetido várias vezes, e o agente armazena os dados de todas as suas tentativas e seus resultados. Com esses dados, o modelo é treinado para identificar as ações que maximizam a recompensa recebida.

O modelo AlphaGo, criado pela empresa DeepMind, é um dos exemplos mais conhecidos do uso de reinforcement learning. O modelo foi treinado para jogar o jogo de tabuleiro chinês Go, que era até então considerado complexo demais para modelos de IA. O número de configurações possíveis do tabuleiro, uma medida importante de complexidade para métodos computacionais, é muitas ordens de magnitude maior que o número de átomos do universo.

Em março de 2016, o modelo derrotou o campeão mundial Lee Sedol, com um placar de 4 partidas a 1. O jogo, assim como outras etapas do treinamento do AlphaGo, é retratado no documentário de mesmo nome.

O avanço do reinforcement learning se deve à popularização de grandes quantidades de hardware para computação, após anos de quase esquecimento. Além das aplicações em jogos como Go, o reinforcement learning também foi aplicado no ChatGPT para fazer ajustes finais no modelo, alinhando as respostas às preferências de testadores humanos.

Curiosamente, a operação de longo e médio prazo do sistema elétrico brasileiro (e de muitos outros pelo mundo) também é feita com um algoritmo que pode ser considerado um parente mais velho e especializado do reinforcement learning. Esse algoritmo é conhecido como Programação Dinâmica Dual Estocástica (SDDP, sigla em inglês). O algoritmo foi desenvolvido no Brasil, pela PSR, e segue sendo o estado da arte para a operação de sistemas com armazenamento (hidrelétricas, baterias etc.).

A combinação de técnicas mais especializadas e eficientes, como o SDDP, com técnicas mais genéricas do método reinforcement learning, tem grande potencial para o setor elétrico e para toda a área de IA. No caso do setor elétrico, novos métodos têm grande potencial para resolver problemas mais gerais e com menos aproximações. No caso da IA, um método que permite planejar passos à frente (como é necessário no jogo de Go) pode tornar assistentes como o ChatGPT ainda mais poderosos.

Acompanhe tudo sobre:PSR Energia em foco hub-especial

Mais de ESG

Bikes compartilhadas evitaram emissão de 12 mil toneladas de CO2 na América Latina em 2024

Mais na Exame

Imagem referente à matéria: INSS anuncia data da segunda parcela do 13º salário; veja calendário

Minhas Finanças

ESG

Reinforcement Learning: conheça a técnica que está revolucionando a IA ao redor do mundo

Entenda como funciona o método por trás da solução de problemas complexos no mundo da inteligência artificial

Mais de ESG

Bikes compartilhadas evitaram emissão de 12 mil toneladas de CO2 na América Latina em 2024

No continente que mais esquenta no planeta, 7 em cada 10 cidades falham na adaptação

EXCLUSIVO: projeto transforma coleta de plástico em créditos verdes e gera renda para catadores

Chuvas na Argentina: mudanças climáticas agravam enchentes e milhares são evacuados

Mais na Exame

INSS anuncia data da segunda parcela do 13º salário; veja calendário

Segunda maior espécie de baleia do mundo surpreende com visita rara ao litoral brasileiro

Fazenda eleva projeção de PIB de 2025 para 2,4%; expectativa para inflação sobe, para 5%

Janja defende sua fala na China sobre TikTok: 'Não há protocolo que me faça calar'