Patrocínio:
Parceiro institucional:
Reinforcement learning: técnica usada da ia ao setor elétrico, com base em tentativa e erro. (Adobe Stock)
Publicado em 19 de maio de 2025 às 14h00.
Machine learning é o treinamento de ferramentas computacionais, incluindo modelos de Inteligência Artificial (IA), a partir de dados. Uma forma de realizar esse treinamento é através do reinforcement learning, uma estratégia análoga à tentativa e erro. O método baseia-se na interação de um agente (que nada mais é do que um programa de computador para tomar decisões) com um ambiente, que pode ser real ou simulado. A cada passo, o agente observa o estado atual do ambiente e realiza uma ação. Em seguida, o agente recebe uma “recompensa”, indicando se o resultado da ação foi bom ou ruim. Esse passo a passo é repetido várias vezes, e o agente armazena os dados de todas as suas tentativas e seus resultados. Com esses dados, o modelo é treinado para identificar as ações que maximizam a recompensa recebida.
O modelo AlphaGo, criado pela empresa DeepMind, é um dos exemplos mais conhecidos do uso de reinforcement learning. O modelo foi treinado para jogar o jogo de tabuleiro chinês Go, que era até então considerado complexo demais para modelos de IA. O número de configurações possíveis do tabuleiro, uma medida importante de complexidade para métodos computacionais, é muitas ordens de magnitude maior que o número de átomos do universo.
Em março de 2016, o modelo derrotou o campeão mundial Lee Sedol, com um placar de 4 partidas a 1. O jogo, assim como outras etapas do treinamento do AlphaGo, é retratado no documentário de mesmo nome.
O avanço do reinforcement learning se deve à popularização de grandes quantidades de hardware para computação, após anos de quase esquecimento. Além das aplicações em jogos como Go, o reinforcement learning também foi aplicado no ChatGPT para fazer ajustes finais no modelo, alinhando as respostas às preferências de testadores humanos.
Curiosamente, a operação de longo e médio prazo do sistema elétrico brasileiro (e de muitos outros pelo mundo) também é feita com um algoritmo que pode ser considerado um parente mais velho e especializado do reinforcement learning. Esse algoritmo é conhecido como Programação Dinâmica Dual Estocástica (SDDP, sigla em inglês). O algoritmo foi desenvolvido no Brasil, pela PSR, e segue sendo o estado da arte para a operação de sistemas com armazenamento (hidrelétricas, baterias etc.).
A combinação de técnicas mais especializadas e eficientes, como o SDDP, com técnicas mais genéricas do método reinforcement learning, tem grande potencial para o setor elétrico e para toda a área de IA. No caso do setor elétrico, novos métodos têm grande potencial para resolver problemas mais gerais e com menos aproximações. No caso da IA, um método que permite planejar passos à frente (como é necessário no jogo de Go) pode tornar assistentes como o ChatGPT ainda mais poderosos.