A combinação de Agent RFT e Coding Agent RL é algo que toda a indústria considera a coisa certa a fazer, como visto na AI Code Summit NYC. No entanto, o problema com o aprendizado por reforço é que existem opções demais. Um protocolo universal como esse seria de grande ajuda. Além disso, é compostável, então você não precisa abrir mão de nada. Isso contribuirá muito para democratizar a RL.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.