Por que o aprendizado por reforço é tão importante? Agente RFT e assim por diante... A história abaixo é uma prova tão contundente de que seu modelo precisa ver as ferramentas que usará em produção durante o período de pós-treinamento em aprendizado por reforço. O Opus 4.5 com Claude Code supera o CORE-Bench com folga, enquanto o desempenho usando o outro conjunto de ferramentas não é digno de nota. A única diferença é a troca do arnês (e das ferramentas). A mesma ideia foi levantada pela equipe do Cursor ao falar sobre o treinamento do Compose. O modelo se tornou melhor no uso de ferramentas, principalmente na busca por incorporação. A RL (rolagem de resistência) vai se tornar a técnica principal após o treinamento. @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai .
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.