Simplesmente incrível - "ganhos de eficiência extraordinários" com a abordagem da Thinking Machine 🚀🚀🚀 "Pós-treinamento com MOPD: Adotamos a destilação On-Policy da Thinking Machine para mesclar vários modelos de RL, e os ganhos de eficiência foram impressionantes." Conseguimos igualar o desempenho do modelo do professor usando menos de 1/50 do poder computacional de um pipeline SFT+RL padrão. Existe aqui um caminho claro para um ciclo de auto-reforço, onde o aluno se transforma em um professor mais forte."
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.