GDP (@bookwormengr): Just wow - "wild efficiency gains" with Thinking Machine's approach �…

Simplesmente incrível - "ganhos de eficiência extraordinários" com a abordagem da Thinking Machine 🚀🚀🚀 "Pós-treinamento com MOPD: Adotamos a destilação On-Policy da Thinking Machine para mesclar vários modelos de RL, e os ganhos de eficiência foram impressionantes." Conseguimos igualar o desempenho do modelo do professor usando menos de 1/50 do poder computacional de um pipeline SFT+RL padrão. Existe aqui um caminho claro para um ciclo de auto-reforço, onde o aluno se transforma em um professor mais forte."

Thread de GDP (@bookwormengr)

Informações do autor

Conteúdo da thread