RT @HeMuyu0327: A destilação on-policy revolucionaria o treinamento de uso de ferramentas em múltiplas etapas além do RL, mas nem o Tinker nem o TRL, que implementam…
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.