On me dit que, sauf si vous possédez des GPU et que vous écrivez des kernels, Tinker rend le post-entraînement beaucoup moins coûteux. C'est également une API agréablement abstraite - pytorch : • y = modèle.forward(x) • L = fonction_de_perte(y) • L.arrière() bricoleur/torchtitan : • perte = modèle.forward_backward(x)
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.