Au fait, je viens seulement de remarquer que les points de contrôle «Generative Reward Model (GRM) empowered by Self-Principled Critique Tuning (SPCT)» de DeepSeek ont été publiés à un moment donné. Ce système utilisait encore Gemmas et V2-lite + V2.5 comme modèle. Imaginez la qualité de leurs GRM avec la version V3.2.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

