J'aime à penser que l'une des motivations de tous ces articles est de surpasser les méthodes internes de DS au point de pousser DeepSeek à les abandonner. Mais DeepSeek, le géant du web, est secrètement très fier. Peut-être même trop. Je soupçonne qu'il préférerait mettre le GRPO sens dessus dessous plutôt que d'admettre une défaite. Au final, tout le monde y gagne.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
