Honnêtement, je pense que leur fidélité à GRPO s'explique surtout par les investissements considérables qu'ils ont consentis pour le corriger et le comprendre. Ils sont prêts à accepter les inconvénients, comme le biais de longueur, pour des itérations plus courtes sur de nouvelles données. Si vous n'êtes pas DeepSeek, vous pouvez peut-être vous passer de GRPO.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.