J'ai également apprécié la partie sur le style de raisonnement et la compatibilité. Je pense qu'il y a un potentiel considérable encore inexploité pour les petits modèles, car la géométrie des chemins d'attention exige bien plus qu'une simple distillation.
Lien :arxiv.org/pdf/2512.11463U
