Sina Weibo a récemment publié en open source un « petit modèle » de 1,5 milliard de paramètres appelé « VibeThinker-1.5B », dont le coût d'entraînement n'est que de 7 800 $. Il a atteint, voire dépassé, le niveau des grands modèles dans des tâches de raisonnement complexes telles que les mathématiques et la programmation ! Contexte et motivation : Pourquoi les petits modèles peuvent-ils « faire leur grand retour » ? Le modèle o1 d'OpenAI a inauguré l'ère des « modèles de raisonnement à grande échelle » (LRM), atteignant des niveaux d'expertise quasi humains dans des domaines tels que la démonstration de théorèmes mathématiques, le diagnostic clinique et les compétitions de programmation grâce à l'apprentissage par renforcement et au raisonnement par chaînes longues (LCOT). Des projets open source ultérieurs, comme DeepSeek R1 (671 milliards de paramètres) et Kimi K2 (plus d'un billion de paramètres), ont encore renforcé la « loi d'échelle » : plus le nombre de paramètres est élevé, plus le raisonnement est performant. Les petits modèles sont considérés comme intrinsèquement faibles et incapables de traiter des problèmes très complexes. Les auteurs de l'article remettent en question cette idée reçue : est-il possible de révéler le potentiel de raisonnement caché de modèles de petite taille, combiné à des stratégies d'entraînement ingénieuses ? La réponse est oui. VibeThinker-1.5B, basé sur le modèle Qwen2.5-Math-1.5B, a bénéficié d'une optimisation post-entraînement, ce qui a permis d'améliorer significativement ses performances aux tests de référence : il est passé de 6,7 points au test mathématique AIME24 à 80,3 points, et de 0 point à 51,1 points au test de programmation LiveCodeBench V6. Plus remarquable encore, il a légèrement surpassé DeepSeek R1 sur plusieurs défis mathématiques, malgré un nombre de paramètres plus de 400 fois supérieur pour ce dernier. Ceci démontre que le principal obstacle à la capacité de raisonnement ne réside pas dans la taille du modèle, mais dans l'innovation des paradigmes d'entraînement. Innovation fondamentale : Principe de conversion du spectre au signal Cet article propose le « Principe Spectre-Signal » (PSS), un cadre qui redéfinit la collaboration entre l’ajustement fin supervisé (AFS) et l’apprentissage par renforcement (AR). Les méthodes traditionnelles considèrent l’AFS comme l’étape permettant de « localiser précisément la solution optimale », tandis que l’AR l’affine. Cependant, les auteurs soutiennent que cela peut piéger le modèle dans un « optimum local » sur un seul chemin, limitant ainsi l’espace d’exploration ultérieur. Le PSS découple les deux étapes en leur attribuant des rôles complémentaires : • Stade spectral (SFT) : Explorer la diversité SFT ne recherche plus la précision en une seule génération (Pass@1), mais optimise plutôt le taux de réussite d'échantillonnages multiples (Pass@K), générant ainsi un « spectre riche », c'est-à-dire de multiples solutions potentiellement correctes. Cela évite que le modèle ne se cantonne à un schéma étroit et améliore la robustesse et la créativité de la résolution de problèmes. La mise en œuvre adopte une approche de « distillation exploratoire de la diversité en deux étapes » : 1. Détection de la diversité en fonction du domaine : le domaine mathématique est divisé en sous-domaines (tels que l’algèbre et la géométrie), et un ensemble de sondes est généré pour chaque sous-domaine à l’aide d’un puissant LLM pour sélectionner le meilleur « modèle expert » sur Pass@K. 2. Fusion de modèles experts : Les modèles experts sont fusionnés par moyenne pondérée (poids uniformes) pour former un modèle SFT unifié. Ceci permet d’équilibrer précision et diversité, ouvrant la voie à l’apprentissage par renforcement. • Phase de signalisation (RL) : Amplification du chemin correct L'apprentissage par renforcement (RL) sélectionne et renforce la meilleure trajectoire d'inférence parmi le spectre des trajectoires fonctionnelles simples (SFT). Les auteurs présentent l'« Optimisation de politique guidée par l'entropie maximale » (MGPO), une extension de l'Optimisation de politique relative de groupe (GRPO). GRPO calcule l'avantage relatif en échantillonnant plusieurs ensembles de réponses, évitant ainsi la complexité de la fonction de valeur externe. MGPO intègre en outre le principe d'entropie maximale : elle privilégie les exemples d'entraînement à forte incertitude (précision proche de 50 %, soit le point d'entropie maximale de la distribution binaire) et utilise une régularisation du biais d'entropie pour pondérer la fonction d'avantage. Ceci permet au modèle de se concentrer efficacement sur les problèmes à forte valeur ajoutée, évitant ainsi un gaspillage de ressources de calcul sur des tâches simples déjà maîtrisées. L'apprentissage par renforcement (RL) se compose de deux sous-étapes : d'abord, le raisonnement mathématique (le contexte est étendu de 16K à 32K), puis la génération de l'encodage, la fonction de récompense étant la correction binaire. De plus, l'article met l'accent sur l'assainissement des données : une correspondance sémantique par 10-grammes est utilisée pour éliminer les redondances entre les ensembles d'entraînement et de test, garantissant ainsi l'authenticité des résultats. Les données d'entraînement combinent des ensembles de données open source et des données synthétiques, couvrant les domaines des mathématiques et de la programmation. Expériences et résultats : La « grande logique » derrière un petit modèle VibeThinker-1.5B a été évalué sur plusieurs bancs d'essai, notamment en mathématiques (MATH-500, AIME24/25, HMMT25), en programmation (LiveCodeBench V5/V6) et en connaissances (GPQA-Diamond). Les évaluations ont été réalisées avec un moteur vLLM, un échantillonnage multiple Pass@1 et une température de 0,6 (1,0 pour les mathématiques). • Comparé aux modèles plus petits : VibeThinker excelle dans la catégorie des moins de 3 milliards, atteignant un score AIME25 de 74,4 (Qwen3-1,7B seulement 36,8), un score HMMT25 de 50,4 (SmolLM-3B seulement 26,0) et un score de codage V6 de 51,1 (modèle de base 0,0). • Comparé aux grands modèles d'inférence : mathématiquement, il surpasse légèrement DeepSeek R1 (AIME24 : 80,3 contre 79,8 ; AIME25 : 74,4 contre 70,0 ; HMMT25 : 50,4 contre 41,7) et est équivalent à MiniMax-M1-456B. Ses performances de codage sont légèrement inférieures à celles de Magistral Medium (55,9 contre 59,4). • Comparé aux meilleurs modèles non raisonnants : mathématiquement supérieur à GPT-4.1 (AIME24 : 80,3 contre 46,5) et à Kimi K2 (49,5), et meilleur en codage que Claude Opus 4 (51,1 contre 47,4). Cependant, il reste en retrait au test de connaissances GPQA (46,7 contre 70-82), ce qui suggère que ce petit modèle nécessite une optimisation plus poussée en matière de connaissances générales. Ces résultats confirment l'efficacité de SSP : les approches axées sur la diversité permettent aux petits modèles d'« obtenir d'excellents résultats avec peu de ressources » dans les tâches nécessitant une inférence intensive. Discussion et impact : remodeler le paysage de l'IA Le succès de VibeThinker repose sur la conception de son algorithme plutôt que sur l'empilement de paramètres, ce qui réduit les coûts d'inférence à 1/30 à 1/60 de ceux des grands modèles et facilite leur déploiement en périphérie (coûts d'inférence 20 à 70 fois inférieurs). Il met en évidence les limites de la loi d'échelle : le potentiel des petits modèles est sous-estimé, notamment dans le domaine des mathématiques et de la programmation. Cependant, le manque de données de référence souligne la nécessité de poursuivre les efforts pour renforcer l'intégration de connaissances généralisées. Modèle open source et rapport technique :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
