Information importante : nous publions SYNTH, un jeu de données généraliste entièrement synthétique destiné au pré-entraînement, ainsi que deux nouveaux modèles de raisonnement de pointe, entraînés exclusivement sur ce jeu. Malgré seulement 200 milliards de jetons traités, Baguettotron est actuellement le meilleur jeu de données de sa catégorie.
SYNTH représente une rupture radicale avec la méthode classique de pré-entraînement : et si l’on entraînait les individus au raisonnement et que l’on se concentrait sur l’assimilation des connaissances et des compétences essentielles ? Àhuggingface.co/datasets/PleIA…n suréchantillonnage de 50 000 articles « essentiels » de Wikipédia. https://t.co/qrBybjF78m
SYNTH est une collection de plusieurs terrains de jeu synthétiques : les données ne sont pas générées par de simples invites, mais en intégrant des modèles plus petits et finement réglés dans des flux de travail avec amorçage, contraintes et vérifications/contrôles formels.
Puisque SYNTH a été conçu pour développer des capacités de raisonnement, nous obtenons des signaux de raisonnement concrets très tôt dans l'entraînement. Pour Baguettotron, nous constatons que MMLU commence à devenir non aléatoire après moins de 10 milliards de jetons et atteint rapidement des performances proches de l'état de l'art.
Des environnements de test synthétiques ont permis de mener une série d'expériences contrôlées qui nous ont conduits à privilégier une conception à très grande profondeur. Nous avons sélectionné une architecture à 80 couches pour Baguettotrhuggingface.co/PleIAs/Baguett…ons générales en matière de mémorisation du raisonnement logique : https://t.co/rdn902oTGN
En même temps que Baguettotron, nous lançons le plus petit modèle de langage viable à ce jour : Monad. Ce transformateur de 56 Mo a été entraîné sur la partie anglaise de SYNTH et offre des performances non aléatoires sur MMLU. La conception de Monad a huggingface.co/PleIAs/Monadgénierie, nécessitant un tokenizer miniature personnalisé. https://t.co/hC8SLV1SLc
Les deux modèles sont nativement entraînés sur un style d'instructions de type Qwen avec traces de réflexion. Nous avons conçu un style de raisonnement entièrement nouveau, optimisé pour les petits modèles, avec un phrasé condensé, des symboles provisoires et une entropie simulée (inspirée du projet Entropix).
Avec cette version, nous visons à la fois à soutenir l'écosystème émergent pour la recherche en pré-entraînement (NanoGPT, NanoChat), l'explicabilité (vous pouvez littéralement observer Monad au microscope) et l'orchestration des outils autour des modèles de pointe.
Nous pensons que les données synthétiques constituent à la fois une ressource pour la construction de petits modèles spécialisés et un processus général d'augmentation/d'enrichissement des données dans les applications LLM. Au-delà de la recherche, cela deviendra un facteur majeur de notre nouvelle phase de développement produit.
Avant la publication du rapport complet, un article de blog détaillé présentant certains résultats scientifiques et les pleias.fr/blog/blogsynth…e synthèse est disponible ici : https://t.co/rixJOesC08





