Je condamne fermement les attaques contre Prime Intellect, ils font exactement ce qu'il faut. L'entraînement des modèles de base chinois jusqu'à un niveau de pointe est en réalité *plus important* actuellement que l'apprentissage du pré-entraînement de nos propres modèles. Je me fiche pas mal de ce que PI, Arcee et d'autres peuvent pré-entraîner, même si je m'attends raisonnablement à ce qu'ils rattrapent bientôt leur retard. La puissance de calcul est abondante en Occident et nous constatons déjà une expertise suffisante en matière de pré-entraînement avec des modèles plus petits (ces deux-là + @ZyphraAI, @Dorialexander, @natolambert avec Olmo…) dans l'espace ouvert occidental ; de toute évidence, cela passe à l'échelle. Mais cela relève surtout de la… signification géopolitique, de ce que vous serez autorisés à exécuter sur vos serveurs patriotiques connectés à des frameworks d'agents. Je ne suis ni occidental ni chinois, et contrairement à ce que j'ai pu laisser entendre, cette dimension ne m'intéresse pas fondamentalement ; c'est une question purement instrumentale. Consultez ma biographie : la course n'oppose pas les États-Unis/l'Occident à la Chine, mais les humains et les IAG contre la centralisation du pouvoir par les singes. Et Prime Intellect fait plus que quiconque pour freiner cette centralisation. Réfléchissez-y et déplorez-le : HF regorge de dons célestes que nous sommes trop incompétents pour exploiter ; ils restent inutilisés jusqu'à devenir obsolètes. Des milliers, voire des millions de téléchargements, et rien à montrer. Pourquoi Qwen s'obstine-t-il à développer des modèles denses archaïques et très coûteux, semblables à ceux de Llama ? Principalement parce que a) Alibaba a pour indicateur clé de performance le nombre de téléchargements mensuels de HF et b) les universitaires et les petits laboratoires peinent à maîtriser l'optimisation des architectures modernes. Même si l'infrastructure était plus mature et leur expertise technique moins limitée, sur quoi baseraient-ils cette optimisation ? L'apogée de l'optimisation open source fut le projet Nous-Hermes, qui consistait essentiellement à extraire des données de GPT-4, à les filtrer selon des critères subjectifs et vagues, à les appliquer à une base solide et à croiser les doigts. Cette approche fut d'emblée rejetée avec mépris par OpenAI et consorts, qui la considéraient comme une impasse sans conséquence, récompensant des illusions et des imitations, et elle s'est, comme prévu, essuyée un échec. Et après, le « RL » ? Quel RL, comment ça marche, quel est le générateur de signaux, et comment s'articule-t-il avec les tâches en aval ? Kimi-K2, une base de données de pointe et impeccable, est accessible à tous depuis plusieurs mois. DeepSeek-V3, depuis près d'un an. La version V2, depuis plus d'un an. Des dizaines de modèles de toutes tailles, régulièrement mis à jour avec un contexte plus étendu et d'autres améliorations. Et qu'avons-nous construit avec tout cela ? Tout ce qui ressemble de près ou de loin aux méthodes internes chinoises, sans parler des avancées contemporaines ? Allô ? Pouvez-vous me montrer ces dérivés ? C'est un véritable sacrilège pour l'idée de science ouverte. Et même les Chinois ne s'en donnent pas la peine : ils entraînent tous leurs propres modèles de zéro. Je peux citer quelques rares exceptions (comme Rednote et DSV3-VL), mais aucune n'a fait sensation. Les startups valorisées à des milliards, dont l'avantage concurrentiel repose sur la recherche ou la programmation automatisée et donc sur de vastes ensembles de données post-entraînement, utilisent subrepticement DS/GLM/Qwen dans leurs produits propriétaires, mais elles ne partagent pas leurs données alpha. C'est… à peu près tout. Voici Prime Intellect. Ils résolvent les problèmes de formation et de génération d'environnements. Ils réfléchissent de manière rigoureuse aux signaux qui façonnent la cognition des modèles généraux. En réalité, ils libèrent l'immense potentiel inexploité accumulé. Pour le monde, c'est bien plus qu'un simple modèle parmi tant d'autres. Ils sont incroyablement brillants, leurs intentions sont louables, leur stratégie est solide et ce sont des amis. Je ne tolérerai pas qu'on dénigre leur travail, car il contribue à l'intérêt général. Si vous ne le voyez pas, vous n'avez aucune idée de ce qui est vraiment important à ce stade.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.