Huawei vient de sortir un nouveau modèle, le Pangu Ultra-MoE-718B-V1.1 ! Le modèle comporte 718 octets de paramètres et 39 octets de paramètres activés. Sa principale caractéristique est sa capacité à effectuer des inférences à l'aide d'un GPU Atlas 800T A2 doté d'un VLLM modifié. L'Atlas 800T A2 disposant de 64 Go de VRAM, au moins 32 GPU sont nécessaires pour exécuter ce modèle correctement. Côté performances, son score en calcul sur AIME 25 est de 77,50 %, similaire aux 78,3 % de Gemini 2.5 Flash. Je ne suis pas entièrement convaincu par les autres résultats de tests, notamment ceux de LiveCodeBench. (Attention, je ne dis pas que les scores des modèles sont erronés, mais je pense que le classement de LiveCodeBench est problématique. Il place le GPT-OSS-120B en tête, mais quand j'écris du code avec, c'est un miracle qu'il ne détruise pas mon répertoire local. Sans parler du fait que son contexte n'est que de 4 Ko, ce qui ne suffit même pas pour le premier chapitre de Harry Potter à l'école des sorciers, qui fait 20 Ko… Imaginez : Dumbledore rencontre McGonagall à Privet Drive, et Harry n'a même pas eu le temps de dire un mot que le modèle était déjà trop gros pour tout contenir !) Je ne vais pas le tester pour vous. Je ne trouve aucun fournisseur de services pour déployer ce modèle, et j'ai la flemme de transférer un modèle de 1,5 To pour le tester en local… La vitesse de génération de jetons de mon appareil est estimée à 0,02 par seconde…
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
