Le classement LMArena a été mis à jour : le grand modèle 5.0-Preview de Wenxin est à l’honneur. LMArena est tellement populaire, mais nous nous sommes habitués à voir les mannequins chinoises « rattraper leur retard », ce qui est critiqué depuis longtemps. Cette mise à jour du classement LMARaena mérite qu'on s'y attarde. Les modèles de fabrication locale, auparavant relégués à l'entraînement complémentaire dans les classements, font désormais une entrée remarquée et directe dans la compétition. Le dernier modèle ERNIE-5.0-Preview-1022 de Baidu se classe deuxième au niveau mondial et premier en Chine sur le classement LMARana Text, surpassant plusieurs modèles de pointe tels que GPT-5-High, Claude-Opus-4.1 et GPT-4o. Contrairement aux affichages de paramètres précédents, il s'agit cette fois d'une compétition avec un système de vote à l'aveugle.
Le mécanisme de LMArena est simple : les utilisateurs sont confrontés à deux modèles anonymes et font un choix basé uniquement sur l'apparence, la fluidité et l'exhaustivité. À certains égards, il est plus proche des scénarios d'utilisation réels qu'un banc d'essai classique. Les résultats de cet examen Wenxin ont été excellents dans trois domaines : première place en expression écrite, maîtrise constante des questions complexes et longues, et capacité à suivre les instructions, les plaçant ainsi parmi les meilleurs. Ces trois dimensions constituent précisément la structure triangulaire centrale d’un modèle de langage opérationnel. Surtout en matière d'écriture créative, qui est en réalité la dimension la moins trompeuse, cela permet de vérifier si le modèle linguistique reflète véritablement le rythme de la pensée humaine et si l'on peut écrire des paragraphes qui ne soient pas monotones et qui aient un bon rythme. Ce qui m'a frappé chez Wenxin cette fois-ci, c'est sa capacité à exprimer en chinois un contenu à la fois léger, sobre et captivant. Ce genre de talent est en réalité assez rare. Plus important encore, il ne s'agit que d'un aperçu ; la version officielle sera dévoilée lors de la conférence mondiale de Baidu la semaine prochaine. Les fonctionnalités que nous voyons actuellement ne sont qu'une version préliminaire ayant fuité de manière contrôlée.
Depuis ses débuts, Wenxin a en réalité connu plusieurs tournants clés. Chaque génération de mises à jour ne s'est pas accompagnée de vantardises à grande échelle concernant le nombre de paramètres ou les listes de classement ; au contraire, elle a discrètement établi le modèle de langage comme un point d'entrée du système doté de capacités de jugement sur le marché B2B. Ce classement ressemble davantage à une validation d'une hypothèse à ce stade : qui est capable d'organiser les tâches de manière quasi humaine ? Le Wenxin Big Model 5.0-Preview démontre sa propre approche stratégique en termes de créativité, de précision d'exécution et de compréhension des structures de tâches complexes. Ce que je vois dans cette liste, c'est un modèle national qui s'est hissé au sommet du classement sans mettre l'accent sur les récits nationalistes ni s'appuyer sur l'intensité de la propagande. L'essence du langage est le reflet d'une vision du monde. Les capacités d'un modèle de grande taille correspondent en réalité aux limites de son interaction avec le monde. La semaine prochaine, lors de Baidu World, nous verrons comment la version officielle se comporte en termes de capacités système ; c'est là que le vrai dialogue commencera.


