X (Twitter)

LMArena 排名更新，文心大模型5.0-Preview走到前台 LMArena這麼火，但過去我們已經習慣看中文大模型的“追趕節奏”，這件事情其實一直被人詬病。這次LMArena排行榜更新，反而值得停下來拆拆這個局面。國產模型從定向訓練名單的補課者，開始大規模正面進入競技場。百度最新的ERNIE-5.0-Preview-1022 在LMArena Text 排行榜上全球並列第二、國內最佳，超過GPT-5-High、Claude-Opus-4.1、GPT-4o 等多個頂級模型。跟以往的秀參數不同，這次是在盲評投票機制下的對抗。

LMArena 的機制很簡單：使用者面對兩段匿名模型輸出，只以觀感、流暢度、完成度做出選擇。某種程度上比常規benchmark 更貼近真實使用情境。這次文心的考試結果，在三個方面得分很高：創意寫作第一，複雜長問題理解穩定領先，指令遵循能力：進入一線梯隊。這三個維度，恰好組成了一個agent-ready 語言模型最核心的三角形結構。特別是創意寫作這個點，這其實是最不容易欺騙的維度，它考的是語言建模是否真的貼近人類思維節奏，能不能寫出不油膩，有節奏感的段落。這次我看到的文心不一樣的點就在能用中文表達出輕盈克制，並且不空洞的內容。這種能力其實有點稀缺，更關鍵的是這還只是Preview，正式版本會在下週百度世界大會上亮相。現在看到的能力，還只是可控洩漏版本。

從首次亮相到現在，文心其實經歷了幾個關鍵轉折點。每一代的升級，都沒有大規模的吹噓參數量、排行榜，默默的在B 端市場讓語言模型成為一個具備判斷力的系統入口。這次上榜更像是在驗證一個階段性假設，誰能以人的方式組織任務。文心大模型5.0-Preview 在創作感/執行精準度/理解複雜任務結構這幾個點上出現了它自己的策略感。我從這次榜單看到的是一個國產模型，在不強調民族主義敘事、不靠宣傳強度的前提下，站上了對比場的上位區間。語言的本質是世界觀的映射。大模型的能力邊界，其實是對話世界的方式邊界。下週百度世界，再看正式版落地的系統能力表現，才是真正的對話開始。

来自凡人小北（@frxiaobei）的推文线程

作者信息

线程正文