LMArena 排名更新,文心大模型5.0-Preview走到前台 LMArena這麼火,但過去我們已經習慣看中文大模型的“追趕節奏”,這件事情其實一直被人詬病。 這次LMArena排行榜更新,反而值得停下來拆拆這個局面。國產模型從定向訓練名單的補課者,開始大規模正面進入競技場。 百度最新的ERNIE-5.0-Preview-1022 在LMArena Text 排行榜上全球並列第二、國內最佳,超過GPT-5-High、Claude-Opus-4.1、GPT-4o 等多個頂級模型。 跟以往的秀參數不同,這次是在盲評投票機制下的對抗。
LMArena 的機制很簡單:使用者面對兩段匿名模型輸出,只以觀感、流暢度、完成度做出選擇。 某種程度上比常規benchmark 更貼近真實使用情境。 這次文心的考試結果,在三個方面得分很高:創意寫作第一,複雜長問題理解穩定領先,指令遵循能力:進入一線梯隊。這三個維度,恰好組成了一個agent-ready 語言模型最核心的三角形結構。 特別是創意寫作這個點,這其實是最不容易欺騙的維度,它考的是語言建模是否真的貼近人類思維節奏,能不能寫出不油膩,有節奏感的段落。 這次我看到的文心不一樣的點就在能用中文表達出輕盈克制,並且不空洞的內容。這種能力其實有點稀缺, 更關鍵的是這還只是Preview,正式版本會在下週百度世界大會上亮相。現在看到的能力,還只是可控洩漏版本。
從首次亮相到現在,文心其實經歷了幾個關鍵轉折點。 每一代的升級,都沒有大規模的吹噓參數量、排行榜,默默的在B 端市場讓語言模型成為一個具備判斷力的系統入口。 這次上榜更像是在驗證一個階段性假設,誰能以人的方式組織任務。 文心大模型5.0-Preview 在創作感/執行精準度/理解複雜任務結構這幾個點上出現了它自己的策略感。 我從這次榜單看到的是一個國產模型,在不強調民族主義敘事、不靠宣傳強度的前提下,站上了對比場的上位區間。 語言的本質是世界觀的映射。 大模型的能力邊界,其實是對話世界的方式邊界。 下週百度世界,再看正式版落地的系統能力表現,才是真正的對話開始。


