X (Twitter)

不知道中美大模型差距現在如何了，前幾年普遍覺得代差在1-2年。現在感覺半年多？例如，最熱的大模型榜單LMArena，去年國產模型基本上處於"能上榜就不錯"的階段，今年已經開始和Claude、GPT 這些站一起比了。看了競爭最激烈的文本榜，百度ERNIE-5.0-Preview-1203 竟然進了LMArena 文本榜前10，國產大模型第一。依照LMArena的評論，這次提分主要在創意寫作和複雜指令理解。這兩個一般最貼近真實使用場景，也是最容易翻車的部分，不知道百度怎麼優化的。其實百度工程能力一直不弱，感覺現在才開始慢慢發力。聽說正式版1月上線，到時候實際測測，看看是不是真的能打。

来自向阳乔木（@vista8）的推文线程

作者信息

线程正文