不知道中美大模型差距現在如何了,前幾年普遍覺得代差在1-2年。 現在感覺半年多? 例如,最熱的大模型榜單LMArena,去年國產模型基本上處於"能上榜就不錯"的階段,今年已經開始和Claude、GPT 這些站一起比了。 看了競爭最激烈的文本榜,百度ERNIE-5.0-Preview-1203 竟然進了LMArena 文本榜前10,國產大模型第一。 依照LMArena的評論,這次提分主要在創意寫作和複雜指令理解。 這兩個一般最貼近真實使用場景,也是最容易翻車的部分,不知道百度怎麼優化的。 其實百度工程能力一直不弱,感覺現在才開始慢慢發力。 聽說正式版1月上線,到時候實際測測,看看是不是真的能打。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。

