跟大模型對話的時候用波蘭語比用英語都有效? 來看這篇神奇的論文,論文為了研究哪種語言與大模型對話最有效,於是搞了一個框架-ONERULER。來評估多語言情況下,長上下文語言模型的能力。 測驗涵蓋了26 種語言、6 個主流模型、4 種上下文長度(8k-128k tokens)。 直接來看結果: 首先測試得出結論:模型性能隨上下文長度顯著下降,這個也是大家都知道了,首先大模型隨著上下文長度增長,召回能力也在變差,所以這個結論很正常 其次發現了:高資源語言(如英語、法語等,語料比較多的語言)在所有上下文長度上都保持較高準確率,而低資源語言(如斯瓦希里語、泰米爾語)在長上下文中表現急劇下降 重磅的來了:英語不是最佳語言,波蘭語排名第一,在所有任務中,波蘭語準確率88.0% ,而英語是83.9%,排在第六,中文只有62.1%,排在倒數第4。儘管英語和中文在大多數模型的預訓練資料中占主導地位,但在長上下文任務中並不突出。 論文也研究了為什麼會不好: 一個可能是對應語言的維基百科規模與表現有相關性(但看似不全是這個問題) 還有可能是書寫系統可能有影響(拉丁/西里爾字母vs 表意文字) 最後中文錯誤主要是因為模型經常錯誤地選擇回答"none"(特別是Qwen,文中用的是Qwen2.5-72B.....我懷疑其實是召回本身出了問題,而不是中文訓練效果不好) 不過整體而言,這篇論文還是有點落後於時代了(今年3月提交的),還在用Qwen2.5研究,現在來看可能Qwen4沒準都在訓練了。 以及,說一個重點,現在的文生圖/文生視頻模型真的最好還是用英語,這些模型為了追求模型總體參數量小,他們的文本嵌入/理解部分基本都是只用英語訓練的,因此prompt 用純英語效果最好,用中文效果會差很多。 論文精讀往期合集: https://t.co/5GVuFR0tEq 線上閱讀:
論文解讀:

