大きなモデルと会話する場合、英語よりもポーランド語の方が効果的ですか? この素晴らしい論文を見てみましょう。大規模モデルとの対話に最も効果的な言語を調査するために、彼らはONERULERと呼ばれるフレームワークを開発し、多言語シナリオにおける長文脈言語モデルの能力を評価しました。 テストは 26 の言語、6 つの主流モデル、4 つのコンテキスト長 (8k-128k トークン) を対象としました。 結果を直接見てみましょう: 初期テストの結果では、コンテキスト長の増加に伴いモデルのパフォーマンスが大幅に低下することが示されています。これは周知の事実です。大規模なモデルでは、コンテキスト長の増加に伴いリコールが低下する傾向があるため、この結論は極めて妥当なものです。 第二に、高リソース言語(英語やフランス語など、コーパスが多い言語)はすべてのコンテキストの長さにわたって高い精度を維持しましたが、低リソース言語(スワヒリ語やタミル語など)は長いコンテキストにわたってパフォーマンスが急激に低下することがわかりました。 大きなニュースがあります。英語は最高の言語ではありません。ポーランド語が全タスクで88.0%の精度を達成して1位にランクインしているのに対し、英語は83.9%で6位です。中国語はわずか62.1%で、下から4番目です。ほとんどのモデルの事前学習データでは英語と中国語が優勢ですが、長文タスクでは目立った成績を残していません。 この論文では、それがなぜ悪いのかも調査した。 1 つの可能性としては、対応する言語の Wikipedia エントリのサイズがパフォーマンスに関係しているということが挙げられます (ただし、これがすべてではないようです)。 もうひとつの可能性としては、表記体系(ラテン文字/キリル文字 vs. 表意文字)が役割を果たした可能性があるということです。 最後に、中国語のエラーは、主にモデルが誤った回答として「なし」を頻繁に選択したことが原因でした(特に、記事では Qwen2.5-72B として使用されている Qwen の場合...問題は実際には中国語のトレーニング パフォーマンスが低いのではなく、リコール自体にあると思われます)。 しかし、全体的に見て、この論文はやや古く(今年3月に提出された)、研究には依然としてQwen2.5が使用されています。現在では、Qwen4が既にトレーニング中である可能性があります。 重要な点として、現在のテキスト画像変換/テキスト動画変換モデルは、依然として英語で学習するのが最適です。パラメータの総数を少なく抑えるため、これらのモデルは基本的に、テキスト埋め込み/理解部分のみを英語で学習しています。そのため、プロンプトは純粋な英語で最も効果的に機能し、中国語を使用すると結果ははるかに悪くなります。 過去問集(詳細読解用): https://t.co/5GVuFR0tEq オンラインで読む:
論文の解釈:

