Gemini 3は本当にそんなに強力なのか?ある歴史家が、Gemini 3 Proの歴史文書解読能力をテストした。 彼は、これまでモデルでは不可能だった歴史文書を解読し、推論することができます。正直なところ、これらの写本に書かれた文字は、研究と訓練なしには全く認識できません。 これまで見たことのない複雑な手書きの表を認識する点では、ジェミニ 3 は訓練を受けた学生よりも優れた成績を収めました。 LLMの「予測的」な性質により、非標準的な綴り、名前、地名、日付、金額といった発生確率の低い要素においてエラーが発生しやすくなります。さらに、歴史的ファイルにおける句読点、大文字表記、長音記号(ſ)、測定単位などは、非常に曖昧です。 著者らは、さまざまな書き方と画像条件を網羅した、合計約 10,000 語の英語の学術手書きサンプル 50 件をテストし、CER/WER を評価しました。 Gemini-2.5-Pro では、厳密なスコアリングでは CER が約 4%、WER が 11% になります。句読点や大文字の誤りを除外すると、CER は 2%、WER は 4% に低下し、専門家による人間のスコアに近くなります。 いくつかの曖昧な用語を除外した結果、新モデル(Gemini 3)はCERを0.56%、WERを1.22%に低減し、「人間の専門家レベル」に近づいたか、それに到達しました。これは、Gemini-2.5-Proと比較して50~70%の改善に相当します。 著者は、これは一部の専門家が長い間現在のモデルでは克服不可能だと考えてきた境界線を超えているようだと述べている。 曖昧な数字に直面すると、欠落している文脈を推測し、歴史的な通貨と重量体系の間で多段階にわたる変換を行い、文書に記述された世界についての抽象的な推論を必要とする正しい結論に到達します。言い換えれば、明示的に定義されたことのない記号を使用できるかのように動作します。 起こっているように見えるのは、統計モデル内での知覚、記憶、論理の自発的な組み合わせという、新しい暗黙の推論形式です。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。



