X (Twitter)

昨日、早期アクセス版のGemini 3をプレイしました。いくつか感想を述べます。まず、公開ベンチマークについては、かなりゲーム化されやすいと個人的には思うので、常に注意を促しています。重要なのは、チーム（チームには、ドキュメント埋め込み空間におけるテストセットの隣接データに複雑な操作を施してテストセットを過剰適合させないように、強いインセンティブを与えられている）の規律と自制心です。現実的に言えば、他の誰もがそうしているので、そうすべきというプレッシャーは大きいです。モデルに話しかけてみてください。他のモデルにも話しかけてみてください（LLMサイクルに乗る - 毎日違うLLMを使う）。昨日、人柄、ライティング、バイブコーディング、ユーモアなど、あらゆる面で良い印象を受けました。毎日使えるポテンシャルが非常に高く、間違いなくTier 1のLLMです。チームの皆さん、おめでとうございます！今後数日/数週間、私は、多くの人/組織が自分たちで構築し、時折ここで報告しているプライベート評価のアンサンブルに最も興味を持ち、注目しています。

Andrej Karpathy（@karpathy）のスレッド

作者情報

スレッド内容