昨日、早期アクセス版のGemini 3をプレイしました。いくつか感想を述べます。 まず、公開ベンチマークについては、かなりゲーム化されやすいと個人的には思うので、常に注意を促しています。重要なのは、チーム(チームには、ドキュメント埋め込み空間におけるテストセットの隣接データに複雑な操作を施してテストセットを過剰適合させないように、強いインセンティブを与えられている)の規律と自制心です。現実的に言えば、他の誰もがそうしているので、そうすべきというプレッシャーは大きいです。 モデルに話しかけてみてください。他のモデルにも話しかけてみてください(LLMサイクルに乗る - 毎日違うLLMを使う)。昨日、人柄、ライティング、バイブコーディング、ユーモアなど、あらゆる面で良い印象を受けました。毎日使えるポテンシャルが非常に高く、間違いなくTier 1のLLMです。チームの皆さん、おめでとうございます! 今後数日/数週間、私は、多くの人/組織が自分たちで構築し、時折ここで報告しているプライベート評価のアンサンブルに最も興味を持ち、注目しています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。