ジェミニ3号に関する私のメモ # 短縮版: まず最初に、皆さんはベンチマークをご覧になったと思いますので、私がこの結果を判断する必要はないと思います。とはいえ、私のテストに基づくと、これがまさに現実であり、ぜひお話ししたいと思います。このモデルは、私が最も難しい問題において、GPT-5 Pro、Gemini 2.5 Deep Think、そしてその他すべてのモデルをはるかに上回るパフォーマンスを発揮しました。 新しい SOTA は次のとおりです: → 複雑なコンパイラのバグをデバッグする → 論理的な間違いのないファイルのリファクタリング → 難しいλ計算問題を解く →アスキーアート(ほぼまともになりました!) → 競争力のある第 3 世代 OU (詳細は説明しません 😭) それでも、これはLLMです。同様の障害モードがあり、シナリオによってはSonnet / GPT-5よりも劣ります。 以下の点が非常に悪いようです: → 意図を推測する → やり過ぎない → ワンショットバイブコーディング → クリエイティブライティング → 健康に関する質問 また、このチェックポイントは Google が提供している最高のものではないのではないかと思います。 さて、次は手動で入力した完全な Gemini 3 の概要に進みます。 --- # ロングバージョン 1. バイブテスト:λ計算プログラミング このバイブテストが気に入っているのは、それがカンニング防止だからです。モデルが最も難しい問題を解決するとすぐに、ゴールポストを少しだけ移動させて、より難しい問題を作成します。 現在の実績: → n-tuple-map: Grok 3 によって解決 (2025年2月) → n-tuple-fold: GPT-5によって解決(2025年8月) → n-tuple-rotl: Gemini 3 によって解決されました (今日!) rotl の実装が印象的である理由は次のとおりです。 → 他のモデルではこの問題の解決に近づくことすらできない → ジェミニの解決策は私の解決策の2倍シンプルです → ジェミニ3は私より5倍速く解決しました 実際、その解答は非常に短く、1 行に収まります。 λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) 素敵でしょう?この小さな関数は、λエンコードされたタプルの汎用回転子です。比較のために言うと、他のモデルはすべて5倍の大きさの項を生成しますが…これはうまくいきません。他には、そのようなものを生成するものはありません。この答えは、私にとってまさに衝撃的な瞬間でした。 プロンプトと実行可能なソリューションを記載した Gist を投稿します。 2. 実際のデバッグ 数週間前、HVM4の難問に陥ってしまいました。その件について、AIでは解決できないと嘆きながら、こちらに投稿しました。ところが、なんとAIが解決してくれたのです。誰かがLMSysを使って古いチェックポイントで私のプロンプトを実行してくれたところ、特定の最適化におけるスタックアンダーフローという問題が正確に解決されました。解決策は簡単でした。`WNF_SPOS < 0` を `WNF_SPOS < spos` に置き換えるだけでした。 これは、私が自分で解決する前に AI が実際の問題を解決した初めてのケースであり、そのおかげで次のことに進むことができ、大きな進歩につながりました。 Gemini 3を多くの古いデバッグプロンプトでテストしたところ、半分は解決しました。私が何時間もかかっていたバグが、今ではコンピューターで1分で解決できます! さて、残念なことに、スタックアンダーフローの問題を本日発売されたGemini 3モデルに送信しましたが、原因を特定できませんでした。つまり、このモデルはGoogleが提供している中で最もスマートなモデルではないか、あるいはその日は私が本当に幸運だったかのどちらかです。): 3. 実際のコーディング/リファクタリング このモデルは、大きなファイルを間違いなく書き込むのに最適です。 例えば、いくつかのAIにHVM4.hsのコア部分にいくつかの変更を加えて書き直してもらいました。そして、最も扱いにくい関数を検査しました。予想通り、すべてのモデルが重大なバグにつながる重要な詳細部分で失敗していました。ただし、Gemini 3だけはそれをうまく処理できました。 これは私にとって特に励みになります。なぜなら、モデルは線形性といったニッチな制約に苦しみ、HVMのコア機能には使えなかったからです。Gemini 3はこの点で非常に優れているようです。 (下の画像のコード) 4. 問題点と癖 Gemini 3でWebアプリをワンショットで実行してみたところ、結果は芳しくありませんでした。GPT-5.1 (高) では、要求されたすべての機能とバグのない完全なファイルが返されました。Gemini 3では、3分の1のサイズのファイルが返されましたが、多くの機能が欠落しており、バグも多数ありました。Gemini 3では、GPT-5.1ほど優れたワンショットのファイルは生成できませんでした。 髄膜炎になる前の状態も送ってみたのですが、髄膜炎は完全に無視されました(💀)。健康上の問題に関しては、信頼できるかどうかわかりません。 物語を書いてもらったんだけど、出来が悪かった。言い訳はできない。 多くの場合、穴をパッチするだけでなく、やり過ぎてファイル全体を書き込むことになります。 直接呼び出すとはるかに高速ですが、Gemini CLI の GPT-5 (高) よりも遅いようです。 最後に、おかしなことに、コンテキストが要求する時に誤ったコードを生成するのに苦労します。例えば、型に汎用の「Show」インスタンスがあり、カスタムインスタンスを生成するように指示した場合、技術的にはエラーになるため、しばしば苦労します。古いインスタンスを後で削除するだけであることを理解できないのです。 5. 結論 もう十分だ、さようなら
The n-tuple-rotl problem: gist.github.com/VictorTaelin/1… The HVM4 bug from a few weeks ago: gist.github.com/VictorTaelin/a… The correct answer is: - problem: `stack underflow` - solution: `WNF_SPOS > spos` It was solved by lithiumflow, but not Gemini 3 :( Can any public model solve it?
もちろん初日なので、特にテストが少なかった部分については、あまり鵜呑みにしないでください。クリエイティブライティングや健康にも効果があると言っている人もいます。もしかしたらそうかもしれませんね?ただし、意図を推測する問題は100%現実です!
