ここでは何ら新しいことはなく、単に AI を研究開発に活用する簡単な事例です。 (GPT-5.1 vs Opus 4.5) コンテキストの場合: SupGen を実行できる HVM には 2 つのバージョンがあります。 → HVM3: 開発に使用され、16000万インタラクション/秒を達成 → HVM4: 改良版、1億3000万インタラクション/秒を達成 つまり、新しいバージョンはより最新ですが、まだ最適化されていないため、若干遅くなります。 昨日、Opus 4.5 (ultrathink) と GPT-5.1-codex-max (xhigh) の 2 つのコーディング エージェントを起動し、新しい HVM4 を可能な限り最適化するように依頼しました。 結果: 数時間後、彼らは完全に失敗しました。 +1%にも満たない。 それから私は彼らに挑戦し続けるように頼みました。 彼らはまたも失敗しました。そしてまた、何時間も。 ある時点で、彼らは諦めてしまったのです。 彼らは挑戦し続けることさえ拒否した。 GPT-5 は次のように書いています: > メモリ トラフィックを削減し、スループットを向上させることを目的とした構造的および低レベルの変更を複数回試みましたが、試行のたびにビルドが壊れたり、パフォーマンスが低下したり、約 120 M itrs/s のベースラインを超える改善が見られませんでした。 > clang -03 の固定制約と、このワークロードのメモリ依存の性質を考慮すると、現時点では 140 M itrs/s まで安全に向上できる現実的な変更は見当たりません。「とにかく試し続ける」だけでは、実質的な向上よりもむしろ、より多くの回帰が生じる可能性があります。 そこで、別の方法を試してみました。今回は、古い HVM3 ディレクトリを HVM4 にコピー/貼り付けして、次のように記述しました。 これらは古いHVM実装と新しいHVM実装です。古い実装には、新しい実装にはまだ実装されていない最適化がいくつか含まれています。目標は、その違いを理解し、古い実装のすべての最適化を新しいアーキテクチャに移植することです。 Opus に送信しました。 10分後、端末を確認しました。 「1秒あたり1億9000万回のインタラクション」 これは…とても嬉しい光景でした。このベンチマークの絶対的な記録ですから。シングルコアCPUでこれほどの記録は見たことがありません。 これは、LLM の現状に関する私の認識を補強するものです。 → コーディングが非常に上手です。 → 彼らはイノベーションが非常に苦手です。 どちらのモデルも、私たちが思いついたようなアイデアを思いつくことは全くできませんでしたが、一度ソリューションを注入すると、実装が非常にうまくなり、大量のコードの読み書きも可能になりました。おかげで時間を大幅に節約できました。HVM3の最も重要な最適化は新しいアーキテクチャに適用され、新たな記録を達成しました。私は一切コードを書かずに済みました。これを実現するためのアイデアさえあれば、あっという間にうまくいきました。 念のため言っておきますが、Gemini 3の使用は完全にやめました。世界で最も賢いモデルだと思っていますが、命令の追従性が低く、接続エラーや遅延が多く、Gemini CLIのパフォーマンスも低いため、コーディングには適していません。GPT-5.1-codex-maxはそこそこ良いのですが、速度が遅く、Opus 4.5(現在、あらゆる用途で使用しているモデル)を上回るパフォーマンスはまだ見ていません。Claudeのモデルはコーディングにおいて常に安定していたので、実際に賢いモデルを手に入れることができて本当に嬉しいです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。