「GPT‑5.1-Codex-Maxは24時間以上タスクに取り組みます。」 フロンティア AI ラボがこのような主張をする場合、実際のタスクは何だったのか、モデルが何を生成したのかを共有していただけますか? なぜなら、私の怠け者のインターン生も 24 時間働いて 10 行のコードを出荷できるからです。
さて、これは興味深い指標です。 「OpenAI のエンジニアの 95% が毎週 Codex を使用しており、Codex を導入してからこれらのエンジニアが出荷するプル リクエストが約 70% 増加しています。」 残りの 5% のエンジニアはなぜ Codex を使用しないのでしょうか?

