そこで、昨日のプロンプトを Opus 4.5 と Codex 5.2 で試してみました。 以下は私の結論です(領収書を含む)。 1. 昨日の私のプロンプトは定義が曖昧でした。私はせっかちで、怠け者で、モデルに対して意地悪で、Opusが私の心を読んでくれると期待していました。モデルのパフォーマンスが低下したという証拠はありません。 2. プロンプトを辛抱強くクリーンアップした後、両方のモデルがこの(モンスター級の)タスクを成功させました。最初のテストを完璧にクリアし、同じ時間(約30分 / 約15万トークン)を費やし、どういうわけかほぼ同じフォローアップ質問をしました。(!) 3. GPT 5.2は、最も重要な部分でより良いコードを生成しました。Opus 4.5はBruijn Indexの計算に誤りがあり、これは後に修正する必要があった重大な論理エラーでした。また、理由もなく大規模な関数を重複させていました。GPT 5.2はこれらの誤りを修正し、Opusの理解を越えるエッジケースに対してより慎重な対応を行いました。 以下のログをコメントで共有します: - 最初のプロンプト - チャット全文 - 最終結果 このプロンプトをどのように構築したかを調べてみると役に立つかもしれません。というのも、これは大変な作業でしたが、AIによって(ようやく)うまく実装されました。昨日Opusを混乱させた特定の詳細について、非常に正確に記述する必要がありました。これらの点については、これからドキュメントに移します。教訓は、AIは優れたツールですが、それでも限界があるということです。指示が不十分だと、AIは必ず失敗します。 最後に正直に言います。もしこれを手作業でコーディングしていたら、2日どころか数時間で済んでいたでしょう。今回はAIが純損失でした。 それと、皆さんは私の発言を過度に重視しすぎていて、私の投稿が不必要なトラブルを引き起こしているように感じています。どうかそんなことはしないでください。
チャットログと結果: https://t.co/VvtOkovKTY