X (Twitter)

所以，我昨天在 Opus 4.5 和 Codex 5.2 上尝试了这些提示。以下是我的结论（附收据）： 1. 我昨天给出的指令定义不清。我当时很不耐烦，也很懒，对模型态度很差，基本上是希望 Opus 能读懂我的心思。我没有任何证据表明模型的性能有所下降。 2. 在耐心清理提示信息后，两个模型都成功完成了这项（难度极高的）任务。它们顺利通过了初始测试，耗时相同（约30分钟/约15万个令牌），而且后续提出的问题几乎完全一致。(!) 3. GPT 5.2 在最关键的地方生成了更优秀的代码。Opus 4.5 在计算布鲁因指数时出现了错误，这是一个严重的逻辑错误，后来不得不进行修复。它还毫无必要地重复了一个庞大的函数。GPT 5.2 正确地解决了这些问题，并且更加谨慎地处理了 Opus 4.5 难以处理的边缘情况。我会在评论中分享日志，其中包括： - 初始提示 - 完整聊天记录最终结果研究一下我是如何构建这个提示的或许会有帮助，因为这确实是一项艰巨的任务，而人工智能最终成功地完成了它。我必须非常精确地处理一些细节，这些细节昨天让 Opus 感到困惑，现在我会把这些内容添加到文档中。教训是：人工智能是一个很棒的工具，但它们仍然受限于*你*。如果你的指令不够好，它们肯定会失败。最后，我必须坦白：如果我手动编写代码，只需要几个小时，而不是两天。这次人工智能完全是赔本买卖。还有：你们都太在意我的话了，我觉得我的帖子给大家带来了不必要的麻烦。请不要这样。

聊天记录和结果： https://t.co/VvtOkovKTY

来自 Taelin（@VictorTaelin）的推文线程

作者信息

线程正文