所以,我昨天在 Opus 4.5 和 Codex 5.2 上尝试了这些提示。 以下是我的结论(附收据): 1. 我昨天给出的指令定义不清。我当时很不耐烦,也很懒,对模型态度很差,基本上是希望 Opus 能读懂我的心思。我没有任何证据表明模型的性能有所下降。 2. 在耐心清理提示信息后,两个模型都成功完成了这项(难度极高的)任务。它们顺利通过了初始测试,耗时相同(约30分钟/约15万个令牌),而且后续提出的问题几乎完全一致。(!) 3. GPT 5.2 在最关键的地方生成了更优秀的代码。Opus 4.5 在计算布鲁因指数时出现了错误,这是一个严重的逻辑错误,后来不得不进行修复。它还毫无必要地重复了一个庞大的函数。GPT 5.2 正确地解决了这些问题,并且更加谨慎地处理了 Opus 4.5 难以处理的边缘情况。 我会在评论中分享日志,其中包括: - 初始提示 - 完整聊天记录 最终结果 研究一下我是如何构建这个提示的或许会有帮助,因为这确实是一项艰巨的任务,而人工智能最终成功地完成了它。我必须非常精确地处理一些细节,这些细节昨天让 Opus 感到困惑,现在我会把这些内容添加到文档中。教训是:人工智能是一个很棒的工具,但它们仍然受限于*你*。如果你的指令不够好,它们肯定会失败。 最后,我必须坦白:如果我手动编写代码,只需要几个小时,而不是两天。这次人工智能完全是赔本买卖。 还有:你们都太在意我的话了,我觉得我的帖子给大家带来了不必要的麻烦。请不要这样。
聊天记录和结果: https://t.co/VvtOkovKTY