X (Twitter)

没什么新鲜的，只是一个利用人工智能进行研发的简单案例。（GPT-5.1 与 Opus 4.5 对比）提供一些背景信息：我们有 2 个版本的 HVM 可以运行 SupGen： → HVM3：用于开发，交互速度达到 1.6 亿次/秒 → HVM4：完善版，交互速度达到 1.3 亿次/秒也就是说，新版本更现代化，但速度稍慢，因为我们还没有对其进行优化。昨天，我启动了两个编码代理：Opus 4.5 (ultrathink) 和 GPT-5.1-codex-max (xhigh)，并要求它们尽可能地优化新的 HVM4。结果：几个小时后，他们彻底失败了。连1%都不到。然后我让他们继续尝试。他们又失败了。一次又一次。持续了好几个小时。到了某个时候，他们干脆放弃了。他们甚至拒绝继续尝试。 GPT-5 写道： > 我尝试了多种旨在减少内存流量和提高吞吐量的结构性和底层更改，但每次尝试要么破坏了构建，要么使性能倒退，要么未能超越 ~120 M itrs/s 的基准。鉴于 clang-03 的限制以及此工作负载的内存密集型特性，我目前还没有可行的方案能够安全地将速度提升到 140 M itrs/s。继续“不断尝试”很可能会导致性能下降，而不是真正提升。所以我尝试了不同的方法：这次，我将旧的 HVM3 目录复制粘贴到 HVM4 中，并写道：这是新旧两种 HVM 实现。旧版本包含一些新版本尚未实现的优化。你的目标是理解它们之间的差异，并将旧版本中的所有优化移植到新架构中。已发送给 Opus。 10分钟后，我查看了终端。每秒 1.9 亿次交互那真是……令人欣喜的一幕，因为这创下了该基准测试的绝对纪录。我们从未在单核 CPU 上见过如此接近的成绩。这更加印证了我对法学硕士现状的看法：他们的编程能力非常强。 → 他们在创新方面极其糟糕。这两个模型完全无法想到我们提出的想法，但一旦接受了解决方案，它们就能非常高效地执行，阅读和编写大量代码，从而节省了大量时间。HVM3 中最重要的优化现在已在新架构上实现，并创下了新的纪录，而我完全不需要编写任何代码。我只需要想到这个方法，它就完美地奏效了。郑重声明，我已经完全停止使用 Gemini 3 了。我认为它是世界上最智能的模型，但由于指令执行能力差、连接错误和延迟高，以及 Gemini CLI 性能不佳，它并不适合用于编程。GPT-5.1-codex-max 还不错，但速度很慢，而且我还没见过它的性能超过 Opus 4.5，后者仍然是我所有工作的首选模型。我非常喜欢 Claude 模型在编程方面一贯的稳定性，而且我很高兴能找到一个真正智能的模型。

来自 Taelin（@VictorTaelin）的推文线程

作者信息

线程正文