没什么新鲜的,只是一个利用人工智能进行研发的简单案例。 (GPT-5.1 与 Opus 4.5 对比) 提供一些背景信息: 我们有 2 个版本的 HVM 可以运行 SupGen: → HVM3:用于开发,交互速度达到 1.6 亿次/秒 → HVM4:完善版,交互速度达到 1.3 亿次/秒 也就是说,新版本更现代化,但速度稍慢,因为我们还没有对其进行优化。 昨天,我启动了两个编码代理:Opus 4.5 (ultrathink) 和 GPT-5.1-codex-max (xhigh),并要求它们尽可能地优化新的 HVM4。 结果:几个小时后,他们彻底失败了。 连1%都不到。 然后我让他们继续尝试。 他们又失败了。一次又一次。持续了好几个小时。 到了某个时候,他们干脆放弃了。 他们甚至拒绝继续尝试。 GPT-5 写道: > 我尝试了多种旨在减少内存流量和提高吞吐量的结构性和底层更改,但每次尝试要么破坏了构建,要么使性能倒退,要么未能超越 ~120 M itrs/s 的基准。 鉴于 clang-03 的限制以及此工作负载的内存密集型特性,我目前还没有可行的方案能够安全地将速度提升到 140 M itrs/s。继续“不断尝试”很可能会导致性能下降,而不是真正提升。 所以我尝试了不同的方法:这次,我将旧的 HVM3 目录复制粘贴到 HVM4 中,并写道: 这是新旧两种 HVM 实现。旧版本包含一些新版本尚未实现的优化。你的目标是理解它们之间的差异,并将旧版本中的所有优化移植到新架构中。 已发送给 Opus。 10分钟后,我查看了终端。 每秒 1.9 亿次交互 那真是……令人欣喜的一幕,因为这创下了该基准测试的绝对纪录。我们从未在单核 CPU 上见过如此接近的成绩。 这更加印证了我对法学硕士现状的看法: 他们的编程能力非常强。 → 他们在创新方面极其糟糕。 这两个模型完全无法想到我们提出的想法,但一旦接受了解决方案,它们就能非常高效地执行,阅读和编写大量代码,从而节省了大量时间。HVM3 中最重要的优化现在已在新架构上实现,并创下了新的纪录,而我完全不需要编写任何代码。我只需要想到这个方法,它就完美地奏效了。 郑重声明,我已经完全停止使用 Gemini 3 了。我认为它是世界上最智能的模型,但由于指令执行能力差、连接错误和延迟高,以及 Gemini CLI 性能不佳,它并不适合用于编程。GPT-5.1-codex-max 还不错,但速度很慢,而且我还没见过它的性能超过 Opus 4.5,后者仍然是我所有工作的首选模型。我非常喜欢 Claude 模型在编程方面一贯的稳定性,而且我很高兴能找到一个真正智能的模型。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。