X (Twitter)

恕我直言，真正的高手在于反其道而行之。Frontier Labs唯一做对的只有基准测试和功能开发的时间表——也就是他们能够掌控的事情。但这两项并没有像他们预测的那样产生广泛的影响。

值得思考的是，为什么他们在所有无法直接掌控的事情上都犯了错。多年来，我听过无数内部人士（其中许多人我都很喜欢）激动人心的预测，但这些预测最终都与事实完全不符，哪怕是一点点都没有。

所有现有证据，包括我亲身使用模型的经验，都表明实验室对自己提供的模型过于自信，你应该忽略任何没有积极尝试将LLM应用于企业软件的实验室。我知道这听起来像是在为自己辩解……

……但是，忽略基准数据、激动人心的内部预测以及播客/帖子炒作，比认真对待这些东西要好得多。

说真的，你到底要看多少次社交媒体上因为“草莓”或者“我刚看到一个东西，我们就要快速起飞了”之类的消息而疯狂，然后一年后又是同样的恐慌，而现实世界的进展却非常缓慢而稳定，你还要继续相信这些炒作吗？

B2B市场告诉你，这些大多是假的，我们还有很长的路要走。我知道那些前沿实验室的说法不一样，但当然，在“给我激励，我就能给你结果”的原则下，他们肯定会这么说。

（我已经说了两年同样的话，但基本上没人理会，而那些“我用了，但社会还没准备好接受它”的人却一直在这样做，而且还得到了关注，所以我应该在2026年就放弃，让大家都能享受其中的乐趣。）

记录在案：

我认为 Frontier Labs 预测他们发布的数字会不断上升并向右发展——他们利用每一个 IQ 点和 GPU 周期来达到这些数字——这是理所当然的，而与真正的商业和社会价值之间的联系则要复杂得多。

来自 Jon Stokes（@jon_stokes）的推文线程