X (Twitter)

我问 @echen 为什么 Claude 的模型写代码（和编写代码）比其他模型好那么多。他的回答是：训练数据质量更高。 “大多数人根本不理解在这个领域里质量的含义。他们认为只要投入大量人手就能解决问题，就能得到好数据，这是完全错误的。” 我举个例子。假设你想训练一个模型来写一首关于月亮的八行诗。什么样的诗才算好诗呢？如果你不深入思考质量，你就会想，这是一首诗吗？它有八行吗？它有“月亮”这个词吗？你把这些都勾选了？那么，是的，当然，你会说这是一首很棒的诗。但这和我们想要的完全不同。我们想要的是能获得诺贝尔奖的诗歌。这样的诗歌是否独具特色？是否充满微妙的意象？是否让你感到惊喜，触动你的心弦？是否让你领略月光的本质？是否能引发你的情感共鸣，引人深思？这就是我们思考高质量诗歌时所想到的。

来自 Lenny Rachitsky（@lennysan）的推文线程

作者信息

线程正文