我问 @echen 为什么 Claude 的模型写代码(和编写代码)比其他模型好那么多。他的回答是:训练数据质量更高。 “大多数人根本不理解在这个领域里质量的含义。他们认为只要投入大量人手就能解决问题,就能得到好数据,这是完全错误的。” 我举个例子。 假设你想训练一个模型来写一首关于月亮的八行诗。什么样的诗才算好诗呢? 如果你不深入思考质量,你就会想,这是一首诗吗?它有八行吗?它有“月亮”这个词吗?你把这些都勾选了?那么,是的,当然,你会说这是一首很棒的诗。 但这和我们想要的完全不同。我们想要的是能获得诺贝尔奖的诗歌。这样的诗歌是否独具特色?是否充满微妙的意象?是否让你感到惊喜,触动你的心弦?是否让你领略月光的本质?是否能引发你的情感共鸣,引人深思? 这就是我们思考高质量诗歌时所想到的。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。