X (Twitter)

我昨天通过抢先体验版试玩了《双子座3》。以下是一些感想—— 首先，我通常建议对公开的基准测试保持谨慎，因为我认为它们很容易被操纵。关键在于团队的纪律和自我约束（尽管他们往往受到强烈的激励），避免通过在文档嵌入空间中对测试集相邻数据进行复杂的操作来过度拟合测试集。实际上，由于其他人都在这样做，因此这样做的压力也很大。去和模型聊聊。也和其他模型聊聊（体验LLM循环——每天使用不同的LLM）。昨天我对这个模型的初步印象非常好，包括性格、写作、氛围编码、幽默感等等，非常有潜力成为日常使用的优秀LLM，显然是一流的LLM，祝贺团队！在接下来的几天/几周里，我最感兴趣的是寻找一个关于私人评估的集合，现在很多人/组织似乎都在为自己构建这样的集合，并且偶尔会在这里报告。

来自 Andrej Karpathy（@karpathy）的推文线程

作者信息

线程正文