X (Twitter)

我*错了*——有人索赔 1 万美元！## 声明两天前，我自信地声称“GPT 永远无法解决 A::B 问题”。我认为：1. GPT 无法真正学习训练集之外的新问题，2. GPT 无法执行长期推理，无论它多么简单。我认为这两者对于发明新科学都是必要的；毕竟，有些数学问题需要数年时间才能解决。如果你在任何给定的智力任务中都无法击败 15 岁的人，你就无法证明黎曼假设。为了隔离这些问题并提出我的观点，我设计了 A::B 问题，并将其发布在这里——完整定义在引用的推文中。## 接收、澄清和挑战发布后不久，一些用户提供了我列出的特定 7 个令牌示例的解决方案。我很快指出这不是我的意思；这个例子仅仅是说明性的，回答一个实例并不等同于解决一个问题（并且可以通过提示操纵轻易作弊）。因此，为了使我的声明更清晰，也为了兑现我的诺言，我提供了 1 万美元的奖励，以奖励能够设计出一个提示的人，该提示可以解决 *随机* 12 个令牌实例的 A::B 问题，成功率达到 90% 以上。这仍然是一项简单的任务，平均需要 6 次交换才能解决；实际上比三年级的算术还简单。然而，我坚信即使对于这些小实例，也没有 GPT 能够在提示上学习和解决它。## 解决方案和获胜者几个小时后，许多解决方案被提交。起初，所有解决方案都失败了，成功率勉强达到 10%。我开始相当自信，直到那天晚些时候，@ptrschmdtnlsn 和 @SardonicSydney 提交了一个让我感到谦卑的解决方案。在他们的提示下，Claude-3 Opus 能够从几个例子推广到任意随机实例，并且遵守规则，进行长时间计算，几乎没有错误。在我的运行中，它的成功率达到了 56%。在一天中，用户@dontoverfit（Opus）、@hubertyuan_（GPT-4）、@JeremyKritz（Opus）和@parth007_96（Opus）、@ptrschmdtnlsn（Opus）都达到了相似的成功率，而@reissbaker 对 GPT-3.5 进行了相当成功的微调。但直到那天深夜，@futuristfrog 才发推文声称仅凭提示就取得了接近 100% 的成功率。他是对的。在我的第一次运行中，它得分为 47/50，授予他奖品并完成挑战。## 它是如何工作的！？他的提示的秘密......将永远是个秘密！这是因为他慷慨地同意将 25% 的奖金给予最有效的解决方案。此提示每次推理的费用为 1 美元以上，因此，如果您认为您可以改进它，则必须在下周三之前通过以下链接提交您的解决方案，并争夺剩余的 2500 美元！谢谢，鲍勃。## 我的立场如何？已更正！我最初的说法完全错误 - 对此我深表歉意。我怀疑 GPT 架构是否能够解决某些问题，但它毫无疑问地解决了这些问题。这是否证明 GPT 可以治愈癌症？不能。但这确实证明我错了！请注意，这仍然存在一个小问题：不清楚 Opus 是否基于原始 GPT 架构。所有 GPT-4 版本都失败了。如果 Opus 被证明是一个新的架构......好吧，具有讽刺意味的是，这整件事就证明了我的观点😅但是，为了比赛的缘故，平心而论，Opus 被列为一个选项，因此，获得奖金是合理的。 ## 我是谁？我要卖什么？错了！我不会把这当成广告。但是，是的，如果你是新来的，我确实在做一些东西，而且，是的，就像今天一样，我会不断验证我的声明，以确保我能兑现我的承诺。但我只能说这么多，所以，如果你好奇，就得自己去发现 (: #### 就这些。感谢所有参与的朋友，再次抱歉，今天在网上说错了话！再见。要点：https://t.co/qpSlUMXOTU

（获胜的提示将于周三发布，同时发布的还有评估器本身的源代码。它的哈希值在 Gist 上。）

来自 Taelin（@VictorTaelin）的推文线程

作者信息

线程正文