我*错了*——有人索赔 1 万美元!## 声明两天前,我自信地声称“GPT 永远无法解决 A::B 问题”。我认为:1. GPT 无法真正学习训练集之外的新问题,2. GPT 无法执行长期推理,无论它多么简单。我认为这两者对于发明新科学都是必要的;毕竟,有些数学问题需要数年时间才能解决。如果你在任何给定的智力任务中都无法击败 15 岁的人,你就无法证明黎曼假设。为了隔离这些问题并提出我的观点,我设计了 A::B 问题,并将其发布在这里——完整定义在引用的推文中。## 接收、澄清和挑战发布后不久,一些用户提供了我列出的特定 7 个令牌示例的解决方案。我很快指出这不是我的意思;这个例子仅仅是说明性的,回答一个实例并不等同于解决一个问题(并且可以通过提示操纵轻易作弊)。因此,为了使我的声明更清晰,也为了兑现我的诺言,我提供了 1 万美元的奖励,以奖励能够设计出一个提示的人,该提示可以解决 *随机* 12 个令牌实例的 A::B 问题,成功率达到 90% 以上。这仍然是一项简单的任务,平均需要 6 次交换才能解决;实际上比三年级的算术还简单。然而,我坚信即使对于这些小实例,也没有 GPT 能够在提示上学习和解决它。## 解决方案和获胜者几个小时后,许多解决方案被提交。起初,所有解决方案都失败了,成功率勉强达到 10%。我开始相当自信,直到那天晚些时候,@ptrschmdtnlsn 和 @SardonicSydney 提交了一个让我感到谦卑的解决方案。在他们的提示下,Claude-3 Opus 能够从几个例子推广到任意随机实例,并且遵守规则,进行长时间计算,几乎没有错误。在我的运行中,它的成功率达到了 56%。在一天中,用户@dontoverfit(Opus)、@hubertyuan_(GPT-4)、@JeremyKritz(Opus)和@parth007_96(Opus)、@ptrschmdtnlsn(Opus)都达到了相似的成功率,而@reissbaker 对 GPT-3.5 进行了相当成功的微调。但直到那天深夜,@futuristfrog 才发推文声称仅凭提示就取得了接近 100% 的成功率。他是对的。在我的第一次运行中,它得分为 47/50,授予他奖品并完成挑战。## 它是如何工作的!?他的提示的秘密......将永远是个秘密!这是因为他慷慨地同意将 25% 的奖金给予最有效的解决方案。此提示每次推理的费用为 1 美元以上,因此,如果您认为您可以改进它,则必须在下周三之前通过以下链接提交您的解决方案,并争夺剩余的 2500 美元!谢谢,鲍勃。## 我的立场如何?已更正!我最初的说法完全错误 - 对此我深表歉意。我怀疑 GPT 架构是否能够解决某些问题,但它毫无疑问地解决了这些问题。这是否证明 GPT 可以治愈癌症?不能。但这确实证明我错了!请注意,这仍然存在一个小问题:不清楚 Opus 是否基于原始 GPT 架构。所有 GPT-4 版本都失败了。如果 Opus 被证明是一个新的架构......好吧,具有讽刺意味的是,这整件事就证明了我的观点😅但是,为了比赛的缘故,平心而论,Opus 被列为一个选项,因此,获得奖金是合理的。 ## 我是谁?我要卖什么?错了!我不会把这当成广告。但是,是的,如果你是新来的,我确实在做一些东西,而且,是的,就像今天一样,我会不断验证我的声明,以确保我能兑现我的承诺。但我只能说这么多,所以,如果你好奇,就得自己去发现 (: #### 就这些。感谢所有参与的朋友,再次抱歉,今天在网上说错了话!再见。要点:https://t.co/qpSlUMXOTU
(获胜的提示将于周三发布,同时发布的还有评估器本身的源代码。它的哈希值在 Gist 上。)