X (Twitter)

我*錯了*——有人索賠 1 萬美元！ ## 聲明兩天前，我自信地聲稱「GPT 永遠無法解決 A::B 問題」。我認為：1. GPT 無法真正學習訓練集以外的新問題，2. GPT 無法執行長期推理，無論它多麼簡單。我認為這兩者對於發明新科學是必要的；畢竟，有些數學問題需要數年才能解決。如果你在任何給定的智力任務中都無法擊敗 15 歲的人，你就無法證明黎曼假設。為了隔離這些問題並提出我的觀點，我設計了 A::B 問題，並將其發佈在這裡——完整定義在引用的推文中。 ## 接收、澄清和挑戰發布後不久，一些用戶提供了我列出的特定 7 個令牌範例的解決方案。我很快指出這不是我的意思；這個例子只是說明性的，回答一個實例並不等於解決一個問題（並且可以透過提示操縱輕易作弊）。因此，為了使我的聲明更清晰，也為了兌現我的諾言，我提供了 1 萬美元的獎勵，以獎勵能夠設計出一個提示的人，該提示可以解決 *隨機* 12 個令牌實例的 A::B 問題，成功率達到 90% 以上。這仍然是一項簡單的任務，平均需要 6 次交換才能解決；實際上比三年級的算術還簡單。然而，我堅信即使對於這些小實例，也沒有 GPT 能夠在提示上學習和解決它。 ## 解決方案和獲勝者幾個小時後，許多解決方案被提交。起初，所有解決方案都失敗了，成功率勉強達到 10%。我開始相當自信，直到那天晚些時候，@ptrschmdtnlsn 和 @SardonicSydney 提交了一個讓我感到謙卑的解決方案。在他們的提示下，Claude-3 Opus 能夠從幾個例子推廣到任意隨機實例，並且遵守規則，進行長時間計算，幾乎沒有錯誤。在我的運行中，它的成功率達到了 56%。在一天中，用戶@dontoverfit（Opus）、@hubertyuan_（GPT-4）、@JeremyKritz（Opus）和@parth007_96（Opus）、@ptrschmdtnlsn（Opus）都達到了相似的成功率，而@reissbaker 對 GPT-3.5 進行了相當成功的微調。但直到那天深夜，@futuristfrog 才發推文聲稱僅憑提示就取得了接近 100% 的成功率。他是對的。在我的第一次運行中，它得分為 47/50，授予他獎品並完成挑戰。 ## 它是如何工作的！？他的提示的秘密......將永遠是個秘密！這是因為他慷慨地同意將 25% 的獎金給予最有效的解決方案。此提示每次推理的費用為 1 美元以上，因此，如果您認為您可以改進它，則必須在下週三之前通過以下鏈接提交您的解決方案，並爭奪剩餘的 2500 美元！謝謝，鮑伯。 ## 我的立場如何？已更正！我最初的說法完全錯誤 - 對此我深表歉意。我懷疑 GPT 架構是否能夠解決某些問題，但它毫無疑問地解決了這些問題。這是否證明 GPT 可以治癒癌症？不能。但這確實證明我錯了！請注意，這仍然存在一個小問題：不清楚 Opus 是否基於原始 GPT 架構。所有 GPT-4 版本都失敗了。如果 Opus 被證明是一個新的架構......好吧，具有諷刺意味的是，這整件事就證明了我的觀點😅但是，為了比賽的緣故，平心而論，Opus 被列為一個選項，因此，獲得獎金是合理的。 ## 我是誰？我要賣什麼？錯了！我不會把這當成廣告。但是，是的，如果你是新來的，我確實在做一些東西，而且，是的，就像今天一樣，我會不斷驗證我的聲明，以確保我能兌現我的承諾。但我只能說這麼多，所以，如果你好奇，就得自己去發現 (: #### 就這些。感謝所有參與的朋友，再次抱歉，今天在網上說錯了話！再見。要點：https://t.co/qpSlUMXOTU

（獲勝的提示將於週三發布，同時發布的還有評估器本身的源代碼。它的哈希值在 Gist 上。）

來自 Taelin（@VictorTaelin）的推文串

作者資訊

推文串內容