我*錯了*——有人索賠 1 萬美元! ## 聲明兩天前,我自信地聲稱「GPT 永遠無法解決 A::B 問題」。我認為:1. GPT 無法真正學習訓練集以外的新問題,2. GPT 無法執行長期推理,無論它多麼簡單。我認為這兩者對於發明新科學是必要的;畢竟,有些數學問題需要數年才能解決。如果你在任何給定的智力任務中都無法擊敗 15 歲的人,你就無法證明黎曼假設。為了隔離這些問題並提出我的觀點,我設計了 A::B 問題,並將其發佈在這裡——完整定義在引用的推文中。 ## 接收、澄清和挑戰發布後不久,一些用戶提供了我列出的特定 7 個令牌範例的解決方案。我很快指出這不是我的意思;這個例子只是說明性的,回答一個實例並不等於解決一個問題(並且可以透過提示操縱輕易作弊)。因此,為了使我的聲明更清晰,也為了兌現我的諾言,我提供了 1 萬美元的獎勵,以獎勵能夠設計出一個提示的人,該提示可以解決 *隨機* 12 個令牌實例的 A::B 問題,成功率達到 90% 以上。這仍然是一項簡單的任務,平均需要 6 次交換才能解決;實際上比三年級的算術還簡單。然而,我堅信即使對於這些小實例,也沒有 GPT 能夠在提示上學習和解決它。 ## 解決方案和獲勝者幾個小時後,許多解決方案被提交。起初,所有解決方案都失敗了,成功率勉強達到 10%。我開始相當自信,直到那天晚些時候,@ptrschmdtnlsn 和 @SardonicSydney 提交了一個讓我感到謙卑的解決方案。在他們的提示下,Claude-3 Opus 能夠從幾個例子推廣到任意隨機實例,並且遵守規則,進行長時間計算,幾乎沒有錯誤。在我的運行中,它的成功率達到了 56%。在一天中,用戶@dontoverfit(Opus)、@hubertyuan_(GPT-4)、@JeremyKritz(Opus)和@parth007_96(Opus)、@ptrschmdtnlsn(Opus)都達到了相似的成功率,而@reissbaker 對 GPT-3.5 進行了相當成功的微調。但直到那天深夜,@futuristfrog 才發推文聲稱僅憑提示就取得了接近 100% 的成功率。他是對的。在我的第一次運行中,它得分為 47/50,授予他獎品並完成挑戰。 ## 它是如何工作的! ?他的提示的秘密......將永遠是個秘密!這是因為他慷慨地同意將 25% 的獎金給予最有效的解決方案。此提示每次推理的費用為 1 美元以上,因此,如果您認為您可以改進它,則必須在下週三之前通過以下鏈接提交您的解決方案,並爭奪剩餘的 2500 美元!謝謝,鮑伯。 ## 我的立場如何?已更正!我最初的說法完全錯誤 - 對此我深表歉意。我懷疑 GPT 架構是否能夠解決某些問題,但它毫無疑問地解決了這些問題。這是否證明 GPT 可以治癒癌症?不能。但這確實證明我錯了!請注意,這仍然存在一個小問題:不清楚 Opus 是否基於原始 GPT 架構。所有 GPT-4 版本都失敗了。如果 Opus 被證明是一個新的架構......好吧,具有諷刺意味的是,這整件事就證明了我的觀點😅但是,為了比賽的緣故,平心而論,Opus 被列為一個選項,因此,獲得獎金是合理的。 ## 我是誰?我要賣什麼?錯了!我不會把這當成廣告。但是,是的,如果你是新來的,我確實在做一些東西,而且,是的,就像今天一樣,我會不斷驗證我的聲明,以確保我能兌現我的承諾。但我只能說這麼多,所以,如果你好奇,就得自己去發現 (: #### 就這些。感謝所有參與的朋友,再次抱歉,今天在網上說錯了話!再見。要點:https://t.co/qpSlUMXOTU
(獲勝的提示將於週三發布,同時發布的還有評估器本身的源代碼。它的哈希值在 Gist 上。)