私は間違っていました - 1万ドルを請求しました! ## 主張 2日前、私は自信を持って「GPTはA::B問題を決して解けない」と主張しました。私は次のことを信じていました。 1. GPTは、トレーニングセットの外で新しい問題を真に学習することはできません。 2. GPTは、どんなに単純であっても長期的な推論を実行できません。 私は、これらの両方が新しい科学を発明するために必要であると主張しました。結局のところ、数学の問題の中には解決に何年もかかるものもあります。 与えられた知的タスクで15歳の人に勝てなければ、リーマン予想を証明することはできません。 これらの問題を切り離して私の主張を表明するために、私はA::B問題を設計し、ここに投稿しました - 完全な定義は引用ツイートにあります。 ## 受容、明確化、および挑戦 投稿して間もなく、一部のユーザーが私がリストした特定の7トークンの例に対する解決策を提供しました。 私はすぐにこれが私の意図したことではないことを指摘しました。この例は単なる説明に過ぎず、1 つのインスタンスに答えることは問題を解決することと同じではない (プロンプトの操作によって簡単にごまかされる可能性がある) ことを私は理解しました。そこで、私の主張を明確にし、有言実行として、ランダムに選ばれた 12 トークンのインスタンスに対して A::B 問題を 90% 以上の成功率で解くプロンプトを設計できる人に 1 万ドルの賞金を出すことにしました。これは、平均 6 回のスワップで解決できる簡単なタスクです。文字通り、3 年生の算数よりも簡単です。それでも、このような小さなインスタンスであっても、プロンプト上でこれを学習して解決できる GPT は存在しないと私は固く信じていました。## 解決策と勝者 数時間後、多くの解決策が提出されました。当初はすべて失敗し、成功率が 10% に達するのがやっとでした。かなり自信がついてきたのですが、その日遅くに、@ptrschmdtnlsn と @SardonicSydney が私を謙虚にさせる解決策を提出しました。彼らのプロンプトの下で、Claude-3 Opus は、いくつかの例から任意のランダムインスタンスに一般化でき、ルールを忠実に守り、長い計算をほぼゼロエラーで実行しました。私が実行したところ、56% の成功率を達成しました。その日、ユーザー @dontoverfit (Opus)、@hubertyuan_ (GPT-4)、@JeremyKritz (Opus)、@parth007_96 (Opus)、@ptrschmdtnlsn (Opus) が同様の成功率に達し、@reissbaker は GPT-3.5 のファインチューニングにかなり成功しました。しかし、その夜遅くになって初めて、@futuristfrog がプロンプトだけでほぼ 100% の成功率を達成したと主張するツイートを投稿しました。そして、彼は正しかったのです。私の最初の実行では、47/50 のスコアを獲得し、賞を獲得してチャレンジを完了しました。 ## 仕組み!? 彼のプロンプトの秘密は...秘密のままです!それは、彼が賞金の 25% を最も効率的なソリューションに与えることに同意してくれたからです。このプロンプトは推論ごとに 1 ドル以上かかるため、それを改善できると思われる場合は、次の水曜日までに以下のリンクからソリューションを提出し、残りの 2,500 ドルを競ってください。ありがとう、ボブ。## 私の立場は? 訂正しました。私の最初の主張は完全に間違っていました。その点をお詫び申し上げます。私は GPT アーキテクチャが特定の問題を解決できるとは思っていませんでしたが、GPT は疑いの余地なくそれらの問題を解決しました。これは GPT が癌を治すことを証明しているのでしょうか?いいえ。しかし、それは私が間違っていたことを証明しています。ただし、これにまだ小さな問題があります。Opus が元の GPT アーキテクチャに基づいているかどうかは明らかではありません。すべての GPT-4 バージョンは失敗しました。Opus が新しいアーキテクチャであることが判明した場合...皮肉なことに、このこと全体が私の主張全体を証明したことになります 😅 しかし、競争のために、そして公平を期すために、Opus はオプションとしてリストされていたので、賞金は正当化されます。 ## 私が誰で、何を売ろうとしているのか?違います!これは広告にするつもりはありません。でも、もしあなたが初めてここに来たなら、はい、私は何かを作っていますし、そうです、今日と同じように、私は自分の主張を常に検証し、約束を果たせるようにしています。でも、私が言いたいのはそれだけなので、もし興味があれば、自分で確かめてください (: #### 以上です。ご参加いただいた皆様、ありがとうございました。そして改めて、今日はインターネット上で間違ったことを言ってしまい、申し訳ありませんでした!またお会いしましょう。Gist: https://t.co/qpSlUMXOTU
(優勝したプロンプトは、評価ツール自体のソースコードとともに水曜日に公開されます。ハッシュは Gist にあります。)