X (Twitter)

私はこの紙が大好きです。表面的には、これは単にタスクの分解とアンサンブルを使用した自己一貫性のように見えますが、他の点を強調したいと思います。この論文では、ほとんどの人が LLM について直感的に感じたり試してみたりするが、簡単な方法で試した後に諦めてしまうことを取り上げます。

彼らは、基本的に決して失敗しない 100 万ステップのシステムを構築しますが、これは「よりスマートな」モデルを作るのではなく、タスクを 100 万もの小さな部分に分割し、各部分を徹底的にエラー修正することによって行われます。 gpt4.1-miniだけでこれらすべてを実現

私はこの論文から得た洞察を継承します - 「100 万ステップでエラーを 1 つも発生させたくない場合は、タスクを 100 万回中断する必要があります。」どのように分解し、どのようにエラーを普遍的に修正するかが、私たちの実装努力になります。

ここで使用されているアイデアは、全体的にまだ単純な設定です。ただし、100 万ステップでエラーがないという信頼性の保証は冗談ではなく、論文を見る前に 0% エラーとして賭けるようなものではありません。この論文は実行に支障をきたすものである。

ここで検討する中核となるアイデアは、事前に定義された分解の詳細がない言語タスクについて理解する必要があるものです。結果の品質は、モデルがタスクをどれだけうまく分解できるか、そしてどれだけうまく自分自身を修正できるかによって左右されます。

しかし、アーキテクチャのブレークスルーがないシナリオで、私が何らかの方向に希望を託すとしたら、それはこれでしょう。規模とあらゆる種類のタスクに合わせて考え出されたものだけです。

また、動的プログラミングとツリー検索がトレーニング/推論スタックの一部になると思います。

tokenbender（@tokenbender）のスレッド