箱から出してすぐに、ゲーム固有のRLやチューニングが一切不要?そんなわけないでしょう。本当に驚きます。インタラクションの問題として、これは運転やヒューマノイドの制御よりもはるかに難しいです。それに、これまでのゲームLLMの結果のほとんどはデタラメです。 Minecraft の Voyager には、「石炭を採掘しよう」といったアクションや、多数の公開サンプルスクリプトが用意されています。これは、スタンドアロンの RL タスクとして、最初から作成できます。 チェスは、LLMに必要なテキスト形式でゲームを記録します。しかも、LLMはたくさんあります。 それらがないのにシミュレーションが使える場合はどうすればいいでしょうか?小型モデルで強化学習に挑戦してみましょう。https://t.co/wPfmdJfe1d には、シングルGPUで数秒でトレーニングした超人的なプレイの例がいくつか掲載されています。ゲームだけではありません。クライアント向けに構築する凝ったシミュレーションのほとんどは、比較的シンプルなゲームよりも強化学習が簡単です。 私の考えでは、私たちの分野でこれまでで一番の成績はOpenAI 5でした。約1000基のGPUを使ってDoTAのトッププロに勝利しました。今ならH100を64~256基使ってもおそらく同じことができるでしょう。CPUは本当に強力ですが、だからこそ、本当に重要な問題のために高速なカスタムシミュレーションを構築するのです。強化学習(RL)が、学習理論(LLM)がどうやってゼロショットで解くのか全く理解できないような解法を次々と生み出しているのを目にします。インタラクションは知能の根幹です。 ゲームをプレイすることでLLMをRLファインチューニングするとしたら?確かに、ゼロから学習するよりもサンプル効率は高くなります。しかし、計算効率は大幅に低下します。RLにおけるスケーリング則は、モデルサイズをはるかに小さくし、データ量を大幅に増やす傾向があるという、かなり確かな証拠があります。これは私自身の研究で行った賭けですが、今のところ順調です。 では、Grokを使って本当に印象的な強化学習結果を得たいとしたらどうでしょうか?私の考えは、巨大モデルと極小モデルの間のギャップを埋めることです。トレーニング中のほぼすべての(99.9%以上の)アクションを小型モデルで実行します。ゲームをたくさんプレイします。探索のガイドなどには大型モデルを使用します。ゲームやロボット工学の分野では既にこの分野で成果が出ていますが、まだ満足のいくものはありません。私がこれに取り組んでいないのは、小型モデルの強化学習には、たとえ小規模であっても非常に明確な道筋があり、現時点でははるかに大きな可能性があると考えているからです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。