シグモイドの階段 ドワルケシュの記事を読んでかなり不安になったので、ある参考文献を調べてみました。記事の中で彼はこう述べています。 Toby Ord は、さまざまな o シリーズのベンチマーク チャート間の点を巧みに結び付けた素晴らしい記事を投稿しています。この投稿では、「GPT レベルと同等の向上を実現するには、RL コンピューティング全体の 1,000,000 倍のスケールアップが必要である」と示唆しています。 こうすると、物事が行き詰まりそうな気がします。 トビーは、私が心配していた2つのことを言っています。 1. 「目覚ましい成果を上げてきましたが、これは非常に低い基盤からスタートしたからこそ実現可能だったのです。これ以上の拡大は費用がかかりすぎるという状況になってしまいました。」 2. 「RL トレーニングの有効限界に近づいているため、より多くの計算を効果的により多くのインテリジェンスに変換する能力を失ってしまった可能性があります。」 私は、この主張がどの程度正当なのか、そして RL のスケールアップに反対する強気な論拠は何なのかを尋ねてみました。 親しい友人がこう言いました。「確かに、RLコンピューティングを単純にスケーリングし続けると、スケーリングが悪くなります。でも、そうすべきではありません!だからこそ、RL環境企業がたくさんあるのです。より良いアプローチは、より新しく、より困難な環境にスケーリングすることです。」 少し考えた後、私はこれをさらに次のように要約する方法を見つけました。「これを新しいタスク、世界、目標のためのシグモイド階段として想像することは、しばらくそれを継続する方法を考えるのに最も役立つ方法です。」
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。