このスケーリング則はまだ見つけられていないが、私の現在の感覚は、記憶はサンプル内の事実密度シンセのアップサンプリングパラメータの数モデルアーキテクチャの学習効率の間に直接的な関係があるということである。
優れた合成パイプラインは、2) だけでなく 4) も解決します。これは、ビザロ プロキシで時間を無駄にする代わりに、制御された実験を実行して正確なリコールを直接確認できるためです (hellaswag は死なせてください)。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。