これは小規模モデルの強化学習にも当てはまります。最も広く使用されているライブラリは、標準的なベースラインを500~5,000ステップ/秒でトレーニングしていました。PufferLibでは、アップデートごとに500,000~500万ステップ/秒以上の速度でトレーニングを行っています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/11/03 20:30
これは小規模モデルの強化学習にも当てはまります。最も広く使用されているライブラリは、標準的なベースラインを500~5,000ステップ/秒でトレーニングしていました。PufferLibでは、アップデートごとに500,000~500万ステップ/秒以上の速度でトレーニングを行っています。