#5 - MFU を計算するには? リンク - https://t.co/Vegithub.com/karpathy/nanoc…lerによるnanochatでの素晴らしい議論
#6 - 効率的なRLフレームワークが密かにポリシー外のRLトレーニングをもたらす リンク - https://t.co/d2Loq5UwZQ トレーニングと推論の不一致を理解し、それが結果にどのfengyao.notion.site/off-policy-rl#…しいブログです。 「あなたのインフラは計算を破綻させています。その理由、その深刻さ、そして重要度サンプリングによる修正方法をご紹介します。」

