#8 - FP16 によるトレーニングと推論の不一致の克服 リンク - https://t.co/rFKo8w36nc 6 と 7 と同じトピックの続きでarxiv.org/abs/2510.26788は必読と考えてください。 これまでの研究では、このトレーニングと推論の不一致の問題を修正するために、重要度サンプリングのハックや高度なエンジニアリングによってカーネルの調整を試みてきました。これはある程度は役立ちますが、 > 追加の計算コスト(追加のフォワードパス)がかかります > 1つを最適化して別のものを展開することは、実際には解決しません >まだ不安定になる可能性がある つまり、この論文の主張は「真の悪者はBF16だ。FP16を使う」である。 私はツイッターでこれに関するミームをいくつか作ってとても楽しかったです。
#9 - LLMにおける2次最適化の可能性:完全ガウス・ニュートン法を用いた研究 リンク - https://t.co/wlkpXHz4sf 論文では、誰もが使用する簡略化された近似値の代わりに実際のガウス・ニュートン曲率arxiv.org/abs/2510.09378グできることが示されています。完全な GN では、トレーニング ステップの数が SOAP と比較して約 5.4 倍、ミューオンと比較して 16 倍削減されます。 彼らはこの主張に関して理論的な保証をしておらず、大規模にテストも行われていません (1 億 5000 万パラメータのみ)。

