#9 - LLMにおける2次最適化の可能性:完全ガウス・ニュートン法を用いた研究 リンク - https://t.co/wlkpXHz4sf 論文では、誰もが使用する簡略化された近似値の代わりに実際のガウス・ニュートン曲率arxiv.org/abs/2510.09378グできることが示されています。完全な GN では、トレーニング ステップの数が SOAP と比較して約 5.4 倍、ミューオンと比較して 16 倍削減されます。 彼らはこの主張に関して理論的な保証をしておらず、大規模にテストも行われていません (1 億 5000 万パラメータのみ)。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
