印象的な新しい Kimi 2 モデルで使用される巧妙なトリックは、「量子化認識トレーニング」または QAT と呼ばれます。 哲学的にはドロップアウトに似ています。ドロップアウトでは、モデルが他のニューロンの共適応に依存することは望ましくありません。なぜなら、共適応はモデルを脆弱にしてしまうからです。そのため、学習中に意図的にニューロンの一部を空にすることで、共適応への依存を回避します。 ここでは、トレーニングが完了した後の最終的な量子化で失われる推論の精度にモデルが依存することを望まないため、その依存を回避するためにトレーニング中に意図的に精度を失います。 したがって、モデルは、重みの下位ビットに格納されている極めて重要な情報に決して依存しないように強制されます。 しかし、最適化中に勾配がうまく流れるようにするにはその精度が必要なので、フォワード パスで INT4 効果をシミュレートしながら勾配計算のためだけに完全な精度の重みを保持することでそれを偽装します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。