X (Twitter)

@character_ai からは長い間何も聞いていませんでしたが、今日突然、新しいモデル「Kaiju」がリリースされたことを知りました。 Kaijuは、学術的なベンチマークを満たす汎用モデルを追求するのではなく、実世界の本番環境における対話パフォーマンスと導入効率に重点を置いています。このブログ記事では、アーキテクチャ設計、トレーニングの最適化、データ戦略、セキュリティの調整に至るまで、プロセス全体を共有しており、一読の価値があります。モデルの概要 Kaijuシリーズには、小（130億パラメータ）、中（340億パラメータ）、大（110億パラメータ）の3つのサイズがあります。これらのモデルは、高密度Transformerアーキテクチャをベースとし、自己回帰生成アプローチを採用し、対話シナリオ向けに最適化されています。高いベンチマークスコアを追求するモデルとは異なり、Kaijuは推論効率と、迅速な応答や活発な対話といったユーザーインタラクションの質を重視しています。これは、学術的な指標よりも実用性能を重視するというチームの考えを反映しています。このアーキテクチャイノベーションの記事の中核は、大規模な展開時にモデルが高いパフォーマンスを維持できるようにするための複数の効率最適化手法にあります。 • マルチクエリアテンション（MQA）：キーバリュー（KV）キャッシュサイズを削減し、対話推論の効率を向上させます。一部のベンチマークでは若干の品質低下が見られますが、対話タスクへの影響は最小限です。 • スライディングウィンドウアテンション：アテンションスパンを1024トークンに制限し、グローバルレイヤーを交互に切り替えます（6:1の比率）。これにより、検索精度を犠牲にすることなく、長いコンテキストの計算コストを大幅に削減し、アテンションシンクなどの従来の手法の複雑さを回避します。 • クロスレイヤー KV 共有: KV キャッシュは 2 ～ 3 レイヤーごとに共有され、精度を大幅に低下させることなくメモリをさらに圧縮します。 • Int8量子化：重みと行列乗算は8ビット整数で保存および計算されます。これは16ビット浮動小数点数よりも20～30%高速です。量子化を考慮したトレーニング（QAT）により、ネイティブに近い精度が保証されます。その他の最適化: プレレイヤー正規化 (RMSNorm) と動的クランプにより安定性が向上し、トレーニング中の数値の問題を回避します。モデルのトレーニングは、Google Cloud H100 GPUクラスタ上で、モデル並列化戦略（ノード内テンソルおよびシーケンス並列化、およびノード間フルシャードデータ並列化）を用いて実施されました。主な効率化手法は以下のとおりです。 • 低精度計算: 重みとキーと値のペアには Int8 が使用され、順方向活性化とローカル勾配には BF16 が使用され、勾配累積と重みには FP32 が使用されます。 • 勾配圧縮: 勾配を 6 ビット (ブロック、対数均一モデリング) に圧縮し、通信オーバーヘッドを削減する Squinch アルゴリズムが導入されました。 • 安定性の向上: 小規模モデルでは、Int8 オーバーフローを回避するために Bungee 仮想スカラーが使用されます。また、ストレージをさらに圧縮するために、3 値重み更新 (パラメーターあたり 1.6 ビット) も試されました。データ戦略とデータの混合がKaijuの成功の鍵です。著者らはデータを2つのカテゴリーに分類しています。 • MMLU Max: AGI ベンチマークに基づいて、ネットワーク規模のテキスト、コード、合成データが含まれており、T5 埋め込みを使用して類似度を計算します。 Production Max: ユーザーインタラクションに重点を置き、指示に従うことを重視します。学習の後期段階では、アニーリング戦略を用いて、指示データとMMLU関連コンテンツを徐々に増やし、ベンチマーク性能と実世界アプリケーションとのバランスを取りました。これにより、単一の指標への過剰な最適化を回避し、対話においてモデルがより自然な動作をするようにしました。安全性と調整はこの記事の主要な焦点であり、多段階のアプローチを採用しています。 • 監視された微調整: 高品質のデータを使用してモデルの動作を調整します。 • 強化学習: ユーザーからのフィードバック (「スワイプ」や好みなど) に基づいてオンライン直接好み最適化 (DPO) を変更することで、インタラクションの品質を向上させます。 • 分類器トレーニング: オプションの分類器ヘッドを統合し、ラベルレベルの安全性メトリックを提供します。 • 推論時間の制御: 分類器ガイドによるバンドル検索を使用して、生成されたコンテンツの安全性と信頼性を確保します。課題と解決策に関する記事では、トレードオフについて客観的に議論しています。例えば、MQAは効率的ですが、ベンチマークスコアに影響を与える可能性があります。著者らは、対話などのAGI以外のタスクに焦点を当てることで、この影響を軽減しています。また、長いコンテキストの計算はコストがかかるため、スライディングウィンドウとキーバリュー共有によって対処しています。さらに、精度の低い学習は不安定になりやすいため、QATやBungeeといった革新的な技術が導入されています。これらの解決策は、特に実稼働環境において、効率性の最適化が必ずしも品質を犠牲にするわけではないことを示しています。ブログアドレス:

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容