昨夜、Kimi K2 のトレーニング チームが Reddit LocalLLaMA チャンネルで AMA を開催しました。 K2-Thinkingの海外ユーザーのレビューを見ましたが、コメント欄にある国内ユーザーのレビューとはかなり異なっています。 海外のユーザーは価格に比較的敏感ではありません。もちろん、トークンではなく通話回数に応じて課金することには課題があるとも述べています。しかし、全体としては、技術と品質へのこだわり、そしてLocalLLaMAチャネルの特性に起因しています。 彼らは昨夜の AMA でも多くの質問に答えており、その中でも特に有益なものをいくつかまとめました。 ---------------------------- 次期フラッグシップモデル「Kimi」にもKDAは採用されるのでしょうか?そのメリットは何でしょうか? NoPE MLA を使用した KDA ハイブリッドは、従来の MLA + RoPE よりも優れています。 事前トレーニング段階と強化学習段階の両方において、より高速、より経済的、より効率的です。 事前トレーニングと展開が高速化され、より多くのユーザーにサービスを提供できるようになります。 K3のトレーニングに使用される可能性があります。 K2 にはビジュアル言語 (VL) バージョンがありますか? はい、進行中です。 K2は明らかに他のモデルほどユーザーフレンドリーではありません(魅力的ではありません)。これは意図的に設計されたのでしょうか?それとも、後付けトレーニングの結果でしょうか? K2 の非順応的な性格は、慎重なデータ選択を通じて設計されています。 このスタイルには、事前学習と事後学習の両方が寄与します。事前学習では関連する事前分布をエンコードし、事後学習では独自の特徴を加えます。 Kimi for Codingの現在の課金方法はAPIリクエスト数に基づいており、非常に不透明です。1つのプロンプトで複数のリクエストがトリガーされる可能性があります。トークンまたはプロンプトのいずれかに基づいて課金するように変更することは可能でしょうか? 現在、リクエスト数に基づいて課金を行っています。これは、ユーザーにとって分かりやすく、コスト構造との整合性が高いためです。しかしながら、ユーザーの皆様には混乱が生じていることも承知しており、改善を検討してまいります。 fp4 は int4 に比べて大幅に改善されていると思いますか?それとも int4 で既に十分なエンコードになっているのでしょうか? int4 を選択したのは、既存の int4 推論 Marlin カーネルを活用しながら、Blackwell 以外の GPU との互換性を高めるためです。 K2思考モデルはGPT-5思考よりも強力ですが、出力速度ははるかに遅いです。意図的に「長く考える」ようにするべきでしょうか? K2-Thinking は推論段階でより詳細かつ時間がかかることを認識しながら、最適化が進行中です。 プレーン テキスト プロキシに重点を置くことは、最先端 (SOTA) ステータスを達成するための短期的な犠牲でしょうか、それとも長期的な賭けでしょうか? 視覚言語モデル (VL) のデータとトレーニングを正しく行うには時間がかかるため、最初にテキスト モデルをリリースすることにしました。 K2 Thinking のトレーニング料金が 460 万ドルというのは本当でしょうか? これらは公式の数字ではありません。研修費用の大部分は研究や実験に関連しているため、数値化することは困難です。 K2 Thinking を作成する上で、最も大きな課題は何でしたか?ありがとうございます! 課題の一つは、インターリーブされた「think-tool-think-tool」パターンをサポートすることです。これはLLMでは比較的新しい動作であり、正しく動作させるには多くの作業が必要です。 数ヶ月にわたる評価を経て、K2 ThinkingはSonnet 4.5とOpus 4.1が見逃していた問題を特定できました。率直に言って、K2 Thinkingはあと1つのシステムプロンプトで同等のパフォーマンスレベルに到達できると感じています。これはすべて新しいアーキテクチャのおかげですか?それとも、トレーニングデータの品質も向上したのでしょうか? 適切な評価方法とデータを持つことがパフォーマンス向上に不可欠だと考えています。アーキテクチャと最適化ツールによってサンプル効率が向上します。 トレーニングスタックにはどのようなハードウェアを使用していますか?米国の大手企業が使用しているスタックと比べて、御社のインフラストラクチャはどのようなものか教えていただけますか? 私たちは Infiniband で H800 GPU を使用しました。米国のハイエンド GPU ほど優れてはおらず、数もそれほど多くありませんでしたが、すべてのカードを最大限に活用しました。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
