X (Twitter)

Kimi-K2-Thinking: @Kimi_Moonshot は最近、ディープラーニングとインテリジェントエージェント機能のためのオープンソースモデルをリリースしました。高効率な推論エンジンであるだけでなく、インテリジェントエージェント機能も内蔵しており、複雑なタスクにおいてツールを動的に呼び出し、単純な質問と回答から数百ステップの自律ワークフローまで、エンドツーエンドの処理を実現します。このモデルは、大規模言語モデルの自律性と実用性の向上を象徴するものであり、特にプログラミング、研究、執筆などの分野で優れた成果を上げています。コア設計: MoEアーキテクチャに基づく効率的な「思考」メカニズム Kimi-K2-Thinkingは、総パラメータスケールが1Tであるにもかかわらず、活性化パラメータはわずか32BのMoEアーキテクチャを採用しています。これは、計算リソースの点でより効率的であることを意味します。トークンごとに少数のエキスパートのみが活性化されるため、フルパラメータモデルの冗長なオーバーヘッドを回避できます。具体的なパラメータは、61層（1つの密層を含む）、アテンション層の隠れ次元7168次元、MoEのエキスパートあたり2048次元、384のエキスパート（トークンごとに8つのエキスパートが選択され、そのうち1つは共有エキスパート）、64個のアテンションヘッド、SwiGLU活性化関数、MLAアテンションメカニズム、16万語の語彙、256Kのコンテキスト長のサポートなどです。この設計により、モデルは長いシーケンスを処理する際に低レイテンシを維持しながら、CoTメカニズムを通じて漸進的な推論パスを生成することができます。従来のモデルの線形出力とは異なり、モデルは思考とツール呼び出しを交互に実行することで閉ループを形成します。モデルはまず問題の分解について「思考」し、次に外部ツールを呼び出してデータを取得し、最後に出力を統合します。このインテリジェントエージェントのようなプロセスは、数学的解法やコードのデバッグなど、反復的な検証を必要とするタスクに特に適しています。主なイノベーション：量子化トレーニングと長期安定性モデルの最大のハイライトは、2つの主要なエンジニアリング最適化にあります。1つ目はネイティブINT4量子化です。これは量子化を考慮したトレーニング（QAT）を通じて重みを4ビット整数精度に圧縮し、推論速度を約2倍向上させると同時に、GPUメモリ使用量を50%以上削減します。これは後処理の量子化ではなく、トレーニングの開始時点から統合されているため、精度の低下を最小限に抑えることができます（ほとんどのベンチマークでFP16に匹敵します）。2つ目はエージェントの長期安定性です。従来のモデルは30～50回のツール呼び出しで「道に迷う」傾向がありますが、Kimi-K2-Thinkingは200～300ステップまで安定して実行でき、目標指向的な動作を維持します。これは、強化学習の微調整（RLHF）やツール使用のシミュレーションデータを含む専用のトレーニング戦略のおかげで、複数回のインタラクションにわたってモデルの一貫性を維持するのに役立ちます。これらのイノベーションにより、モデルは「受動的な応答」から「能動的な探索」に移行できるようになり、Web 検索、コード生成、マルチモーダル分析などの実際のシナリオに適したものになります。パフォーマンス：ベンチマークにおけるリーダーシップ。Kimi-K2-Thinkingは、複数の評価において優れたパフォーマンスを示し、特にツールを用いた「高負荷」タスクにおいて競合製品を凌駕しました。例えば、Humanity's Last Exam（HLE）推論ベンチマークでは、ツールなしで23.9%、ツールありで44.9%、さらに高負荷ツールを使用したシナリオでは51.0%のスコアを達成しました。数学タスクAIME25では、ツールなしで94.5%、ツールありで99.1%、高負荷ツール使用で100.0%を達成しました。一般知識MMLU-Proスコアは84.6%に達しました。エージェント検索ベンチマークBrowseCompでは60.2%、プログラミングタスクSWE-bench Verifiedでは71.3%、LiveCodeBenchV6では83.1%、Seal-0エージェントベンチマークでは56.3%を達成しました。特に注目すべきは、BrowseComp-ZHなどの中国語タスクにおける62.3%のスコアです。これらの成果は、複雑で多段階的な環境におけるモデルの信頼性を実証しています。実用的なアプリケーションとエコシステムサポートモデルはHugging Faceでオープンソースとしてホストされており、OpenAI/Anthropic互換のAPIをサポートしているため、容易に統合できます。チャットやユーティリティ呼び出しは、シンプルなPythonコードで実装できます。例えば、基本的なチャットでは、質問を入力すると、モデルが回答と推論パス（reasoning_content）を出力します。ユーティリティ呼び出しでは、関数（天気予報クエリなど）を定義すると、モデルがそれを呼び出すタイミングを自動的に決定し、複数回の反復処理を経て結果を取得します。ライセンスは修正MITであり、商用利用が可能ですが、オープンソースの条件が適用されます。Moonshot AIは、vLLM/SGLangなどのフレームワーク向けのデプロイメントガイドとツールの使用に関するドキュメントも提供しており、開発者が迅速に開発を開始できるようにしています。全体として、このモデルはインテリジェントエージェント開発への参入障壁を下げ、AIを研究室から実稼働環境へと推進します。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容