[オープンソース推奨事項] K2-Vendor-Verifier: Kimi K2 シリーズ モデル用の透過的で自動化された信頼性検証ツール。 @Kimi_Moonshot チームは、サードパーティ ベンダーにおける Kimi K2 シリーズ モデル (特にその「思考」バリアントである kimi-k2-thinking-turbo) の展開問題に対して、透明性が高く実用的なソリューションを提供しました。 ベンチマークのボラティリティから透明性のある検証への対応 Moonshot AIチームは、コミュニティによるテストとベンチマークの共有に感謝の意を表しましたが、すぐに重要な問題点に対処しました。Kimi K2のパフォーマンスは、サードパーティAPIエンドポイントなど、異なるプロバイダー間で一貫性がありませんでした。一部のエンドポイントでは、推論集約型タスク(LiveBenchベンチマークなど)において20パーセントポイント以上の精度低下が見られ、全体のスコアを直接引き下げていました。チームは検証を再実行し、結果の比較可能性と信頼性を確保するため、Vendor Verifierプロジェクトを通じてより多くのデータを公開することを約束しました。 チームからのベストプラクティスの推奨事項: • 公式エンドポイントを優先する: サードパーティのバリエーションを回避するには、kimi-k2-thinking-turbo を使用します。 • パラメータの最適化: ストリーミング出力を有効にし (stream=True)、温度を 1.0 に設定し、タスクに応じてトークンの最大数を調整し (推論の場合は 128k、エンコードの場合は 256k、その他の場合は ≥64k)、再試行メカニズムを追加します。 • ベンチマーク ガイド: 開発者がテストを標準化できるようにするための完全なセットアップ チュートリアルが含まれています。 フィードバックは好意的でした。透明性を「優れたマーケティング戦略」と称賛する人もいれば、リアルタイムのリーダーボードやコストパフォーマンスの散布図の作成を提案する人もいました。 チームはK2-Vendor-Verifierもオープンソース化した。 K2-Vendor-Verifierは、Kimi K2専用に設計されたオープンソースの評価フレームワークで、「ツール呼び出し」動作の精度に重点を置いています。K2モデルは、計画、実行、フィードバックなどの周期的なタスクに使用されることが多く、ツール呼び出しの逸脱はリンク障害につながる可能性があるため、これはエージェントアプリケーションにおいて非常に重要です。 https://t.co/2JIped5mvC オープンソース プロジェクトのコア機能: • テスト規模: さまざまなシナリオをカバーする 4000 件のリクエスト サンプル (samples.jsonl) が実行され、公式 Moonshot AI API のゴールド スタンダードと比較されました。 • 主要な指標: • tool_call_f1: ツール呼び出しトリガー精度の調和平均(精度と再現率を組み合わせたもの)。モデルがツールを呼び出すタイミングを正しく決定しているかどうかを測定します。 • schema_accuracy: JSON ペイロードと予想されるスキーマ間の一致率。出力構造の信頼性を保証します。 • 出力レポート: 詳細なログ (results.json) と概要テーブル (summary.json) を生成し、パブリックリーダーボード (MoonshotAI 公式スコア 100%、DeepInfra 98.5% など、2025 年 11 月まで更新) を定期的に公開します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[オープンソース推奨事項] K2-Vendor-Verifier: Kimi K2 シリーズ モデル用の透過的で自動化された信頼性検証ツール。
@Kimi_Moonshot チームは、サードパーティ ベンダーにおける Kimi K2 シ](https://pbs.twimg.com/media/G5b4Yy8bcAAKmhb.jpg)