X (Twitter)

キミはK2-Thinkingをオープンソース化し、大きなサプライズでみんなを驚かせました！ HLE(44.9)とIMO(76.8)は世界最高です！早速試してみましたので、この機会に完全なプログラミングスイート (モデル、CLI、メンバーシップ) を紹介したいと思います。以下に詳細な使用方法とテストを示します👇

工事を待つのが面倒ですか？🚧 mp.weixin.qq.com/s/54qHLvw2VK3r…ps://t.co/rFJAwyOrNa

まず最初に、このモデルのアップグレードの詳細をご紹介します。エージェントベースのアップグレード: ネイティブに「考えながらツールを同時に使用」し、最大約 300 ラウンドまでの自律的かつ継続的なマルチラウンドの推論と呼び出しが可能です。最先端推論 (SOTA): HLE (44.9) と IMO (76.8) は、複雑な検索と長期計画が大幅に強化され、これまでで最高のスコアを達成しました。強化されたプログラミング: エージェントコーディングがより安定し、フロントエンド (HTML/React/コンポーネントベース) および多言語プロジェクトのベンチマークパフォーマンスが向上しました。全般的な基本能力の向上: 創造的な文章がよりリズミカルで深みを増し、学術および研究シナリオでの分析がより厳密になり、構造がより明確になり、長文のタスクでも論理とスタイルが安定します。効率性の向上: ネイティブ INT4 (QAT+MoE 重みのみ) は、長いデコードでもパフォーマンスを維持し、生成速度が約 2 倍向上しました。

さらに、この期間中、キミはプログラミング分野のモデルに重点を置くだけでなく、周囲のエコシステムを考慮し、誰もがより便利で手頃な価格で K2 プログラミングを使用できるようにする方法も検討しました。彼らは、インストールが簡単で基本的なラツィオ・クロード・コードを使用する独自の AI プログラミング CLI ツール、Kimi CLI をリリースしました。また、KFC と呼ばれる API パッケージも追加されました。これは 199 元で、1 週間あたり 7168 回の呼び出しが可能で、十分すぎるほどです。

まず、Kimi ファミリーのソフトウェアを通じて、アップグレードされた K2-Thinking モデルを簡単かつ迅速に使用する方法を見てみましょう。キミ・アポロプログラムのメンバーシップを購入する必要があります。これは公式ウェブサイトで直接行うことができます。さらに、以前にキミにチップを渡したことがある場合は、サービスを初めて有効にした後、チップの金額がアカウントに入金されるので、とても寛大です。設計上の問題があります。Kimi For CodingのAPIキーを取得するには、下の画像でハイライト表示されているテキストをクリックしてコピーする必要があります。これは後で設定に追加することで変更できるかもしれません。

次に、Kimi CLIをインストールします。UVをインストールしていない場合は、まずターミナルでUVをインストールする必要があります。次に、このコードを使用して Kimi CLI をインストールできます。 uvツールのインストール --python 3.13 kimi-cli インストール後、ターミナルでプロジェクトディレクトリを開き、「kimi」と入力して Kimi CLI を起動します。初回起動時に、ログイン方法を選択するよう求められます。最初のオプションを選択し、KFCから取得したAPIキーを入力してください。中に入ったら、Tabキーを押して思考を有効化します。この時点でK2-Thinkingモデルが使用されます。Claude Codeで思考を有効化する場合も同様の操作です。

もちろん、これは Cluade Code でも使用できます。環境変数の設定が面倒な場合は、私の「ai-claude-start」プロジェクトをご利用ください。プロジェクト作成時に以下の情報を入力してください。

次はモデルのテストです。まず、Todo Web アプリケーションの基本要件を提案し、その後、継続的に追加、変更、追加機能を要求し、10 回の変更後の結果を確認します。ご覧のとおり、これは最初の基本的な Todo アプリから徐々に機能を追加していき、最終的にほぼ完成した製品になるプロセスです。要件が進むにつれて、ドラッグ＆ドロップ機能やモバイル対応のための大幅な改修など、要件はますます複雑になっていきました。新機能の追加に伴うUIの変更も必要でしたが、K2-Thinkingはこれらの課題を一括で解決してくれました。 3 回目、新機能の追加によって発生した UI の問題が 4 回目で修正されました。これは非常にすばらしいことです。

他のモデルでもこのテストを試してみました。Claude 4.5 は動作しましたが、Codex は動作しませんでした。以下は、7回目の変更後のCodex CLIです。非常に悲惨な状況です。製品はほとんど使えなくなり、彼はそれを台無しにしてしまったのです。

次は、Kimi の CLI 検索スキルのテストでした。Linear 製品のホームページデザインスタイルを検索し、その製品の Web ページのデザインスタイルを再現した Web ページを作成します。彼は実際に検索ツールを使用してリニアデザインに関するいくつかの記事を見つけ、元のプロンプトと要件を拡張しながらリニアデザインのデザイン機能を要約しました。最も難しかったのは、マグネットボタンと、カード上でマウスをホバーしたときの光の効果でした。これらは以前の Linear の核となるデザイン要素でもありましたが、彼はこれらすべてを解決しました。また、Claude Code でこのヒントを使用して Claude 4.5 を動作させようとしましたが、Claude 4.5 では依然としてマグネットボタンアニメーションとマウスホバーグラデーション効果が動作しませんでした。

次のテストでは、複雑なビジネスロジックを検査します。ドラッグとクリックの間の競合や、コンポーネントにバインドされている接続など、多くのインタラクティブロジックの競合や落とし穴を隠すフローチャートツールを作成するように依頼します。線のドラッグや接続によって簡単に発生する可能性のある競合の問題に関して、この賢い人は単にモード切り替えボタンを作成し、それで問題を解決しました。ワイヤーを接続すると、関数は正常に動作し、経路は円を描いて回ることなく合理的です。同時に、論理判断ノードは自動的に「はい」と「いいえ」のラベルを追加します。思考能力を獲得した後、このようなトラップを含む複雑なロジックをかなりうまく処理できるようになったようです。

次のステップは、API を処理し、データを取得し、データを視覚化する能力をテストすることで、高い視覚化要件を備えたブロックチェーンダッシュボードを作成することになりました。結果は、実行が非常に良好であったことを示しています。適切なAPIが呼び出され、データを取得し、必要な視覚化アノテーションとソートが実装されました。詳細データをクリックすると表示される詳細折れ線グラフも追加され、展開/折りたたみアニメーションや詳細なホバーデータも追加されました。

最後に、問題のあるコードを紹介します。問題を特定して解決できるかどうか見てみましょう。遅延の問題を修正し、検索速度を向上させるために、別の AI に 5 つの質問のリストを含む Web ページを作成させ、一度に膨大なリストをレンダリングしました。面白いのは、問題を修正しただけでなく、パフォーマンス監視コンポーネントも追加したことです。これにより、Web ページの実行とテスト時に修正されたデータの詳細をリアルタイムで確認でき、知覚ではなくデータから効果を確認できるようになりました。

『The Dark Side of the Moon』は中国の6匹の小さなドラゴンの1つですが、世界的にはOpenAIでわずか0.5%、Anthropicで2%しか評価されていません。この国内の小さな企業は、非常に難しいテストセットで 2 つの最先端 (SOTA) スコアを作成しましたが、これらは国内またはオープンソースの SOTA スコアではなく、グローバルな SOTA スコアです。投稿前に、彼らのツイートの下に、多くの海外ユーザーの考えを反映したコメントが寄せられていました。最近、似たような内容を何度も目にしています。

歸藏(guizang.ai)（@op7418）のスレッド

作者情報

スレッド内容