本当に悲しいですね。SOTAは見せかけだけで、実際の仕事となると、やはり「牛と馬」(優秀な従業員のこと)に頼らざるを得ないのです。 OpenRouter の創設者 Alex Atallah 氏は、最もよく使用されているバージョンは依然として Kimi-K2-0711 (7 月の Kimi-K2-Instruct) であるとツイートしました。 さらに、openai-o4-mini-high、Claude-3.7-Sonnet、gpt-oss-120b、openai-o3 もあります。 私が最初に思ったことは、「この人はオフラインだったのだろうか?長い間、新しい大型モデルを使っていなかったのだろうか?」でした。 しかし、よく見てみると、何かがおかしい。これこそパワーユーザーの真の使われ方だ。実にリアルだ! 現時点で、十分に大きなコンテキスト (128K)、適切なパフォーマンス (SWE-Bench Verified > 65)、強力なエージェント機能 (Tau2-bench > 65)、膨大な知識ベース (かなりの数のパラメータ)、および高速な応答時間 (思考モデルではない) を備えたものを見つけるとしたら、Kimi-K2-Instruct だけが適していると思われます。 遡って考えてみると、Alex Atallahの仕事は主にドキュメント処理(特に1340万トークンの長いコンテキスト)、ツールを用いた分析、そしてレポート作成(エージェント機能)といったものだったと考えられます。Kimi-K2-Instructはこれらすべてを処理でき、その後スクリプトを作成します(o4とClaude-3.7-Sonnetをフォールバックとして、あるいはエージェントにパッケージ化してKimi-k2がこれらのモデルを呼び出してスクリプトを作成できるようにするなど)。 最後に、Kimi-k2は最も重要なポイントであるデータプライバシーも満たしています。このモデルは重みがオープンであるため、独自のサーバーにデプロイでき、OpenAIやAnthropicに機密情報が漏洩することはありません。後述するGPT-OSS-120Bの存在も、この理由によるものと考えられます。 新しい大規模モデルがエージェントの能力に大きく依存するようになった理由は、理解できたと思います。人間がAIを直接利用する段階はまだ中間段階に過ぎず、上級ユーザーはすでにAIを使って他のAIを操作しています。あらゆるAIコンテキストの送受信に用いられるエージェント特化型モデルは、必然的に最も多く利用されるモデルの一つとなるでしょう。 元の投稿:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。

