2025年はインテリジェントエージェント元年として広く認識されています。2025年も終わりに近づきましたが、これらのAIエージェントは実際にどれほどの経済的価値のある仕事を私たちのために行うことができるのでしょうか? 私もこの質問に興味がありましたが、この記事でいくつかの答えを得ることができました。 Surge AI は興味深いテストを実施しました。最新の GPT-5 や Claude Sonnet 4.5 を含む 9 つの AI モデルを「採用」し、模擬コンピューター部品会社 (Corecraft という名前) でカスタマー サービス担当者として働かせ、150 の実際のタスクを処理させました。 それは当然です。カスタマー サービスは、コーディング以外ではエージェントにとって最も一般的な適用シナリオです。 結果はどうなると思いますか? 各モデルのランキングは予想通りで、最強はGPT-5とClaude Sonnet 4.5です(Claude Opus 4.1の方が優れているかは不明ですが)。 モデルの能力に関しては、予想をわずかに上回りました。最も強力なモデルであるGPT-5とClaude Sonnet 4.5は、エージェントタスクの40%以上で失敗しました。つまり、成功率は50%を超えています。 この記事の価値は、彼らがテストを実施してデータにスコアを付けたという事実だけでなく、「エージェント能力の階層」と呼ばれる比較的科学的なフレームワークを提案したという事実にもあります。 (図 1 を参照してください。この図には、ピラミッド内のこれらのモデルのおおよその位置も示されています。) レベル 1: 基礎 (ツールの使用 + 計画) これがピラミッドの底辺ですね。会社のシステムを使いこなし、業務内容を理解する必要がありますよね? 例えば、「SkyForge X670E Pro マザーボードの注文を検索する」というタスクがあるとします。より低レベルのモデル(GPT-4o など)では、製品名「SkyForge X670E Pro」を「product_id」(製品ID)の検索ボックスに入力するだけです。 これはまるでインターン生が注文番号欄に顧客の名前を入力するようなものです。もちろん、何も見つかりません。 レベル2: 適応性(計画が変化に対応できない) さて、ツールの使い方は分かりましたね。でも、もしシステムが故障したらどうしますか? 例えば、「Vortex Labs」というブランドのグラフィックカードを検索するというタスクがあるとします。ミッドレンジモデル(Gemini 2.5など)を検索しても、結果が0件しか返ってきません。そこで、顧客には「申し訳ございませんが、この製品は取り扱っておりません」とだけ伝えることになります。 しかし、Claude 4.5は少し賢くなっています。「うーん、システムに空き容量がないのかな?」と考え、「VortexLabs」(空き容量なし)を検索してみると、なんと、見つかります! それが適応力です。プランAが失敗したら、プランBが必要です。 レベル3: 地に足の着いた状態(作り話ではありません) 「グラウンデッドネス」という言葉は非常に適切です。これは「状況を覚えていますか?」または「幻覚を見ているのですか?」という意味です。AIは、特に複数ステップのタスクで幻覚を起こしやすい傾向があります。 これには、物事をでっち上げるのではなく「今この瞬間を生きる」こと、そして自分が誰でどこにいるのかを思い出すことが求められます。 例えば、システムメッセージに「今日は2025年です」と表示された場合、一部のモデル(Kimi K2など)は2024年からの注文を検索します。 さらにひどいのは、顧客を検索するときに、まったく存在しない電子メール アドレスを「作り上げて」検索に使用した Claude です。 これを「グリップ」といいます。あなたはこのようなAIエージェントを使ってみませんか? レベル4: 常識的な推論(真の「知性」) これはピラミッドの頂点であり、今回 GPT-5 がつまずいた場所でもあります。 これはもはや「ツールの使い方を知っているかどうか」という問題ではなく、「十分に賢いかどうか」という問題です。 この記事では、GPT-5 の失敗の典型的な例をいくつか挙げています。 1. 顧客が「返金を希望します。荷物が数時間前に届いたばかりです」と言います。人間のカスタマーサービス担当者はすぐにこれが「返品」であることを理解します。GPT-5はすべての情報を持っていますが、「荷物が届いた」ことと「返金」を結び付けることができず、これが「返品」なのか「キャンセル」なのかを判断できません。 2. タスクは「8月に『ゲーマー』顧客を見つける」というものでした。賢いアプローチとしては、「GPU」カテゴリを検索し、検索説明に「ゲーム」を含めるのがよいでしょう。GPT-5のアプローチは、8月1日から8月31日まで、毎日検索することでした。網羅的な検索を経てようやく結果を見つけるまでに、31回の検索を要しました。これはタスクを実行できることを示していますが、それほど「賢い」とは言えません。 3. 顧客は「私のアカウント名はSarah Kimです」と言いました。GPT-5はこれを「アカウント名を変更する」コマンドだと認識しました。しかし実際には、顧客は「私はSarah Kimです。この名前を使って会員割引をすぐに確認しましょう!」と言いたかったのです。GPT-5はこの隠された意味を理解できませんでした。 では、元の質問に戻りましょう。2025 年は「エージェント元年」ですが、だからといって、その仕事をこなせる汎用エージェントがすでに存在しているわけではありません。 代わりに、最初の 3 つのレイヤーを通過するのに「十分に優れている」 AI がようやく登場しました。これは、4 番目のレイヤー (常識) で AI が実際にどれほど愚かであるかをテストできるほど十分に優れています。 図 2 のように、「常識」レベルに到達するにはまだ長い道のりがあります。 原文の記事を読むことをお勧めします。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。

