AIが料理を配達?ByteDanceが新たにリリースしたdoubao-seed-1.8エージェントの性能評価をご覧ください! 私のレビューでは、大規模なモデルを使ってコードを書いているのをよく見かけます。今日は新しい試みに挑戦してみましょう。大規模なモデルに食べ物を配達させたらどうなるでしょうか?どれくらい稼げるか試してみましょう! このテストでは、移動、注文の承諾、領収書の取得、食べ物の受け取り、食べ物の配達、課金などの 15 個のツール呼び出しを含む Silicon-Based Rider というフレームワークを作成しました。これにより、大規模なモデルでこれらのツール呼び出しを呼び出すことで、フードデリバリーライダーの食品配達プロセス全体をシミュレートできるようになります。 このレビューでは、新しくリリースされたdoubao-seed-1.8を最初にテストしました。結論は次のとおりです。 実行プロセス全体は驚くほどスムーズでした。この新しいモデルの最大入力コンテキスト長は224KBです。テストは6.5時間連続実行され、合計9360万トークンを消費しました。コンテキストを完全に使い果たし、1100回のツール呼び出しを実行しました。 作業を停止する直前でもツール呼び出しは継続できますが、ほとんどの小さなモデルではコンテキストが拡大するにつれてパフォーマンスが低下し、最終的にはツール呼び出しがまったくできなくなります。 つまり、doubao-seed-1.8 は、コンテキストの長さが 200K を超える場合のリコール レベルの点で非常に優れたパフォーマンスを発揮し、複雑なエージェントおよび MCP ツールの呼び出しを含むシナリオに特に適しています。 Doubao モデルの今回のアップグレードにより、Doubao などの周辺アプリケーションや、Doubao AI フォンのタスク実行能力も向上するのではないかと思います。 #豆包#豆包シード #seed18 #豆包AI
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。