X (Twitter)

讓AI送外賣? 來看字節跳動剛發布的doubao-seed-1.8 Agent 能力評測! 大家常看到我的評測都是讓大模型寫代碼, 今天咱們整個新活, 如果讓大模型送外賣, 看看大模型能賺多少錢? 為了這個測試我寫了個框架, 叫做矽基騎手, 內置了15個tool call, 包括移動, 接單, 獲取小票, 取餐, 送餐, 充電等等, 讓大模型通過調用這些tool call 來模擬整個外賣騎手的送餐過程. 本次首先評測了剛發布的doubao-seed-1.8, 直接說結論: 整個執行過程非常絲滑, 這個新模型的最大輸入上下文長度是224K, 我的測試連續運行了6.5小時, 總計消耗了9360萬token! 完全耗盡了它的上下文, 執行了1100 次tool call! 即使是在停止工作前的最後一刻, 都可以繼續進行工具調用, 而大多數小模型隨著上下文增長是會性能越來越差最後完全無法進行tool call 的. 這意味著doubao-seed-1.8 在200K+的上下文長度上召回水平都相當不錯, 特別適合用來執行, 複雜的Agent 和MCP 工具調用的場景. 我有預感豆包模型這一波升級後, 週邊應用例如豆包, 甚至豆包AI手機, 執行任務的能力都會得到提升. #豆包 #豆包seed #seed18 #豆包AI

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文