哭了, SOTA 只是面子, 真幹活還得靠"牛馬模型" OpenRouter 創辦人Alex Atallah 剛發了個推, 說自己用量最大的還是Kimi-K2-0711 (7月份的Kimi-K2-Instruct). 然後是openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3 我第一看上去, 這人是不是斷網了, 好久沒用新的大模型了? 但仔細一想, 不對勁, 很不對勁. 這才是真正Power User 的用法, 太真實了 如果在這個時間點找一個, 足夠大上下文(128K), 性能夠用(SWE-Bench Verified > 65), Agent 能力強(Tau2-bench > 65), 知識面巨廣(參數量相當大), 且回答得快(非Thinking模型), 好像只有Kimi-K2-Instructi-K2-Instructi-K2-Instructi-K2-Instructi-K2-Instructi-K2-Instructi 了 這麼倒推Alex Atallah 應該大部分工作都是處理文檔(長上下文, 尤其是用了13.4M token), 使用工具分析並撰寫報告(Agent 能力), 這些Kimi-K2-Instruct 都能搞定, 然後寫寫腳本(o4 和Claude-3.7-Sonnet 兜底, 甚至可以包裝成Agent Kimi-k2. 最後Kimi-k2 還能滿足最重要的一點, 資料隱私, 因為模型是開放權重的, 可以部署在自家伺服器, 任何敏感資訊都不會洩露給OpenAI 或Anthropic. 甚至下面那個GPT-OSS-120B 存在意義應該也在於此. 我大概能懂現在新的大模型為什麼卷Agent 能力了, 人直接用AI 只是中間階段, 高級用戶都已經用AI 來操作AI 了. 一個用來收發所有AI 上下文的Agent 特化模型必然會是用量Top. 原帖:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。

