我對深入研究模型如何在自身框架內表現更佳(例如:CC 中的 Claude)非常感興趣。 對於任務而言,重要工具的存在是合理的,但我還沒有看到用於衡量其效果的細粒度部署指標。例如: - 內建的待辦事項/規劃工具是否經常被使用,因此對成功推廣至關重要? 模型對工具描述的變更有多敏感?是否只需簡單提示即可修復?更強化學習者需要多長時間才能熟練使用新工具? - ETC + 交叉支架實驗在這裡很有意思,例如 Kimi 在 CC 支架中的初始狀態 —> Kimi 在 CC 支架中的微調狀態
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。