X (Twitter)

我對深入研究模型如何在自身框架內表現更佳（例如：CC 中的 Claude）非常感興趣。對於任務而言，重要工具的存在是合理的，但我還沒有看到用於衡量其效果的細粒度部署指標。例如： - 內建的待辦事項/規劃工具是否經常被使用，因此對成功推廣至關重要？模型對工具描述的變更有多敏感？是否只需簡單提示即可修復？更強化學習者需要多長時間才能熟練使用新工具？ - ETC + 交叉支架實驗在這裡很有意思，例如 Kimi 在 CC 支架中的初始狀態 —> Kimi 在 CC 支架中的微調狀態

來自 Viv（@Vtrivedy10）的推文串

作者資訊

推文串內容