X (Twitter)

我对深入研究模型如何在自身框架内表现更佳（例如：CC 中的 Claude）非常感兴趣。对于任务而言，重要工具的存在是合理的，但我还没有看到用于衡量其效果的细粒度部署指标。例如： - 内置的待办事项/计划工具是否经常被使用，因此对成功推广至关重要？模型对工具描述的更改有多敏感？是否只需简单提示即可修复？更多强化学习者需要多长时间才能熟练使用新工具？ - ETC + 交叉支架实验在这里很有意思，比如 Kimi 在 CC 支架中的初始状态 —> Kimi 在 CC 支架中的微调状态

来自 Viv（@Vtrivedy10）的推文线程

作者信息

线程正文