我对深入研究模型如何在自身框架内表现更佳(例如:CC 中的 Claude)非常感兴趣。 对于任务而言,重要工具的存在是合理的,但我还没有看到用于衡量其效果的细粒度部署指标。例如: - 内置的待办事项/计划工具是否经常被使用,因此对成功推广至关重要? 模型对工具描述的更改有多敏感?是否只需简单提示即可修复?更多强化学习者需要多长时间才能熟练使用新工具? - ETC + 交叉支架实验在这里很有意思,比如 Kimi 在 CC 支架中的初始状态 —> Kimi 在 CC 支架中的微调状态
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。