X (Twitter)

我的总结：更多评估需要采用代理优先而非模型优先的方式，其中代理 = 模型 + 工具。实际上，在没有安全带的情况下评估模型基本上是不可能的，而且通常也没有用处；即使可以，它究竟在测量什么呢？一些说明： 1. 如今，模型框架（harness）在模型本身的基础上提供了巨大的价值。像@FactoryAI Droid 和 @AmpCode 这样的公司专注于创建出色且高性能的模型框架，这些框架针对跨模型编码进行了优化。您可以将模型框架作为产品出售，“HaaS=模型框架即服务”。 2. 如今的模型在训练时会用到其“在环”组件，这包括工具描述以及（我认为）何时/如何进行交错思考的行为。 3. 通过修改测试框架来确保跨模型评估的“公平性”并不公平。模型在其测试框架中是不可互换的，修改测试框架并不能实现标准化，因为我们缺乏解释工具来理解每个测试框架如何影响每个模型。我们只是将评估结果作为衡量标准的一种替代，而修改测试框架意味着我们知道模型性能在不同测试框架中是相同的，但事实并非如此。评估应该衡量完成任务的能力。为什么要将激发良好行为所需的最佳设置与模型本身脱钩呢？比如我们可以测量“如果我给这个模型最恶劣的条件来完成这项任务，它表现如何，是挣扎着完成，还是完美地完成”……但是为什么要这么做呢？！虽然这很酷很有趣，但如今在实际应用中并不实用。我们的目标是设计能够良好运行的系统，而模型只是该系统的一个（尽管是最重要的）组成部分。即使模型变得越来越智能，对辅助工具的需求越来越少，在评估中加强系统工程仍然是一件好事。我坚信辅助工具永远不会真正消失，我们可能只是给它改了个名字。

来自 Viv（@Vtrivedy10）的推文线程

作者信息

线程正文