最后,基于综合练习的系统性评估正逐渐成为架构评估的标准方法(来自 Kimi-Linear)。非常感谢 Physics of Language Models 的引领。一步一步走出HellaSwag的黑暗时代。