你可以通过使用限制逆误差率来重新利用接近饱和的基准测试。或者使用更严谨的公式。 事实上,我认为这比那些更难的基准测试更有价值。想象一下,一个包含 1000 个项目的 AIME-Pro 扩展包,可以让你了解模型的可靠性。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月15日 04:01
你可以通过使用限制逆误差率来重新利用接近饱和的基准测试。或者使用更严谨的公式。 事实上,我认为这比那些更难的基准测试更有价值。想象一下,一个包含 1000 个项目的 AIME-Pro 扩展包,可以让你了解模型的可靠性。