让我感到困扰的是,“前沿基准测试”中的很多测试都在检验知识广度(GPQA 和 HLE)以及以人为中心的偏见(ARC AGI)。 对于预训练模型,我们主要测试的是是否包含了完全相关的数据集。 这充分说明了人类是如何看待智能的。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月18日 16:40
让我感到困扰的是,“前沿基准测试”中的很多测试都在检验知识广度(GPQA 和 HLE)以及以人为中心的偏见(ARC AGI)。 对于预训练模型,我们主要测试的是是否包含了完全相关的数据集。 这充分说明了人类是如何看待智能的。