大多数基准测试都很糟糕,而且人们也经常误解它们。 例如,HLE(高阶推理测试)很容易被作弊/训练,即使是无意的,因为题目遍布互联网,答案是否私密也无关紧要,因为人们总会解题,信息也会传播开来。因此,模型在HLE上得分高几乎总是意味着“人工智能看到了答案”。我不喜欢这种固定题目的基准测试,我认为一旦它流行起来,就会失去参考价值。或者更确切地说,他们衡量的只是团队在多大程度上未能对模型隐藏答案,因此,通常情况下,高分反而是一个坏兆头。 在VPCT测试中,所有题目的难度大致相同,因此,模型正确率从10%提升到90%并不意味着它超越了人类,仅仅意味着它突破了某个特定的阈值。即使是ARC-AGI也存在这个问题。这也是为什么基准测试的正确率经常会停滞在某个百分比的原因;通常这意味着大多数题目都很简单,只有少数题目非常难(甚至错误),因此人工智能的进步就止步于此。 (我绝无贬低Chase的工作之意,他的想法很好,也是一个很好的基准测试,但要构建一个完美无瑕的评估模型非常困难。或许带有适当缩放的V2版本可以解决这个缺陷。) 为了避免这种情况,我在进行人工智能测试时,每个“难度区间”只设置几个个人问题。当人工智能变得更聪明时,我只需设置一个更难的问题。这样,当新模型发布时,我只需要先给它一些最简单的问题,然后是一个更难的问题,再是一个更难的问题,以此类推。这样就能很容易地判断模型的实际智能水平。而且由于问题数量有限,如果我怀疑人工智能刚刚见过某个答案,我可以很容易地当场创建一些小的变体。 我希望我有时间做个评估
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。