大多數基準測試都很糟糕,而且人們也經常誤解它們。 例如,HLE(高階推理測驗)很容易被作弊/訓練,即使是無意的,因為題目遍布互聯網,答案是否私密也無關緊要,因為人們總會解題,信息也會傳播開來。因此,模型在HLE上得分高幾乎總是意味著「人工智慧看到了答案」。我不喜歡這種固定題目的基準測試,我認為一旦它流行起來,就會失去參考價值。或者更確切地說,他們衡量的只是團隊在多大程度上未能對模型隱藏答案,因此,通常情況下,高分反而是個壞兆頭。 在VPCT測試中,所有題目的難度大致相同,因此,模型正確率從10%提升到90%並不意味著它超越了人類,僅僅意味著它突破了某個特定的閾值。即使是ARC-AGI也存在這個問題。這也是為什麼基準測試的正確率經常會停滯在某個百分比的原因;通常這意味著大多數題目都很簡單,只有少數題目非常難(甚至錯誤),因此人工智慧的進步就止步於此。 (我絕無貶低Chase的工作之意,他的想法很好,也是一個很好的基準測試,但要構建一個完美無瑕的評估模型非常困難。或許帶有適當縮放的V2版本可以解決這個缺陷。) 為了避免這種情況,我在進行人工智慧測試時,每個「難度區間」只設定幾個個人問題。當人工智慧變得更聰明時,我只需設定一個更難的問題。這樣,當新模型發佈時,我只需要先給它一些最簡單的問題,然後是一個更難的問題,再是一個更難的問題,以此類推。這樣就能很容易判斷模型的實際智能水準。而且由於問題數量有限,如果我懷疑人工智慧剛剛見過某個答案,我可以很容易地當場創建一些小的變體。 我希望我有時間做個評估
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。