X (Twitter)

大多數基準測試都很糟糕，而且人們也經常誤解它們。例如，HLE（高階推理測驗）很容易被作弊/訓練，即使是無意的，因為題目遍布互聯網，答案是否私密也無關緊要，因為人們總會解題，信息也會傳播開來。因此，模型在HLE上得分高幾乎總是意味著「人工智慧看到了答案」。我不喜歡這種固定題目的基準測試，我認為一旦它流行起來，就會失去參考價值。或者更確切地說，他們衡量的只是團隊在多大程度上未能對模型隱藏答案，因此，通常情況下，高分反而是個壞兆頭。在VPCT測試中，所有題目的難度大致相同，因此，模型正確率從10%提升到90%並不意味著它超越了人類，僅僅意味著它突破了某個特定的閾值。即使是ARC-AGI也存在這個問題。這也是為什麼基準測試的正確率經常會停滯在某個百分比的原因；通常這意味著大多數題目都很簡單，只有少數題目非常難（甚至錯誤），因此人工智慧的進步就止步於此。（我絕無貶低Chase的工作之意，他的想法很好，也是一個很好的基準測試，但要構建一個完美無瑕的評估模型非常困難。或許帶有適當縮放的V2版本可以解決這個缺陷。）為了避免這種情況，我在進行人工智慧測試時，每個「難度區間」只設定幾個個人問題。當人工智慧變得更聰明時，我只需設定一個更難的問題。這樣，當新模型發佈時，我只需要先給它一些最簡單的問題，然後是一個更難的問題，再是一個更難的問題，以此類推。這樣就能很容易判斷模型的實際智能水準。而且由於問題數量有限，如果我懷疑人工智慧剛剛見過某個答案，我可以很容易地當場創建一些小的變體。我希望我有時間做個評估

來自 Taelin（@VictorTaelin）的推文串

作者資訊

推文串內容