Google DeepMind在Nature上發布了最新研究,【教導AI像人類一樣看世界】 讓AI不是「只會認圖」的機器,而是開始「理解圖」的智能體 目前視覺AI應用雖廣泛,但其「視覺理解」方式與人類有系統性差異,AI無法像人類一樣理解「汽車和飛機都是大型金屬交通工具」這種層次概念 研究者透過「找不同」任務比較了人類和AI的視覺理解方式,發現AI更容易被顏色、紋理等表面特徵幹擾,人類更關注語意層級 於是他們用了三步驟教導AI像人一樣思考,將AI的視覺表徵調整得更接近人類的認知結構 第一步,基於SigLIP-SO400M,凍結主幹網絡,在THINGS資料集上訓練一個小型適配器,得到“教師模型” 第二步,用教師模型產生大規模合成資料集AligNet,模擬人類的視覺判斷 第三步,用AligNet訓練“學生模型”,使其內部表徵更符合人類的語意層次結構 對齊後的模型在模擬人類視覺判斷、展現類似人類的「猶豫」不確定性,以及面對新任務時,表現的更穩、更準 #VLM
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
