讓我感到困擾的是,「前沿基準測試」中的許多測試都在檢驗知識廣度(GPQA 和 HLE)以及以人為中心的偏見(ARC AGI)。 對於預訓練模型,我們主要測試的是是否包含了完全相關的資料集。 這充分說明了人類是如何看待智能的。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月18日 下午4:40
讓我感到困擾的是,「前沿基準測試」中的許多測試都在檢驗知識廣度(GPQA 和 HLE)以及以人為中心的偏見(ARC AGI)。 對於預訓練模型,我們主要測試的是是否包含了完全相關的資料集。 這充分說明了人類是如何看待智能的。