你可以透過使用限制逆誤差率來重新利用接近飽和的基準測試。或使用更嚴謹的公式。 事實上,我認為這比那些更難的基準測試更有價值。想像一下,一個包含 1000 個項目的 AIME-Pro 擴充包,可以讓你了解模型的可靠性。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月15日 凌晨4:01
你可以透過使用限制逆誤差率來重新利用接近飽和的基準測試。或使用更嚴謹的公式。 事實上,我認為這比那些更難的基準測試更有價值。想像一下,一個包含 1000 個項目的 AIME-Pro 擴充包,可以讓你了解模型的可靠性。