RT @xeophon_: 臥推很難 他們的 GPT-OSS 分數與參考分數相比最多相差 10 分(GPQA-D),他們的 GPQA-D 實施分數與參考分數相比相差 2-3 分…
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月27日 晚上7:31
RT @xeophon_: 臥推很難 他們的 GPT-OSS 分數與參考分數相比最多相差 10 分(GPQA-D),他們的 GPQA-D 實施分數與參考分數相比相差 2-3 分…