我的意思是,如果你沒有立即發現評估結果中 gpt-oss-20b 的排名高於 gpt-5.1 有什麼問題的話,那就是有問題。應該有人建立一個嚴謹的評估指標體系。僅僅將普遍預期與實際結果進行比對就足夠了。