正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月19日 凌晨4:33
RT @AdtRaghunathan:強化學習後訓練悖論:✅ Pass@1 上升❌ Pass@K 下降(多樣性崩潰) 以往的方法通常需要權衡取捨…