正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月12日 下午4:34
RT @HeMuyu0327:策略內蒸餾將徹底改變強化學習以外的多回合工具使用訓練,但無論是 Tinker 還是 TRL,都沒有實現…