正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月5日 下午5:50
第一個基於 Baguettotron 的 RL/DPO 項目(而且,非常符合品牌調性,也創作了 RL 詩歌)。它也間接地回答了能否透過全合成訓練實現多樣化生成的問題。