正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月23日 晚上7:06
RT @NoahZiems:我們在 mmGRPO 論文中對提示和強化學習的結合進行了相當深入的研究。感覺我們已經…