正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月24日 上午10:25
如果詞元空間是邏輯學習模型(LLM)推理的資訊瓶頸,那麼強化學習訓練的模型應該能夠高頻地學習使用所有詞元。但當我閱讀核心目標函數(cots)時,它們似乎使用的空間比基礎模型或模型輸出要小。