RT @LotusDecoder: 李博傑的10 月文章。 《Agent 持續學習的困境:為什麼Reasoner 不是真正的Agent? 》 喜歡的一些觀點摘錄: (訓練模型)這些成本遠低於多數人的想像。更重要的是,現在的訓練框架已經非常成熟了:trl、verl、A…