#5 - 如何計算您的 MFU? 連結 - https://t.co/Ve9Cgithub.com/karpathy/nanoc…r 在 nanochat 上進行了一場精彩的討論
#6 - 你高效率的強化學習架構悄悄地為你帶來了離策略性增強學習訓練 連結 - https://t.co/d2Loq5UwZQ 這篇部落格寫得很好,深入淺出地講解了訓練與推理不匹配以及它如何影響結fengyao.notion.site/off-policy-rl#…下,問題有多嚴重,以及如何使用重要性抽樣來修復它。”
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月17日 下午3:50
#5 - 如何計算您的 MFU? 連結 - https://t.co/Ve9Cgithub.com/karpathy/nanoc…r 在 nanochat 上進行了一場精彩的討論
#6 - 你高效率的強化學習架構悄悄地為你帶來了離策略性增強學習訓練 連結 - https://t.co/d2Loq5UwZQ 這篇部落格寫得很好,深入淺出地講解了訓練與推理不匹配以及它如何影響結fengyao.notion.site/off-policy-rl#…下,問題有多嚴重,以及如何使用重要性抽樣來修復它。”