想深入了解ChatGPT、Claude 這些AI 背後的訓練機制,尤其是它們背後那套如何透過人類回饋變得越來越聰明的原理。 可以看下,來自加州大學數學系教授Ernest K. Ryu 開設的《大語言模型的密集學習》課程,配套PPT 和影片可以免費學習。 課程從深度強化學習基礎講起,逐步深入到Transformer 架構和現代LLM 技術,最後聚焦於RLHF(人類回饋強化學習)等前沿訓練方法,系統講解如何讓AI 模型變得更聰明、更符合人類偏好。 課程地址:https://t.co/hKwoSkITJG 主要內容: - 深度強化學習基礎:MDP 理論、策略梯度方法(A3C、PPO)等核心演算法; - 大語言模型架構:從RNN 到Transformer,涵蓋BERT、GPT 等經典模型; - LLM 強化學習訓練:詳解RLHF、DPO 等讓模型遵循人類指令的技術; - AlphaGo 原理與專家迭代:學習如何提升模型的推理能力。 課程要求大家需要具備一定深度學習基礎,提供影片教學和Jupyter 程式碼範例可直接運行,理論與實作結合。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
