#5 - 如何计算您的 MFU? 链接 - https://t.co/Ve9Cgithub.com/karpathy/nanoc…r 在 nanochat 上进行了一场精彩的讨论
#6 - 你高效的强化学习框架悄悄地为你带来了离策略强化学习训练 链接 - https://t.co/d2Loq5UwZQ 这篇博客写得很好,深入浅出地讲解了训练与推理不匹配以及它如何影响结果。 fengyao.notion.site/off-policy-rl#…题有多严重,以及如何使用重要性抽样来修复它。”
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月17日 15:50
#5 - 如何计算您的 MFU? 链接 - https://t.co/Ve9Cgithub.com/karpathy/nanoc…r 在 nanochat 上进行了一场精彩的讨论
#6 - 你高效的强化学习框架悄悄地为你带来了离策略强化学习训练 链接 - https://t.co/d2Loq5UwZQ 这篇博客写得很好,深入浅出地讲解了训练与推理不匹配以及它如何影响结果。 fengyao.notion.site/off-policy-rl#…题有多严重,以及如何使用重要性抽样来修复它。”