#5 - MFU를 계산하는 방법? 링크 - https://t.co/Vgithub.com/karpathy/nanoc…ller가 nanochat에서 흥미로운 토론을 했습니다.
#6 - 효율적인 RL 프레임워크는 비밀리에 정책 외 RL 훈련을 제공합니다. 링크 - https://t.co/d2Loq5UwZQ 훈련-추론 불일치를 이해하고 그것이 결과에fengyao.notion.site/off-policy-rl#… 정말 좋은 블로그입니다. "인프라가 계산을 망가뜨리고 있습니다. 그 이유와 심각성, 그리고 중요도 샘플링을 통해 문제를 해결하는 방법을 알려드립니다."

