我們已經習慣了這些運行都是隨機的,所以如果某些方法行不通,我們不會嘗試使用 fp16。 雖然優秀的開發者理解 fp32 的優勢,並且在進行 layernorm、注意力減少、logits => softmax 等操作時已經使用了 fp32,即使權重是 bf16。
RL 剃刀紙鏈接,用於分享 ss 中的信息 - https://t.co/uq9f816ng5 @ChinmayKak 之前曾向我提及過這一點。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。