我们已经习惯了这些运行都是随机的,所以如果某些方法行不通,我们不会尝试使用 fp16。 虽然优秀的开发者理解 fp32 的优势,并且在进行 layernorm、注意力减少、logits => softmax 等操作时已经使用了 fp32,即使权重是 bf16。
RL 剃刀纸链接,用于分享 ss 中的信息 - https://t.co/uq9f816ng5 @ChinmayKak 之前曾向我提及过这一点。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。