X (Twitter)

diffusion 大語言模式也可以自己訓練了！現在自己訓練或微調transformer 模型已經不稀奇了，那麼想不想訓練屬於自己的基於diffusion 的大語言模型？來看新框架dLLM, 這個框架能用來訓練diffusion 大語言模型，並且支援支援LoRA、DeepSpeed 和FSDP 等功能。另外也內建了評估功能，這樣可以評估訓練的效果。另外它還內建了個酷炫的命令列chat介面哈哈，可以看到diffusion 大語言模型的輸出過程，很有意思。不過考慮到我之前先跟大家介紹過，目前diffusion 大語言模型效能距離transformer 模型仍有大約2年的差距，估計只能作為玩具玩一玩。框架地址：

來自 karminski-牙医（@karminski3）的推文串

作者資訊

推文串內容