diffusion 大語言模式也可以自己訓練了! 現在自己訓練或微調transformer 模型已經不稀奇了,那麼想不想訓練屬於自己的基於diffusion 的大語言模型? 來看新框架dLLM, 這個框架能用來訓練diffusion 大語言模型,並且支援支援LoRA、DeepSpeed 和FSDP 等功能。另外也內建了評估功能,這樣可以評估訓練的效果。 另外它還內建了個酷炫的命令列chat介面哈哈,可以看到diffusion 大語言模型的輸出過程,很有意思。 不過考慮到我之前先跟大家介紹過,目前diffusion 大語言模型效能距離transformer 模型仍有大約2年的差距,估計只能作為玩具玩一玩。 框架地址:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。