확산 언어 모델은 스스로도 학습이 가능합니다! 요즘은 변환기 모델을 직접 훈련하거나 미세 조정하는 것이 드문 일이 아니므로 확산을 기반으로 대규모 언어 모델을 직접 훈련하고 싶으신가요? 새로운 프레임워크인 dLLM을 살펴보겠습니다. 이 프레임워크는 대규모 확산 언어 모델을 학습하는 데 사용할 수 있으며 LoRA, DeepSpeed, FSDP와 같은 기능을 지원합니다. 또한 학습 성능을 평가하는 평가 함수도 내장되어 있습니다. 또한 멋진 내장 명령줄 채팅 인터페이스도 있는데, 하하, 이를 통해 Diffusion 대규모 언어 모델의 출력 과정을 볼 수 있는데, 매우 흥미롭습니다. 하지만 제가 이전에 언급한 내용을 고려하면 Diffusion 대규모 언어 모델의 성능은 여전히 Transformer 모델보다 약 2년 정도 뒤처져 있으므로 아마도 장난감처럼 가지고 놀기에만 적합할 것입니다. 프레임 주소:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.