Le modèle de langage de diffusion peut également être entraîné de manière autonome ! De nos jours, il n'est pas rare d'entraîner ou d'affiner soi-même des modèles de transformateurs. Souhaiteriez-vous donc entraîner votre propre modèle de langage de grande taille basé sur la diffusion ? Examinons le nouveau framework dLLM. Ce framework permet d'entraîner des modèles de langage diffusifs à grande échelle et prend en charge des technologies telles que LoRa, DeepSpeed et FSDP. Il intègre également une fonction d'évaluation pour analyser les performances d'entraînement. De plus, il possède également une interface de chat en ligne de commande intégrée très sympa, haha, où vous pouvez voir le processus de sortie du modèle de langage Diffusion, ce qui est très intéressant. Cependant, compte tenu de ce que j'ai mentionné précédemment, les performances du modèle de langage Diffusion sont encore inférieures d'environ deux ans à celles du modèle Transformer, il ne convient donc probablement qu'à des fins ludiques. Adresse du cadre :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.