X (Twitter)

O modelo de linguagem de difusão também pode ser treinado de forma independente! Atualmente, não é incomum treinar ou ajustar modelos Transformer por conta própria. Gostaria, então, de treinar seu próprio modelo de linguagem de grande porte baseado em difusão? Vamos analisar o novo framework dLLM. Este framework pode ser usado para treinar modelos de linguagem de difusão em larga escala e suporta recursos como LoRA, DeepSpeed e FSDP. Ele também possui uma função de avaliação integrada para analisar o desempenho do treinamento. Além disso, também possui uma interface de bate-papo de linha de comando integrada bem legal, haha, onde você pode ver o processo de saída do modelo de linguagem Diffusion, o que é muito interessante. No entanto, considerando o que mencionei anteriormente, o desempenho do modelo de linguagem Diffusion para linguagens extensas ainda está cerca de dois anos atrás do modelo Transformer, então provavelmente só serve para brincar. Endereço do quadro:

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread