O modelo de linguagem de difusão também pode ser treinado de forma independente! Atualmente, não é incomum treinar ou ajustar modelos Transformer por conta própria. Gostaria, então, de treinar seu próprio modelo de linguagem de grande porte baseado em difusão? Vamos analisar o novo framework dLLM. Este framework pode ser usado para treinar modelos de linguagem de difusão em larga escala e suporta recursos como LoRA, DeepSpeed e FSDP. Ele também possui uma função de avaliação integrada para analisar o desempenho do treinamento. Além disso, também possui uma interface de bate-papo de linha de comando integrada bem legal, haha, onde você pode ver o processo de saída do modelo de linguagem Diffusion, o que é muito interessante. No entanto, considerando o que mencionei anteriormente, o desempenho do modelo de linguagem Diffusion para linguagens extensas ainda está cerca de dois anos atrás do modelo Transformer, então provavelmente só serve para brincar. Endereço do quadro:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.