¡El modelo de lenguaje de difusión también se puede entrenar por sí solo! Hoy en día no es raro entrenar o ajustar uno mismo los modelos Transformer, así que ¿te gustaría entrenar tu propio modelo de lenguaje de gran tamaño basado en la difusión? Analicemos el nuevo marco de trabajo dLLM. Este marco permite entrenar modelos de lenguaje de difusión a gran escala y es compatible con características como LoRa, DeepSpeed y FSDP. Además, incluye una función de evaluación integrada para valorar el rendimiento del entrenamiento. Además, también tiene una interfaz de chat de línea de comandos integrada muy interesante, jaja, donde se puede ver el proceso de salida del modelo de lenguaje grande de Diffusion, lo cual es muy interesante. Sin embargo, teniendo en cuenta lo que he mencionado anteriormente, el rendimiento del modelo de lenguaje grande Diffusion todavía está unos dos años por detrás del modelo Transformer, por lo que probablemente solo sirva para experimentar con él como un juguete. Dirección del marco:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.