Dato interesante: La predicción multi-token de DeepSeek en la versión 3 (dic. 2024) se basa en EAGLE (ene. 2024) y cita a MTP de Meta (abr. 2024) como fuente de inspiración. Actualmente, MTP se está convirtiendo en un estándar en los modelos chinos. LLaMA 4 de Meta (abril de 2025) no utiliza MTP (ni casi nada).
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.