Resumen futuro. Muy interesante, profundiza en la idea original de la predicción multitoken como método para suprimir la influencia del profesor, en lugar de acelerar la decodificación. Me recuerda de alguna manera a la idea del Free Transformer de @francoisfleuret.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
