Escribí una publicación breve sobre un experimento sobre la densidad de información de CoT y CoT extraños (adobo, observadores, mezcla de idiomas), que brinda cierta evidencia de que los LLM con aprendizaje directo no se esfuerzan tanto por comprimir la información en cada token. Me interesa escuchar las opiniones de la gente. Enlace a continuación.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.