Si el espacio de tokens fuera un cuello de botella de información para el razonamiento de los modelos LLM, se esperaría que los modelos entrenados en RL aprendieran a usar todos los tokens con alta frecuencia. Sin embargo, al analizar los modelos cot, estos parecen limitados, ya que utilizan un espacio de tokens menor que el de los modelos base o el resultado del modelo.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.