> Tengo mucha curiosidad por saber cómo habría sido el puntaje si el modelo hubiera producido resultados para cada muestra sin exceder el límite máximo de tokens de salida. Realmente necesitan reducir la verbosidad del razonamiento y/o ampliar el contexto a más de 256 KB. DSA hace que esto sea económico, en teoría.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.