Esto parece realmente importante: Es totalmente plausible que un modelo pueda obtener oro en mi opinión sin *ningún* aprendizaje de refuerzo, dado un mensaje perfectamente elaborado. Simplemente no lo sabemos y carecemos de herramientas para buscar eficientemente en el espacio de indicaciones. Me alegra ver que al menos alguien lo está intentando.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.