El slop es básicamente contenido que maximiza la relación recompensa-perplejidad. Mecanísticamente, esto consiste en hackear la recompensa mediante el colapso de la distribución de salida en una cuenca con algunos patrones óptimos de Pareto, construyendo esencialmente una gramática degenerada específica para esta configuración de entrenamiento.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.