Para cualquier persona interesada en bucles de retroalimentación de agencia y arneses + evaluaciones o simplemente curioso acerca de "eventualmente tendré que tocar las pesas", esta es una excelente lectura (excelente en general, en realidad) analiza el paradigma de recompensa RL con algunas analogías interesantes sobre cómo funcionan la retroalimentación y el aprendizaje para los humanos (recompensa mucho más densa) con asignación de crédito natural. La optimización a través de señales de retroalimentación más densas es temprana pero muy prometedora y tiene sentido intuitivamente (?)
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.