Escribí una breve entrada en LessWrong sobre la corregibilidad y cómo podría ser posible llevarla a un grado útil desde el aprendizaje por refuerzo. Léela y dime qué te parece.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
