Una escalera de sigmoides Me adentré en una referencia después de leer el artículo de Dwarkesh que me tenía bastante preocupado. En la publicación, menciona: Toby Ord publicó una excelente publicación donde conecta ingeniosamente los puntos entre diferentes gráficos de referencia de la serie O, sugiriendo que "necesitamos una ampliación de aproximadamente 1 000 000 veces el cómputo total de RL para obtener un impulso similar al nivel de GPT". Esto hace que parezca que las cosas se van a estancar. Toby llega al punto de decir dos cosas que me preocuparon: 1. "Hemos visto ganancias impresionantes, pero estas solo eran viables partiendo de una base tan baja. Hemos llegado al punto en que resulta demasiado costoso ir más allá." 2. "Ahora que el entrenamiento de RL está llegando a su límite efectivo, es posible que hayamos perdido la capacidad de convertir efectivamente más computación en más inteligencia". Pregunté qué tan legítima era esta afirmación y cuál era el argumento contrario a favor de ampliar la vida real. Un buen amigo dijo: «Sí, si sigues escalando la computación de RL de forma ingenua, escalará mal. ¡Pero no deberíamos hacerlo! Por eso hay tantas empresas de entornos de RL. Un mejor enfoque es escalar a entornos más nuevos y complejos». Después de reflexionar un poco sobre las cosas, encontré una forma de resumirlo aún más: "Imaginarlo como una escalera sigmoidea para nuevas tareas, mundos y objetivos es la forma más útil de pensar en cómo puede seguir funcionando durante un tiempo".
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.