Rich Sutton se prepara para elaborar su "visión de la Superinteligencia sin amargura" (con lo que aparentemente solo quiere decir que respeta su amarga lección, no cualquier amargura colateral causada a todos nosotros 😋) #NeurIPS2025
En cuanto a las "opciones", son una generalización MDP de los macrooperadores STRIPS. El reto con estas no es tanto cómo crearlas (hay demasiadas), sino cómo conservar solo las buenas y descartar las inútiles: el llamado "problema de utilidad".
Una preocupación que tengo sobre este tipo de "dejar que el agente descubra sus propias abstracciones" es que sus abstracciones pueden no corresponder a las que desarrollamos, empeorando así el problema de alineación.
*Ufff* ¡Me alegra que Rich le dé el visto bueno a la planificación! Sinceramente, estoy de acuerdo en que "planificar" es convertir el modelo de transición que el agente ya tiene en una política; pero a menudo es difícilx.com/rao2z/status/1…ión del aprendizaje. Ver https://t.co/72HjXOJ1G6 #NeurIPS2025
En un tono más ligero, me pregunto cuántos en la audiencia se dan cuenta de que los "modelos de transición" son solo el nombre real para el término más popular en LLM "modelo mundial"... #NeurIPS2025 [Además, me encantó la forma en que Rich desestimó la pregunta "¿es necesario el miedo a la muerte para el comportamiento ético?" con "No... y también es ortogonal a mi charla...]
tldr; La charla de Rich #NeurIPS2025 exhorta a quienes creen que "un LLM es todo lo que necesitan" a prestar más atención a los desafíos de aprender de la experiencia real... pero, en mi humilde opinión, subestima la dificultad de hacerlo cumpliendo conx.com/rao2z/status/1… existente. https://t.co/85IfNVLC3j
La gente subestima lo difícil que sería alinear a los agentes que aprenden exclusivamente de su propia experiencia con nuestros valores. Si bien la alineación de LLM se ha convertido en una especie de industria artesanal, ¡es un juego dx.com/rao2z/status/1… #NeurIPS2025




