Para facilitar la visualización de los videos, hemos compilado una lista de términos relacionados con la IA que aparecen en los videos. Aprendizaje por refuerzo (RL) Imagínate que estás enseñando a un niño a montar en bicicleta. No le darías un "Manual de Ciclismo Estándar", sino que lo dejarías intentarlo por sí mismo. Si se cae, le duele (castigo), y si pedalea con constancia, es feliz (recompensa). Lo aprenderá naturalmente después de algunos intentos. Éste es el núcleo del aprendizaje por refuerzo: aprender a partir de la experiencia y orientado a objetivos. Sutton (el que ganó el Premio Turing) cree que esta es la verdadera base de la IA. El agente realiza acciones, experimenta los resultados y luego ajusta su estrategia para obtener más recompensas. Es como jugar un juego: mueres y empiezas de nuevo, descubriendo poco a poco las estrategias. Modelos de lenguaje grandes (LLM) Gemini, ChatGPT y Claude siguen una lógica diferente. Su tarea es sencilla: adivinar la siguiente palabra. Aliméntalo con una gran cantidad de texto para que aprenda "así es como los humanos suelen hablar". Pero Sutton sintió que esto era un callejón sin salida. ¿Por qué? Porque es mera imitación, sin un objetivo real y no aprender de la experiencia real. Al igual que alguien que ha memorizado un montón de recetas puede que en realidad no sepa cocinar. Modelo mundial Puedes lanzar una pelota sin necesidad de lanzarla realmente; puedes predecir en tu mente dónde caerá. Este es el modelo del mundo, su comprensión de las leyes de la física. Sutton dijo que los LLM no tienen esto. Sólo pueden predecir "lo que dirán los humanos", pero no "lo que sucederá en el mundo real". Meta Tener un objetivo es lo que hace que algo sea inteligente. Un sistema sin un objetivo es como un loro que sólo repite lo que dices. En el RL, el objetivo se transforma en una señal de recompensa que le dice al sistema "hacer esto es lo correcto". Para las ardillas, el objetivo es encontrar nueces. Para AlphaGo, el objetivo es ganar el juego. ¿Cuáles son los objetivos de los LLM? Sutton consideró que "predecir la siguiente palabra" no era un objetivo sustancial. Experiencia vs. Datos de Entrenamiento La experiencia es cuando realmente haces algo y ves las consecuencias. Toqué la tetera y me quemé. La próxima vez sabré que no debo tocarla. Los datos de entrenamiento son lo que otros te dicen: "La tetera estará caliente". Lo recordaste, pero no lo experimentaste realmente. Sutton enfatizó que el verdadero aprendizaje debe provenir de la experiencia. Aprendizaje de Diferencias Temporales (TD Learning) La obra maestra de Sutton. La pregunta que debemos abordar es: ¿cómo trabajar hacia atrás desde los objetivos a largo plazo para deducir acciones a corto plazo? Cuando juegas al ajedrez, no sabes si tu movimiento es bueno o malo hasta el final. TD Learning permite al sistema predecir si "este movimiento mejorará o empeorará la situación" y luego ajustar su estrategia inmediatamente. Es como corregir tu ruta de navegación a medida que avanzas; no tienes que esperar hasta llegar al destino para darte cuenta de que has ido por el camino equivocado. Función de valor Califica cada estado: "Dada la situación actual, ¿cuáles son las posibilidades de lograr el objetivo?" La puntuación ha aumentado, lo que significa que el paso anterior fue correcto; continúa reforzándolo. La puntuación bajó, lo que significa que cometiste un error. No lo vuelvas a hacer la próxima vez. Representación estatal La percepción de "¿Dónde estoy ahora?" Cuando entras en una habitación, puedes saber inmediatamente si es una cocina o un dormitorio. La IA también necesita transformar los datos de los sensores en "estados" para poder tomar decisiones. Modelo de transición Un modelo causal que pregunta "¿Qué pasaría si hiciera esto?" Sabes que al empujar la puerta se abrirá y al presionar el interruptor se encenderá la luz. Ésta es tu comprensión de las leyes físicas del mundo. Sutton dijo que esto era lo único que quería llamar "modelo". La amarga lección El argumento central de un artículo que Sutton escribió en 2019 es: No le impongas a la IA el conocimiento humano; déjala aprender por sí sola. La historia ha demostrado repetidamente que los "métodos inteligentes" que se basan en el conocimiento de expertos humanos son los más eficaces. Al final, todos perdieron ante el método de fuerza bruta de "utilizar un poder computacional masivo para aprender". Los LLM parecen confirmarlo (fueron entrenados con cantidades masivas de datos). Pero Sutton cree que con el tiempo se convertirán en contraejemplos porque carecen del elemento de "aprender de la experiencia". La paradoja de Moravec Lo que a los humanos le resulta fácil, a la IA le resulta difícil. Lo que a los humanos les resulta difícil, a la IA le resulta fácil. Dejar que la IA resuelva problemas matemáticos avanzados: es muy fácil. ¿Pero qué tal si le enseñamos a caminar y a agarrar cosas como un bebé? Observa el progreso de los robots ahora. Sucesión de IA La audaz predicción de Sutton: la inteligencia digital eventualmente reemplazará a los humanos como fuerza dominante. No se trata de un levantamiento de robots como en las películas de ciencia ficción, sino de una consecuencia inevitable de la evolución. Al igual que los organismos unicelulares evolucionaron hasta convertirse en organismos multicelulares. Ahora es el momento de que la "inteligencia diseñada" sustituya a la "inteligencia evolucionada naturalmente". Él llamó a esta época la Era del Diseño. En lugar de depender de la replicación genética, diseñamos directamente agentes inteligentes y entendemos completamente cómo funcionan. TD-Gammon En la década de 1990, Jerry Tassarro utilizó TD Learning para entrenar una IA que jugaba al backgammon y derrotó al campeón mundial. Esta es la primera vez que el aprendizaje de refuerzo demuestra su eficacia. AlphaGo / AlphaZero Seguramente has oído hablar de la derrota de AlphaGo ante Lee Sedol. Pero aún más impresionante es AlphaZero, que aprende completamente a través del juego propio sin necesidad de registros de juego humanos, y en última instancia realiza movimientos que los humanos nunca han visto antes. Sutton mencionó específicamente que AlphaZero sacrifica piezas por ventajas posicionales, un estilo de "no ser codicioso de ganancias inmediatas" que incluso los maestros humanos encuentran asombroso. MuZero Otro trabajo de DeepMind. Curiosamente, no se trata de un "agente de propósito general", sino más bien de un marco de entrenamiento; cada vez, es necesario entrenar a un agente específico para un juego en particular. Esto también refleja las limitaciones actuales de la IA: todavía no puede alcanzar una verdadera inteligencia general. Varias figuras clave Richard Sutton, el padre del aprendizaje de refuerzo y ganador del premio Turing, inventó el aprendizaje TD y el aprendizaje de gradiente de políticas. John McCarthy define la inteligencia como "la parte computacional de la capacidad para lograr un objetivo". Alan Turing dijo una vez: "Queremos una máquina que pueda aprender de la experiencia". Joseph Henrich estudia la evolución cultural, explicando cómo los humanos transmiten habilidades complejas a través de la imitación.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.