¿Está muerto el LLM? El padrino del aprendizaje por refuerzo cree que los modelos lingüísticos extensos son un callejón sin salida. La persona que hizo esta escandalosa declaración es Richard Sutton, uno de los fundadores del aprendizaje por refuerzo. Su punto de vista es sencillo: LLM no es inteligencia artificial fundamental; es simplemente una tendencia en el campo de la IA. La verdadera base de la IA debería ser el aprendizaje por refuerzo. Sus opiniones son radicales, pero vale la pena considerar las razones que da. El primer problema fatal: “Inteligencia” sin objetivo. Sutton planteó una pregunta: ¿Puede llamarse inteligencia a algo que no tiene ningún objetivo? Citó la definición de John McCarthy, diciendo que la esencia de la inteligencia es "la parte computacional de la capacidad para lograr un objetivo". Según esta norma, ¿qué problemas existen con el LLM? El llamado "objetivo" de LLM es simplemente predecir la siguiente palabra. Le das un texto y te dice qué palabras tienen más probabilidades de aparecer a continuación. ¿Pero esto se considera un objetivo? Sutton lo expresó sin rodeos: las fichas llegan a ti por sí solas. Las predices, pero no puedes influir en ellas en absoluto. No se trata de objetivos en el mundo exterior; es solo un juego de palabras. Sin un objetivo, no hay definición de "correcto". ¿Qué constituye lo correcto a hacer? En el aprendizaje de refuerzo, la respuesta es clara: cosas que te traen recompensas. ¿Pero qué pasa con la Maestría en Derecho (LLM)? Incluso tiene un criterio vago sobre lo que está bien y lo que está mal. El segundo gran defecto: la falta de un modelo mundial realista. ¿En qué es bueno LLM? Imitar a los humanos. Puede imitar cómo la gente habla, escribe e incluso piensa. Pero Sutton dijo: Imitar el lenguaje no es lo mismo que comprender el mundo. LLM puede predecir lo que una persona dirá, pero no puede predecir lo que sucederá. Esta distinción es crucial. Un modelo del mundo real debería permitirle predecir las consecuencias de sus acciones. Por ejemplo, si empujo la taza desde la mesa, caerá al suelo y se romperá. Esta es una comprensión del mundo físico. ¿Pero qué pasa con LLM? Solo sabe que «la gente suele decir que la copa se romperá», que son dos cosas distintas. Lo que es más importante, los LLM no aprenden de los accidentes. Supongamos que usted predice que sucederá algo A, pero en cambio sucede B. Un sistema que realmente comprende el mundo dirá: "Oh, me equivoco, necesito ajustar mi modelo". Pero LLM no lo hará. No tiene este concepto de "accidente" porque el modelo nunca predice el mundo real; solo predice lo que la gente dirá en los datos de entrenamiento. El resumen de Sutton es esclarecedor: LLM aprende de los datos de entrenamiento, no de la experiencia. ¿Qué es la experiencia? Es hacer algo y luego ver qué sucede. Este tipo de interacción de primera mano es la verdadera fuente de aprendizaje. La tercera paradoja: la trampa de la escalabilidad Sutton escribió un famoso artículo llamado "La amarga lección". Idea central: La historia ha demostrado repetidamente que los métodos que se basan en el conocimiento humano terminarán perdiendo frente a los métodos que se basan puramente en el cálculo y el aprendizaje. Mucha gente cree que el LLM es el último ejemplo de esta lección. Vea, ¿los modelos entrenados con cantidades masivas de datos y poder computacional no superan a los sistemas de reglas tradicionales? Pero Sutton dijo: Sólo esperen y verán, LLM eventualmente se convertirá en lo opuesto de esta lección. ¿Por qué? Porque el Máster en Derecho, en esencia, aún se basa en el conocimiento humano. Aprende de la escritura, el habla y las acciones humanas. Éstos son los frutos del conocimiento humano. Sutton cree que el enfoque verdaderamente escalable es... El propio sistema intenta y observa qué funciona y qué no. No necesita que nadie le diga lo que está bien o lo que está mal: aprende por sí solo a través de la interacción con el mundo. Este es el núcleo del aprendizaje de refuerzo: el agente tiene un objetivo, el agente toma acción, el agente observa los resultados y el agente ajusta su estrategia. Este ciclo puede continuar indefinidamente, evolucionando constantemente. ¿Y qué pasa con el Máster en Derecho (LLM)? El aprendizaje se detiene al finalizar la formación. No puede seguir aprendiendo en el mundo real porque simplemente no sabe cómo interactuar con el mundo. LLM es como un maestro de la imitación del lenguaje. Puede memorizar perfectamente todos los guiones y diálogos humanos; cualquier cosa que le preguntes, puede darte una respuesta aparentemente plausible. Pero ¿qué le falta? Le falta la capacidad de actuar. No sabe lo que quiere (no tiene objetivo). No sé cuáles serían las consecuencias de decir estas cosas en el mundo real (no tengo un modelo mundial). Es simplemente una máquina de cadenas de palabras súper complicada. ¿Cómo debería ser la verdadera inteligencia? Debe ser una entidad con objetivos propios, capaz de interactuar con el mundo, aprender de cada interacción y ajustar constantemente sus estrategias para alcanzar mejor sus objetivos. Esto es lo que Sutton considera "IA básica". Las opiniones de Sutton quizá no sean del todo correctas, pero vale la pena considerar las preguntas que planteó. Tal vez los LLM no "mueran", ya que seguirán siendo valiosos en muchos escenarios de aplicación. Pero si nuestro objetivo es lograr una verdadera inteligencia artificial general (AGI). La advertencia de Sutton merece una seria consideración: Poder hablar no equivale a poder pensar. Poder imitar no equivale a poder aprender. La verdadera inteligencia puede requerir objetivos, acciones e interacción real con el mundo. Apenas hemos comenzado nuestro viaje en este camino. --- Lo anterior fue generado por IA y editado y formateado manualmente. Vea el vídeo en la sección de comentarios.
Si lees con frecuencia interpretaciones de artícyoutube.com/watch?v=21EYKq…nte oirás hablar del artículo "Una amarga lección". El anciano de la camisa floreada tenía una lengua muy afilada. https://t.co/QfaCNFRCVO