X (Twitter)

Creo que muchas personas han traducido o resumido el resumen de AK 2025. Lo he reescrito y formateado nuevamente para mi propio aprendizaje; recomiendo leer el texto original. --- Andrej Karpathy escribió una retrospectiva de LLM 2025, enumerando seis cosas que, según él, "cambiarán el panorama". 1. El aprendizaje por refuerzo ha encontrado nuevas aplicaciones. Anteriormente, el entrenamiento de modelos grandes implicaba tres pasos: ① Entrenamiento previo (el conjunto GPT-2/3 de 2020) ② Supervisar y ajustar (InstructGPT en 2022) ④ Aprendizaje por refuerzo con retroalimentación humana (RLHF, también en 2022). Esta fórmula se ha mantenido estable durante varios años. En 2025 se añadió un cuarto paso: RLVR (Aprendizaje de refuerzo de recompensa verificable). Cuando a un modelo se le asigna la tarea de resolver problemas matemáticos o escribir código (preguntas con respuestas estándar), descubrirá sus propias estrategias de razonamiento. Dividen los problemas en pasos más pequeños, lo intentan repetidamente y fracasan, y encuentran un método que les conviene. Estas estrategias son difíciles de enseñar utilizando métodos de entrenamiento previos porque no se sabe qué camino de inferencia es óptimo para el modelo; solo se puede dejar que lo descubra por sí mismo a través de la optimización de recompensas. El cambio clave es la asignación de recursos informáticos. Tanto el ajuste fino supervisado previo como el RLHF eran "capas delgadas" con poco costo computacional. Sin embargo, RLVR se puede entrenar durante mucho tiempo porque la función de recompensa es objetiva y no se puede explotar. Como resultado, la potencia de cálculo originalmente destinada al entrenamiento previo fue consumida por RLVR. Por lo tanto, en 2025, el tamaño del modelo no cambió mucho, pero el tiempo de aprendizaje de refuerzo se extendió significativamente. Además, hay un nuevo botón de control: la cantidad de cálculo durante la prueba. Puedes mejorar las capacidades del modelo haciéndole generar procesos de razonamiento más largos y aumentando el "tiempo de pensamiento". El o1 de OpenAI (finales de 2024) es el primer modelo RLVR. Pero el año o3 (principios de 2025) es el verdadero punto de inflexión y se puede sentir directamente la diferencia. 2. Estamos invocando fantasmas, no criando animales. En 2025, Karpathy dijo que comenzó a comprender la "forma" de la inteligencia de los modelos a gran escala de manera más intuitiva. Utilizó una analogía muy interesante: no somos animales en evolución, somos fantasmas invocados. En los modelos grandes todo es diferente: la arquitectura de la red neuronal, los datos de entrenamiento, los algoritmos de entrenamiento y, especialmente, la presión de optimización. La inteligencia humana está optimizada para la supervivencia en la jungla. Sin embargo, la inteligencia de los modelos grandes está optimizada para imitar el texto humano, obtener recompensas en problemas matemáticos y ganar la aprobación humana en el ámbito de LLM. Por eso sus capacidades son particularmente desiguales, como dientes de sierra. En dominios verificables (como matemáticas y código), las capacidades de un modelo pueden "explotar" porque se puede entrenar utilizando RLVR. Sin embargo, también podría tratarse de un estudiante de primaria confundido, cuyos datos podrían ser robados en cualquier momento mediante un ataque de jailbreak. Karpathy dice que la inteligencia humana también es irregular, sólo que tiene una forma diferente. Perdió la fe en los parámetros de evaluación. La cuestión central es que las pruebas de referencia casi siempre se realizan en entornos verificables, por lo que inmediatamente se convierten en objetivos de RLVR y de generación de datos sintéticos. El equipo de laboratorio construye el entorno de entrenamiento cerca del espacio de inserción ocupado por los puntos de referencia, creando bordes irregulares para cubrirlos. Entrenar en sets de prueba se ha convertido en un nuevo arte. (¿Ironía?) También hizo una pregunta muy conmovedora: ¿Cómo sería si obtuvieras una puntuación alta en todas las pruebas de referencia pero aún así no lograras el IAG? 3. El cursor permite que todos vean la capa de aplicación. Cursor se hizo muy popular este año, pero Karpathy cree que lo más importante es que ha mostrado a la gente un nuevo nivel de "aplicaciones LLM". La gente empezó a decir "Cursor para X". Aplicaciones como Cursors hacen más que simplemente ajustar un modelo grande una vez: ① Realizar ingeniería de contexto. ② Encadenar múltiples llamadas de modelos grandes en DAG (Gráficos Acíclicos Dirigidos) cada vez más complejos en segundo plano, equilibrando el rendimiento y el coste. ③ Proporcionar a los usuarios una interfaz específica para la aplicación. ④ Proporcionar un control deslizante autorregulable que permite controlar su grado de libertad. En 2025 se ha debatido mucho sobre cuán "gruesa" será esta capa de aplicación. ¿Los grandes laboratorios de modelos devorarán todas las solicitudes? ¿O las solicitudes de LLM tendrán su propio espacio para sobrevivir? La opinión de Karpathy es: Los grandes laboratorios de modelos pueden producir "buenos estudiantes universitarios". Pero las aplicaciones LLM organizan a estos estudiantes universitarios, convirtiéndolos en equipos especializados en campos específicos al proporcionarles datos privados, sensores, actuadores y circuitos de retroalimentación. 4. Claude Code lleva la IA a tu computadora. Claude Code es el primer "agente inteligente" convincente en 2025. Utiliza herramientas y razonamiento de forma cíclica para resolver problemas complejos. Pero lo más importante es que se ejecuta en su computadora, utilizando su entorno privado, sus datos y su contexto. Karpathy cree que OpenAI ha ido en la dirección equivocada. Centraron sus esfuerzos en Codex y agentes en contenedores en la nube orquestados desde ChatGPT, en lugar de en el host local. Aunque los enjambres inteligentes basados en la nube suenan como la "forma definitiva de IAG", hoy vivimos en un mundo intermedio donde las capacidades están desarrolladas de manera desigual y el progreso es lento. En esta etapa, es más razonable que el agente inteligente trabaje directamente junto con el desarrollador en la computadora. Claude Code ha convertido esto en una herramienta de línea de comandos simple y elegante que ha cambiado la forma en que funciona la IA. Ya no es sólo un sitio web que visitas (como Google), sino un pequeño sprite o fantasma que "vive" en tu computadora. Este es un nuevo paradigma para interactuar con la IA. 5. Vibe Coding hace que la programación sea accesible para todos. En 2025, la IA habrá cruzado un umbral de capacidad. Puedes crear todo tipo de programas complejos describiéndolos en inglés, sin siquiera preocuparte por el aspecto del código. Karpathy mencionó casualmente "Vibe Coding" en un tweet, sin esperar nunca que se extendiera tanto. Vibe Coding hace que la programación ya no sea dominio exclusivo de los profesionales; cualquiera puede hacerlo. Pero lo más importante es que permite a los profesionales escribir más software del que normalmente no escribirían. Karpathy dio su propio ejemplo. En el proyecto nanochat, escribió un tokenizador BPE eficiente en Rust, pero no entendía Rust en absoluto en ese nivel y dependía completamente de Vibe Coding. También realizó muchos proyectos de demostración rápida (menugen, llm-council, reader3, HN time capsule) e incluso algunos programas únicos, solo para encontrar un error. El código de repente se volvió libre, de corta duración, maleable y desechable. Vibe Coding cambiará la apariencia del software y la definición del trabajo. Karpathy también mencionó su artículo anterior, "Empoderar a las personas: cómo los LLM están alterando la difusión de la tecnología". A diferencia de cualquier tecnología anterior, los beneficios que la gente común obtiene de los modelos a gran escala superan con creces los de los profesionales, las empresas y los gobiernos. 6. Nano Banana es una GUI para modelos grandes. El Gemini Nano Banana de Google es uno de los modelos más sorprendentes de 2025. Karpathy cree que los modelos a gran escala son el próximo gran paradigma informático, al igual que las computadoras en los años 70 y 80. Por lo tanto, vemos innovaciones similares por razones similares. Habrá un equivalente para la computación individual, un equivalente para los microcontroladores (núcleos cognitivos) y un equivalente para Internet (red de agentes inteligentes). En la interfaz interactiva, "chatear" con el modelo grande es como escribir comandos en una consola en los años 80. El texto es el formato crudo que prefieren las computadoras y los modelos grandes, pero no el que prefieren los humanos. A la gente en realidad no le gusta leer: es demasiado lento y agotador. La gente prefiere la información visual y espacial, razón por la cual las computadoras tradicionales inventaron la GUI. Los modelos grandes también deben hablar en los formatos que preferimos: imágenes, infografías, diapositivas, pizarras, animaciones, vídeos y aplicaciones web. Las primeras versiones usaban emojis y Markdown, que eran formas de "decorar" el texto, haciendo que la información fuera más fácil de digerir con encabezados, negrita, cursiva, listas y tablas. Pero ¿quién construirá realmente la GUI para un modelo tan grande? Nano Banana es un indicio temprano. Es importante destacar que hace más que simplemente generar imágenes: integra la generación de texto, la generación de imágenes y el conocimiento del mundo en los pesos del modelo, formando una capacidad conjunta. Palabras finales Karpathy dijo que el gran modelo de 2025 era al mismo tiempo mucho más inteligente y mucho más tonto de lo que esperaba. Pero son extremadamente útiles y la industria aún no ha aprovechado ni siquiera el 10% de su potencial. Hay tantas ideas por probar; este campo todavía está muy abierto conceptualmente. Dijo algo en el podcast de Dwarkesh este año que me pareció muy interesante: cree en dos cosas aparentemente contradictorias al mismo tiempo: que veremos un progreso rápido y continuo, pero al mismo tiempo todavía hay mucho trabajo por hacer. Agárrate fuerte.

Hilo de 向阳乔木 (@vista8)

Información del autor

Contenido del hilo