X (Twitter)

Andrej Karpathy compartió sus reflexiones para 2025. Con respecto a los cambios en los paradigmas de entrenamiento, invalidación de puntos de referencia, Cursor, Claude Code, VibeCoding y LLMGUI 1. RLVR RLVR representa una nueva fase de entrenamiento tras el preentrenamiento, el ajuste fino supervisado y el RLHF. Mediante el entrenamiento en un entorno verificable, como las matemáticas y el código, los LLM aprenden espontáneamente estrategias de inferencia, descomponiendo problemas y resolviéndolos en múltiples pasos. A diferencia del ajuste fino tradicional, RLVR permite la optimización a largo plazo, proporcionando una alta relación capacidad/costo y consumiendo la potencia computacional utilizada originalmente para el preentrenamiento. Las mejoras de capacidad para 2025 provendrán principalmente de ejecuciones de RL más largas. 2. Fantasmas vs. Animales Los objetivos de optimización de los LLM son radicalmente diferentes a los de las redes neuronales humanas, lo que resulta en una inteligencia de dientes de sierra: un erudito genial que también es fácilmente engañado por estudiantes de primaria. La RLVR ha impulsado un aumento en las capacidades de los LLM en dominios verificables, pero el rendimiento general sigue siendo desigual. Los puntos de referencia, gracias a su verificabilidad, son fácilmente orientables para la optimización, convirtiendo el "entrenamiento en el conjunto de pruebas" en un nuevo arte. 3. Cursor Cursor revela una nueva forma de aplicación de LLM: orquestar múltiples llamadas de LLM para un dominio vertical, realizar ingeniería de contexto y proporcionar una interfaz gráfica de usuario dedicada y controles deslizantes autónomos. La controversia radica en el grosor de esta capa de aplicación. Argumenta que los laboratorios de LLM fomentan el talento general, mientras que las aplicaciones de LLM los integran en equipos especializados de dominio específico mediante datos privados, sensores y retroalimentación. 4. Código Claude Claude Code es la primera demostración exitosa de un agente LLM, que recorre el uso de herramientas y la inferencia. Fundamentalmente, se ejecuta en un ordenador local, no en la nube. OpenAI implementó por error su agente en un contenedor en la nube, pero durante un período de transición con capacidades variables, la operación local y la colaboración con los desarrolladores son más razonables. Claude Code, presentado en formato CLI, transforma la IA de un sitio web a un sprite "vivo" en el ordenador, lo que representa un paradigma de interacción completamente nuevo. 5. La codificación Vibe revolucionará el software y cambiará las descripciones de puestos de trabajo. Vibe Coding hace que la programación sea accesible para todos, no solo para profesionales. También permite a los profesionales escribir más software que normalmente no escribirían, haciendo que el código sea gratuito, temporal y desechable. 6. Nano banana / LLM GUI Nano banana anticipa el prototipo de una interfaz gráfica de usuario (GUI) de LLM. Así como las computadoras evolucionaron de la línea de comandos a la GUI, LLM también debería evolucionar del chat de texto simple a la salida visual. A la gente no le gusta leer texto; es lento y laborioso. Nano banana demuestra las capacidades combinadas de generación de texto, generación de imágenes y la fusión del conocimiento global.

Hilo de 歸藏(guizang.ai) (@op7418)

Información del autor

Contenido del hilo