Acabo de terminar de ver la versión completa de la conversación de tres horas entre Zhang Xiaojun y Li Xiang, y fue increíblemente informativa. Este diálogo tuvo lugar hace seis meses (abril de 2025), y según la cronología de la industria de la IA, gran parte del contenido ha cambiado desde entonces. Zhang Xiaojun utilizó una brillante analogía: En esta ocasión, me dirigí a Li Xiang como un modelo de director ejecutivo para mis preguntas. Partiendo de la base de que representaba el modelo del Ministerio de Educación, invoqué a sus tres expertos en las tres primeras rondas de la conversación: un experto en tecnología, un experto en estrategia y un experto en organización. Conforme avanzaba la conversación, comenzamos a hablar sobre personas, energía, relaciones interpersonales, procesos de memoria e inteligencia humana. La respuesta de Li Xiang fue muy sincera, incluso algo contraintuitiva, a diferencia de su conversación con Luo Yonghao, que se centró en su crecimiento y espíritu emprendedor, y no tuvo mucho que ver con coches. En cambio, habló más sobre inteligencia artificial, llegando incluso a explicar cómo entrenar modelos. --- Tema 1: "Herramientas de información" vs. "Herramientas de producción": ¿Por qué la IA aún no nos ha permitido desconectar realmente del trabajo? Esta es una aguda observación que Li Xiang hizo al principio: "Todos mis colegas y amigos hablan maravillas de la inteligencia artificial, pero las horas de trabajo de todos no han disminuido, y los resultados laborales no han mejorado sustancialmente." ¿Por qué? Propuso una comparación entre "aumento de entropía" y "disminución de entropía": La IA es particularmente buena en el "aumento de la entropía": puede procesar cantidades masivas de información, procesar terabytes de datos y llevar la complejidad al extremo. ¿Y qué ocurre con los humanos? El cerebro humano está diseñado de forma natural para reducir la entropía: inventamos metodologías y creamos herramientas para resolver problemas utilizando las reglas más sencillas y la menor cantidad de energía. La contradicción actual reside en que casi todos seguimos tratando la IA como una "herramienta de información" (como un chatbot) o una "herramienta de asistencia" (como la voz inteligente). Herramientas de información: Preguntas y te responden. Simplemente te dan un "Siguiente Token", un punto de referencia. En lugar de ayudarte a "reducir la entropía", aumentan enormemente la cantidad de "información inválida", incluso información engañosa. Herramientas de accesibilidad: Te ayudan a ajustar la navegación; consulta Meituan (una plataforma de entrega de comida). Mejora la experiencia existente, pero aun así no podrás prescindir de ella. Li Xiang cree que el verdadero punto de inflexión para la IA reside en su evolución hacia una "herramienta de producción". ¿Qué es una "herramienta de producción"? Él dio una definición muy simple: "unidad de conocimiento y acción". No basta con que «sepa»; debe ser capaz de «actuar». Tiene que poder sustituirme de verdad, realizar un trabajo profesional y solucionar las 8 horas más importantes de mi jornada laboral. Citó ejemplos como Cursor y Deep Research, donde sus colegas empezaron a pagar por sus propios servicios. ¿Por qué? Porque estas herramientas empezaron a ser efectivas: realmente estaban trabajando, no solo hablando de ello. Esto lo lleva a su criterio fundamental para evaluar a los agentes: el único propósito de un agente es servir como una "herramienta de producción". Un agente que solo puede chatear y no puede realizar acciones tiene un valor extremadamente limitado. --- Tema 2: ¿Qué podemos aprender de DeepSeek? Prácticas recomendadas contraintuitivas En esta conversación, Li Xiang no ocultó su admiración por DeepSeek y su fundador, Liang Wenfeng. La naturaleza de código abierto de DeepSeek aceleró el desarrollo del componente de lenguaje del VLA (Modelo de Acción del Lenguaje Visual) de Ideal en nueve meses. Posteriormente, Ideal liberó el código fuente de su propio sistema operativo, en gran medida como muestra de agradecimiento a DeepSeek. Entonces, ¿qué hizo bien DeepSeek exactamente? El resumen de Li Xiang es: "Utiliza las mejores prácticas humanas de una manera muy sencilla". Desglosó dos "mejores prácticas": El primer enfoque es la mejor práctica para desarrollar capacidades (investigación y desarrollo): - Paso 1: Realizar una investigación Segundo paso: Desarrollo - Paso 3: Expresar la capacidad - Paso 4: Transformar en valor empresarial Un error común que cometemos: pasar directamente al segundo paso, "realizar I+D", olvidando el primer paso, "realizar investigación". El segundo enfoque es la mejor práctica para los negocios (razonamiento): - Paso 1: Análisis del índice Paso dos: Definir el objetivo - Paso 3: Estrategia emergente Paso 4: Comentarios/Revisión Un error común que cometemos: cuando nos enfrentamos a un problema, solo queremos cambiar el tercer paso, "estrategia", pero olvidamos rehacer el primer paso, "análisis", el segundo paso, "establecimiento de objetivos", y el cuarto paso, "revisión". Seguir estos pasos al pie de la letra va en contra de la naturaleza humana. La naturaleza humana siempre busca atajos y hacer lo que le place. Una organización excelente es aquella que lucha contra esta tendencia. Cree que Leung Man Fung es la personificación de este tipo de "autodisciplina" y "adhesión a las mejores prácticas". --- Tema 3: Desmitificando VLA: ¿Cómo "construimos" un controlador? Esta es la parte más compleja de todo el módulo de "Experto Técnico". Mientras otros siguen hablando de soluciones integrales, Li Xiang ya está desglosando en detalle su arquitectura VLA (Visión-Lenguaje-Acción) de última generación. Dividió la evolución de los sistemas de asistencia al conductor en tres etapas, una analogía muy acertada: La primera etapa es la de los algoritmos basados en reglas: como la "inteligencia de los insectos". Por ejemplo, las hormigas se basan estrictamente en mapas de alta precisión (feromonas), y las reglas están definidas de forma rígida, lo que hace imposible la generalización. La segunda etapa es la etapa integral: como la "inteligencia de los mamíferos". Por ejemplo, un animal de circo puede imitar el andar en bicicleta, pero no comprende el mundo físico. La tercera etapa es la etapa VLA: la búsqueda de la "inteligencia humana". No solo necesita ver (Visión), sino también comprender (Lenguaje, incluyendo razonamiento y cadenas de pensamiento) y ejecutar (Acción). Entonces, ¿cómo se "creó" este "conductor humano"? Li Xiang proporcionó un sencillo "método de entrenamiento de tres pasos": Paso 1: Preformación (base VL) – Similar a “ir a la escuela para adquirir conocimientos”. El objetivo es capacitar al modelo para que comprenda el mundo. ¿Qué datos debemos usar para el entrenamiento? Además de utilizar corpus ordinarios, también necesitamos utilizar tres tipos de datos exclusivos de Ideal: 1. Datos de visión 3D (mundo físico). 2. Datos de visión 2D de alta definición (por ejemplo, para comprender los mapas de navegación, la claridad es 10 veces mayor que la del código abierto). 3. Corpus combinado VL (el más crucial, como datos combinados de "ver esta navegación" + "los humanos hicieron este juicio"). ¿Y luego qué? Destilamos este modelo "doctor" con 32 mil millones de parámetros en la nube en un modelo MoE "experto" con 3.2 mil millones de parámetros en el lado del vehículo, asegurando que pueda ejecutarse en el vehículo. Segundo paso: Post-formación (incorporación de la acción) – Como “Aprender a conducir en una autoescuela” El objetivo es convertir el "conocimiento" en "acción" mediante la imitación y el aprendizaje. ¿Cómo entrenamos? Al aprender de las acciones de los conductores humanos, el modelo VLA aprende lo que ve y comprende, y luego decide qué acción tomar. Paso 3: Entrenamiento por refuerzo (RL) – Como si “realmente estuvieras conduciendo en la carretera” El objetivo es conducir tan bien como un ser humano, o incluso mejor. ¿Cómo entrenamos? 1. RLHF (Retroalimentación Humana): Alinearlo con la intervención humana y los hábitos de conducción para que se comporte como un "conductor experimentado" en lugar de un "peligro en la carretera". 2. RL puro (modelo del mundo): Ejecutar libremente en el simulador (modelo del mundo), utilizando "comodidad", "reglas de tráfico" y "colisión" como estándares de recompensa y castigo, dejar que "aprenda" por sí mismo y conduzca mejor que el humano promedio. A través de estos tres pasos, se crea un "modelo de controlador VLA". Li Xiang cree que el sector del transporte será el primer escenario de aplicación para la automatización de agentes virtuales (VLA). Además, en el futuro no habrá un "agente general", sino innumerables "agentes especializados" (como conductores, médicos y abogados), y todos ellos funcionarán con un "sistema operativo de agente" (sistema operativo de agente inteligente) unificado. --- Tema 4: El final ideal: Una "Compañía de Terminales AGI" Esta es una reflexión sobre el módulo "Experto Estratégico". ¿De quién aprende Ideal Company sus capacidades organizativas? La ruta propuesta por Li Xiang es: 1. En la etapa de miles de millones en ingresos: Aprender de Toyota, GM (procesos) y Google (OKR). 2. La etapa de los 100 mil millones en ingresos: Aprender de Huawei (IPD, procesos organizativos). 3. Para alcanzar la etapa del billón de dólares (100 mil millones de dólares estadounidenses): Debemos aprender de Apple. ¿Qué deberíamos aprender de Apple? Aprendamos de su capacidad para expandirse desde una empresa de computadoras hasta convertirse en una empresa de reproductores de música, una empresa de telefonía móvil y una empresa de ecosistemas de servicios. Partiendo de esto, Li Xiang dio la respuesta definitiva a la pregunta de lo "ideal". Cuando le preguntaron "¿Quién es ideal?", ya no se limitó a mencionar los coches, sino que ofreció una definición extremadamente clara: "Para 2030, esperamos convertirnos en una empresa líder mundial en terminales de IA." Hizo una analogía: - En la era de la PC: existían compañías de terminales (Apple) y compañías de plataformas (Microsoft). - La era del internet móvil: Existen empresas de terminales (Apple) y empresas de plataformas (Google). En la era de la Inteligencia Artificial General (IAG), inevitablemente habrá empresas de plataformas (como OpenAI) y empresas de terminales. Idealmente, deberíamos convertirnos en el Apple de la era de la Inteligencia Artificial General (IAG). Cree que el automóvil es el primer "terminal AGI" verdadero porque posee cuatro elementos simultáneamente: 1. Percepción física de 360°; 2. Toma de decisiones cognitivas; 3. Capacidad de actuar; 4. Reflexión y retroalimentación. Pero sus ambiciones no se limitan a los automóviles. Una vez que alcancen una escala de más de 500 mil millones, deberán, al igual que Apple con el iPhone, explorar otros terminales de IAG (que cumplan con los cuatro elementos mencionados), como dispositivos domésticos y wearables. En respuesta a las críticas de que la magnitud de la operación era excesiva, Li Xiang declaró directamente: "Si tenemos ingresos superiores a los 100 mil millones de yuanes... entonces hacer estas cosas es razonable... es demasiado rentable, ¿por qué no lo haríamos?". --- Tema 5: Del "cambio" al "crecimiento": Energía, sabiduría y relaciones íntimas Esta es mi parte favorita de toda la conversación; se trata de "personas". Li Xiang compartió su filosofía de gestión más importante: "Las personas son difíciles de cambiar, pero están dispuestas a crecer". Por lo tanto, al administrar, "hablaría de acuerdo con la naturaleza humana, pero actuaría en contra de ella". Hablaría de una manera que se alinea con la naturaleza humana (Crezcamos juntos), pero actuaría en contra de ella (Implementemos estrictamente las "mejores prácticas"). También compartió un concepto fundamental: "energía". Cree que la esencia de una organización reside en construir un "cuerpo energético" (un equipo central de socios) de entre 3 y 7 personas. Este equipo debe desarrollar una "mente más fuerte" (tomando decisiones en conjunto) y una "corazón más fuerte" (apoyándose mutuamente). ¿Cómo se puede generar esta energía? Su respuesta se basaba en su experiencia como padre: "En las relaciones cercanas, necesitas expresar tus necesidades con valentía... Yo los necesito (a mi familia, a mis compañeros) más de lo que ellos me necesitan a mí." Descubrió que la energía comienza a fluir cuando expresas "Te necesito". Esto se debe a que todos anhelamos sentirnos necesitados. Esto le llevó a su reflexión final sobre la era de la IA: la IA es responsable de la "inteligencia", y los humanos son responsables de la "sabiduría". - Inteligencia (capacidades): La IA puede mejorarse indefinidamente. - Sabiduría (Relaciones): Li Xiang define la sabiduría como "nuestra relación con todas las cosas": tu relación contigo mismo, tu relación con los demás y tu relación con la naturaleza. ¿Cuál es el valor último de la IA? Liberar a los humanos del trabajo de bajo valor que consume energía y no genera "sabiduría" (como hacer llamadas para invitar a eventos), para que tengamos tiempo para hacer cosas que realmente "reduzcan la entropía" y generen energía: gestionar "relaciones" y potenciar la "sabiduría". Esta podría ser la respuesta a la pregunta fundamental de "la relación entre la IA y los humanos". Enlace al texto de la entrevista:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
