Wang Guan ha sido aplastado por OpenAI tres veces. Se ha lanzado ChatGPT, nuestra primera herramienta de escritura. Esta es la segunda vez que convierto un archivo de Excel en un gráfico; GPT-4 ya está aquí. Esta es la tercera vez que trabajamos en el flujo de trabajo del Agente y OpenAI Plugins ahora está en línea. Siempre pisaba los pedales con tanta precisión, como si alguien en el cielo estuviera observando su barra de progreso. Esto le hizo darse cuenta de una cosa: desarrollar aplicaciones a ciegas es inútil. No sabes dónde están las capacidades del modelo base, es como construir una casa sobre arenas movedizas, podrías sumergirte en cualquier momento. Entonces decidió convertirse primero en gerente de productos modelo en Moonshot AI para descubrir qué podían hacer realmente los modelos antes de comenzar su propio negocio. Un año después, dejó su trabajo para fundar ONE2X y creó el generador de vídeo IA Medeo. Fue el primer empleado de Dark Side of the Moon en irse y comenzar su propio negocio, y el proceso de salida de la empresa se estableció gracias a él. La compresión es inteligencia: una epifanía en Wudaokou La fe de Wang Guan en los modelos grandes surgió de una comida en Wudaokou. Fue en el restaurante Longrenju donde Tim Yang, el fundador de Moon's Dark Side, pasó tres horas explicándole "La compresión es inteligencia", escribiendo fórmulas matemáticas en papel durante todo el proceso. Wang Guan dijo con franqueza: "No entendí en absoluto esas fórmulas, pero quedé profundamente impresionado". Más tarde, estudió videos del científico de OpenAI, Jack Rae, y gradualmente construyó un mapa cognitivo completo. Este concepto es muy abstracto, pero Wang Guan lo explicó muy vívidamente: La compresión no consiste únicamente en hacer que los archivos sean más pequeños; se trata de forzar a los datos a establecer conexiones. Imagina que estás enseñando dos cosas a la IA: traducir del chino al inglés y resumir en chino. Lógicamente, la IA no había aprendido la tarea de "resumir en inglés". Pero como la compresión unía estos puntos de conocimiento discretos, la aprendió automáticamente. Esto es continuidad. La IA anterior procesa datos estructurados, como una hoja de cálculo de Excel, con celdas que no están relacionadas entre sí. Los grandes modelos actuales procesan datos no estructurados, como lenguaje y vídeo, que son inherentemente continuos, como un río. La compresión hace que el río fluya con mayor fluidez y la IA puede entonces "aprender por analogía". Las tres etapas de los datos: ¿dónde están las oportunidades para las startups? Wang Guan tiene una creencia fundamental: el primer principio de la inteligencia son los datos. Divide la competencia en la industria de la IA en tres etapas: Fase 1: Datos de dominio público Todos obtenían datos de internet, compitiendo por potencia de procesamiento y eficiencia en la limpieza de datos. Esa etapa ha terminado; el panorama está definido y las empresas con el modelo base han triunfado. Fase dos: Datos del dominio La competencia se centra en la posesión de datos privados que otros no poseen, como la acumulación histórica en sectores como la salud y las finanzas. Esto beneficia a las grandes empresas y a los gigantes tradicionales. Fase 3: Datos endógenos Esta es una oportunidad para las empresas emergentes. ¿Qué son los datos endógenos? Son datos que antes no existían en el mundo. Antes de ChatGPT, no existía una gran cantidad de datos en lenguaje natural sobre cómo resolver problemas a través del diálogo. La generación de vídeo de ONE2X implica la creación de un lenguaje (DSL) para describir el proceso de producción de vídeo, y este lenguaje en sí mismo son datos nuevos. Solo diseñando nuevas formas de productos para generar datos endógenos y entrenándolos nuevamente en el modelo, las empresas emergentes pueden construir barreras para evitar ser aplastadas por las "extensiones naturales" del modelo base. Sistema de generación: un circuito cerrado completo A Wang Guan no le gusta el uso despectivo de la palabra "atuendo". Dijo que la cáscara puede ser gruesa o delgada, pero el Sistema 2 es la base de la competitividad. Todos usan el mismo modelo base (Sistema 1). El éxito o el fracaso de un producto depende de la estructura que se construye fuera del modelo, es decir, el contexto. La arquitectura de ONE2X consta de tres capas: Bajo nivel: DSL (lenguaje específico del dominio) El complejo proceso de producción de video puede resumirse en un conjunto finito de "capacidades atómicas". Al igual que en Go, donde las reglas son estrictas, puede calcularse. Capa intermedia: Contexto La tarea principal de esta capa es reducir la "entropía". ¿Qué es la entropía? Es incertidumbre. Cuando un usuario dice: "Haz un vídeo de alta calidad", la entropía de esa afirmación es muy alta y la IA no sabe cómo ejecutarla. El sistema 2 necesita traducir esta afirmación en una instrucción precisa. Al mismo tiempo, también debe limitar los límites de comportamiento del agente de IA para garantizar que no recurra a herramientas aleatoriamente y que su salida sea controlable. Nivel superior: Medio ambiente No se trata simplemente de una interfaz de software, sino de un «entorno» en el que las personas y la IA trabajan juntas. Cada acción y modificación que realiza un usuario aquí genera datos de alta calidad para el sistema. Este entorno es, en esencia, una plataforma de anotación de datos. Wang Guan dio un ejemplo: Cuando un chef cocina, la IA no puede aprender el conocimiento implícito de la temperatura del aceite y cuántas veces debe saltear los alimentos si no lo registra. El objetivo de Environment es hacer explícitos todos estos parámetros de "temperatura". El mundo físico vs. el mundo de las ideas: dos campos de batalla del vídeo Wang Guan tiene una clasificación única de la pista de video. Los vídeos del mundo físico son capturados por cámaras, correspondientes a plataformas de vídeos cortos como TikTok y Kuaishou. Wang Guan lo comparó con un "club nocturno, supermercado y plaza de estilo de vida", donde el entretenimiento, los chismes y las ventas ya son abundantes. Los videos en el mundo de las ideas son generados por IA y corresponden al conocimiento, el arte y las creencias espirituales. Wang Guan los compara con "bibliotecas, teatros de ópera y catedrales". Este tipo de contenidos siempre ha sido escaso debido a sus altos costos de producción (como los anuncios de alta gama de Nike o la visualización de un artículo en un vídeo). Lo que ONE2X pretende es conquistar este "mundo de ideas". Pero también tiene una visión más amplia: transformar el vídeo de “creación” a “expresión”. En la antigüedad, la caligrafía era una forma de trabajo creativo que requería pincel, tinta, papel y tintero, lo que la convertía en una habilidad muy difícil de adquirir. Enviar mensajes de WeChat es actualmente una forma de expresión, con muy pocas barreras de entrada. Crear vídeos todavía se considera un trabajo creativo, como escribir una carta de amor. En el futuro, debería convertirse en una forma de expresión, tan natural como hablar. Los grandes productos nacen sólo cuando una modalidad pasa de la creación a la expresión. Los sistemas generativos reemplazarán a los sistemas de recomendación Wang Guan hizo una predicción audaz: el intermediario va a morir. Las plataformas de internet son esencialmente "plataformas de distribución" que controlan la asignación de tráfico y explotan a los creadores. TikTok y Taobao son ejemplos de ello. El sistema de producción es un sistema integrado de producción y ventas, sin inventario ni asignación de flujo, conectando directamente la demanda y la producción. La IA genera directamente la información que desean los usuarios, eliminando la necesidad de buscar en grandes cantidades de contenido. Esto significa que el "intermediario" del algoritmo de recomendación ya no es necesario. Lo que siguió fue un cambio de moneda. En una era de suministro ilimitado de contenidos, la "atención" (tráfico) ya no escasea; lo que escasea es la "confianza". En el futuro, los usuarios no pagarán por el tráfico, sino por el gusto y la receta del creador. Al igual que Substack, me suscribo porque confío en ti como persona. Futuros creadores: polarización Wang Guan cree que la comunidad de creadores se dividirá en dos categorías. Artistas/expertos en la cima de la pirámide Estas personas no serán reemplazadas por la IA; por el contrario, su influencia se amplificará. El sistema es un amplificador de sus capacidades, replicando su inteligencia avanzada miles de veces. Cada operación y corrección que realizan proporciona al sistema “datos endógenos” de alta calidad. Son la fuerza impulsora principal que permite que el sistema generativo evolucione continuamente. Una amplia gama de “productores y vendedores” Para el gran público, la creación ya no tiene fines comerciales, sino que ha vuelto a la integración de producción y venta. Al igual que los cuadros jubilados que practican caligrafía en casa, el proceso creativo en sí mismo es una forma de consumo. El contenido generado por el usuario se crea para satisfacer las propias necesidades espirituales; su valor se realiza en el momento en que se produce y no requiere monetización a través del tráfico externo. Wang Guan llama a esto "el trabajo es consumo". Gerentes de producto en la era de la IA: ya no se limitan a dibujar prototipos El propio Wang Guan es gerente de producto de formación y tiene un profundo conocimiento del valor de este rol en la era de la IA. La tarea principal de un PM ya no es dibujar prototipos, sino diseñar los límites de la inteligencia. En concreto se puede dividir en tres niveles: Sistema de diseño 1: Definir los límites de capacidad del modelo El modelo es el producto, y vale la pena diseñarlo. El gerente de proyecto debe transformar el conocimiento del negocio en datos, definir qué constituye un "buen" resultado y establecer criterios de evaluación. Sistema de construcción 2: Contexto y entorno de diseño La competencia principal de un PM reside en la ingeniería de contexto. Al diseñar marcos de agentes, flujos de trabajo y bases de conocimiento, se proporcionan entradas de alta calidad al modelo. Núcleo estratégico: Diseño de un circuito cerrado para datos endógenos El PM debe diseñar un formato de producto completamente nuevo que genere datos que no existían en el mundo antes durante la operación. Este producto es esencialmente una "plataforma de etiquetado". Wang Guan dijo que los primeros ministros también necesitan desempeñar el papel de creadores de "estética" y "estándares". No todos los datos son buenos. Los administradores de proyectos deben tener un gusto muy refinado para definir qué constituye un resultado de alta calidad. La organización como entorno: los empleados como agentes inteligentes ONE2X es una empresa muy especial. Todo el mundo trabaja de forma remota; no hay puestos de gestión, ni KPI, ni siquiera seguimiento de asistencia. Wang Guan lo define como un "estudio de productos" más que una empresa tradicional. Su filosofía organizacional es simple: ver a la empresa como un “entorno” y a los empleados como “agentes inteligentes”. Este concepto proviene del aprendizaje por refuerzo. En el aprendizaje de refuerzo, no controlas al agente, sino que creas un entorno en el que el agente actúa de forma autónoma. Wang Guan dijo que el núcleo de la gestión no es la evaluación de KPI, sino la alineación con la "función de recompensa". Cada empleado se une a la empresa con sus propios objetivos, que pueden ser una pasión por la tecnología o el deseo de evitar que la empresa fracase. La sabiduría organizacional radica en encontrar una manera de maximizar la proyección de los vectores de objetivos individuales sobre la dirección de progreso de la empresa. Para abordar los problemas de soledad y confianza asociados con el trabajo remoto, ONE2X estableció la "Iniciativa cálida y confiable". Hay un "círculo de amigos" interno dentro de la empresa, donde todos crean grupos de temas en Lark para compartir chismes y escribir ensayos cortos. A través de estos intercambios no relacionados con el trabajo, se puede establecer un sentimiento de calidez y confianza interpersonal similar al que se encuentra fuera de línea. Wang Guan afirmó que el sistema de oficina es producto de la Revolución Industrial. El trabajo intelectual no necesita estar ligado a las líneas de producción físicas, y el trabajo remoto, combinado con el "Plan de Cálido y Confiable", es más adecuado para el modelo de estudio de productos. AGI estrictamente definida: un ciclo automatizado de generación de dinero Wang Guan tiene una definición muy pragmática de AGI (Inteligencia General Artificial). No habla de omnisciencia ni de omnipotencia, ni de autoconciencia. Habla de la IAG en sentido estricto. ¿Qué es la IAG en sentido estricto? En un campo comercial específico (como el comercio de acciones), la IA puede ganar dinero por sí sola, usar ese dinero para comprar potencia informática y datos, y luego optimizarse para ganar aún más dinero. Cuando una persona sale completamente de este bucle, la IAG en sentido estricto se realiza en ese dominio. No se trata de una “singularidad” repentina, sino más bien de algo que sucede gradualmente, poco a poco. Por ejemplo, este fenómeno parece estar ganando terreno en los campos de la codificación o el procesamiento del lenguaje. La estrategia de Nokia: acumular datos y esperar el momento del iPhone. Wang Guan hizo una analogía precisa: el presente es la “era Nokia” de la IA. Las aplicaciones de IA que vemos ahora son muy similares a la calculadora o al juego de la Serpiente de los teléfonos Nokia. No es apropiado desarrollar aplicaciones complejas de Internet móvil en esta etapa. ¿Cuál es la estrategia? Antes de que llegue el "momento iPhone" (es decir, antes de que los modelos multimodales de extremo a extremo maduren, se vuelvan extremadamente económicos y permitan una inferencia extremadamente rápida), deberíamos centrarnos en crear herramientas de productividad que sean lo más cercanas posible al modelo. Esto nos permite detectar cambios en el modelo y acumular datos (Sistema 2/Contexto), preparándonos para una aplicación verdaderamente superior en el futuro. Wang Guan también citó un poema para describir la relación entre los agentes generales y los agentes verticales: "Mil ríos reflejan la luna, diez mil millas de cielo están sin nubes". Los agentes verticales (como Qianjiangyue) poseen sabiduría y datos únicos en sus respectivos campos, lo que presenta una oportunidad para las empresas de aplicaciones. El Agente Universal (Wanlitian) intenta cubrirlo todo, pero no puede lograr la excelencia en todas las áreas durante la fase de transición. En última instancia, ambos convergerán: la generalización profundizará la integración vertical, y la integración vertical ampliará sus límites, encontrándose en la competencia final entre efectividad y costo. Mariposas revoloteando entre flores: la filosofía de compromiso de Lao Tzu con el mundo Al hablar de su filosofía personal, Wang Guan dijo que estaba profundamente influenciado por el taoísmo. Pero hizo una distinción interesante: no le gustaba el "roc extendiendo sus alas" de Zhuangzi, sino que prefería el "mariposa revoloteando entre las flores" de Laozi. La imagen de un rocío extendiendo sus alas simboliza la libertad, el aislamiento y el vuelo a gran altura. Las mariposas vuelan entre las flores sin seguir nunca una línea recta, sino que superan los obstáculos con facilidad. Wang Guan dijo que los empresarios deberían ser como mariposas, interactuando activamente con el mundo y adaptándose a los cambios ambientales para resolver problemas específicos, en lugar de perseguir un desapego nihilista. También compartió un hecho poco conocido que le pareció “horrible”: una generación sólo dura entre 25 y 30 años. Cuando tenía unos treinta años, se dio cuenta de que los productos que fabricaba en realidad estaban al servicio de personas de la "otra vida" (es decir, personas 25 o 30 años más jóvenes que él). Esta perspectiva del tiempo le permitió trascender las ansiedades inmediatas y ver la evolución del producto desde una perspectiva a más largo plazo. Indicador Estrella del Norte: El nivel de inteligencia del sistema La métrica Estrella del Norte para ONE2X no es DAU (usuarios activos diarios), sino más bien el nivel de inteligencia del sistema. Wang Guan dijo que 3 usuarios expertos que generan 1 millón en ingresos es mejor que 100.000 usuarios comunes que generan la misma cantidad de ingresos. ¿Por qué? Porque los usuarios expertos (con alto sentido estético y gran capacidad) pueden proporcionar datos de alta calidad para el sistema, mejorando así la "inteligencia" del sistema. ¿Cómo se puede cuantificar la sabiduría? No se trata de cuánto contenido se genera, sino de "lograr el mismo efecto con menos tokens". Al igual que al resolver un problema de matemáticas, quien puede ver la respuesta de un vistazo es más inteligente que quien tiene que hacer cálculos repetidos. Cuantos menos tokens se consuman, más inteligente es el sistema. Se trata de un estándar de medición completamente diferente al de la era de Internet. Una verificación inesperada Para comprobar el valor comercial del producto, el propio Wang Guan se convirtió en "conejillo de indias". Creó videos con una versión temprana de Medeo y los publicó en el canal de video de WeChat. Sorprendentemente, el canal, que no se gestionaba activamente, obtuvo más de 2 millones de visitas. Lo que le sorprendió aún más fue que no sabía que la cuenta de vídeo tenía un sistema de reparto de ingresos hasta que un día el sistema le notificó que se había depositado dinero (varios cientos de yuanes) en su cuenta. Esto lo convenció de que incluso las herramientas actuales, inacabadas, podrían permitir a la gente común sacar provecho del contenido. Hay una historia aún más loca. Un destacado creador de contenidos de inteligencia artificial en Bilibili y WeChat Video Channel tomó prestadas todas las cuentas de Google de sus amigos para recargar créditos y poder usar su producto. Compraron todos los paquetes de puntos disponibles y los recargaron hasta el límite, pero aún así sintieron que no era suficiente, por lo que contactaron directamente al equipo de Crown para solicitar ayuda. Esto hizo que el equipo de Wang Guan se diera cuenta de que los mejores creadores tienen una sed asombrosa de herramientas de producción eficientes. 20 puntos de vista que contradicen el consenso Para resumir las ideas de Wang Guan, aquí están 20 de sus puntos de vista más fundamentales y contrarios al consenso: La lógica subyacente de la inteligencia 1. El primer principio de la inteligencia son los datos: los datos determinan los límites, la potencia computacional determina la velocidad y los algoritmos determinan el surgimiento. 2. La compresión es inteligencia; su núcleo reside en la “continuidad”. 3. De "adaptarse a las estructuras" a "adaptarse al mundo" 4. En sentido estricto, la IAG es un circuito cerrado automatizado de "ganar dinero - evolucionar". Sobre la competencia en la industria 5. Tres etapas del desarrollo de la industria: dominio público → dominio → endógeno. 6. El foso está en los "datos endógenos". 7. Actualmente estamos en la “era Nokia” de la IA. 8. La “cáscara” es el núcleo de la competitividad; el contexto lo es todo. 9. El resultado final de la integración general y vertical: mil ríos reflejan mil lunas. Metodología del producto 10. Los sistemas generativos reemplazarán a los sistemas de recomendación. 11. Teoría de la arquitectura de producto de tres niveles: DSL → Contexto → Entorno 12. El núcleo de la ingeniería de contexto es la "reducción de entropía". 13. Indicador Estrella del Norte: Inteligencia del Sistema 14. El medio ambiente como etiqueta Respecto al ecosistema de contenidos 15. El vídeo es el «punto de partida» de la era de la IA, no el punto final. 16. El mundo físico vs. el mundo de las ideas 17. De la «Creación» a la «Expresión» 18. Transformación monetaria: De la "atención" a la "confianza" Sobre la organización y la filosofía 19. La organización es el entorno y los empleados son los agentes inteligentes. 20. Como una mariposa revoloteando entre las flores, interactuando activamente con el mundo. fin La comida favorita de Wang Guan es el arroz blanco. Durante la rápida sesión de preguntas y respuestas, dijo que no le gusta viajar y que no tiene una perspectiva global sobre las preferencias alimentarias. El arroz blanco es el alimento más versátil; sabe bien con cualquier plato. Esto también puede ser una alegoría de su filosofía de desarrollo de productos: crear la base más básica y compatible. En la era de la IA de Nokia, la mayoría de la gente buscaba tráfico y monetización, pero Wang Guan eligió un camino más difícil: construir una videoteca, acumular datos endógenos y esperar el momento del iPhone. Dijo que una generación sólo tiene una vida. Entonces usemos esta vida para hacer algo diferente. --- Este video se generó utilizando Prompt y se basa en una entrevista de negocios con Zhang Xiaojun (Jun) del podcast.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.