Wang Guan a été battu trois fois par OpenAI. ChatGPT, notre premier outil d'écriture, est désormais disponible. C'est la deuxième fois que je convertis un fichier Excel en graphique ; GPT-4 est là. C’est la troisième fois que nous travaillons sur le flux de travail de l’agent, et les plugins OpenAI sont désormais en ligne. Il appuyait toujours sur les pédales avec une telle précision, comme si quelqu'un dans le ciel surveillait sa barre de progression. Cela lui a fait prendre conscience d'une chose : développer des applications à l'aveuglette est futile. Vous ne connaissez pas les capacités du modèle de base, c'est comme construire une maison sur des sables mouvants, vous pourriez être submergé à tout moment. Il a donc décidé de devenir d'abord chef de produit modélisation chez Moonshot AI afin de comprendre ce que les modèles peuvent réellement faire avant de créer sa propre entreprise. Un an plus tard, il quitte son emploi pour fonder ONE2X et créer Medeo, un générateur de vidéos basé sur l'IA. Il fut le premier employé de Dark Side of the Moon à quitter l'entreprise pour créer la sienne, et la procédure de départ de la société a été mise en place grâce à lui. La compression est une forme d'intelligence : une révélation à Wudaokou La foi de Wang Guan dans les maquettes de grande taille est née d'un repas à Wudaokou. C’est au restaurant Longrenju que Tim Yang, le fondateur de Moon’s Dark Side, a passé trois heures à lui expliquer que « la compression est une forme d’intelligence », en écrivant des formules mathématiques sur papier tout au long du processus. Wang Guan a déclaré franchement : « Je n'ai absolument rien compris à ces formules, mais j'ai été profondément impressionné. » Plus tard, il a étudié des vidéos du scientifique d'OpenAI, Jack Rae, et a progressivement reconstitué une carte cognitive complète. Ce concept est très abstrait, mais Wang Guan l'a expliqué de manière très vivante : La compression ne consiste pas seulement à réduire la taille des fichiers ; il s'agit aussi de forcer les données à établir des connexions. Imaginez que vous appreniez deux choses à une IA : traduire du chinois vers l’anglais et résumer en chinois. Logiquement, l'IA n'avait pas appris la tâche de « résumer en anglais ». Mais comme la compression a permis de rassembler ces points de connaissance disparates, elle l'a apprise automatiquement. C'est la continuité. Les systèmes d'IA précédents traitaient des données structurées, comme une feuille de calcul Excel, avec des cellules qui ne sont pas liées entre elles. Les grands modèles actuels traitent des données non structurées telles que le langage et la vidéo, qui sont par nature continues, comme une rivière. La compression fluidifie le courant et permet alors à l'IA d'« apprendre par analogie ». Les trois étapes du cycle de vie des données : où se trouvent les opportunités pour les startups ? Wang Guan a une conviction fondamentale : le premier principe de l'intelligence, ce sont les données. Il divise la concurrence dans le secteur de l'IA en trois étapes : Phase 1 : Données du domaine public Chacun puisait dans Internet pour collecter des données, rivalisant de puissance de calcul et d'efficacité dans le traitement des données. Cette phase est révolue ; le paysage est désormais établi et les entreprises du modèle traditionnel ont triomphé. Deuxième phase : Données du domaine La concurrence porte sur la possession de données privées que d'autres n'ont pas, comme l'historique des données accumulées dans des secteurs tels que la santé et la finance. Cela avantage les grandes entreprises et les géants traditionnels. Phase 3 : Données endogènes C'est une opportunité pour les startups. Que sont les données endogènes ? Ce sont des données qui n’existaient pas auparavant. Avant ChatGPT, il n'existait pas de données massives en langage naturel sur la manière de résoudre les problèmes par le dialogue. La génération vidéo de ONE2X implique la création d'un langage (DSL) pour décrire le processus de production vidéo, et ce langage lui-même constitue de nouvelles données. Ce n'est qu'en concevant de nouvelles formes de produits pour générer des données endogènes et en les réintégrant au modèle que les startups peuvent ériger des barrières pour éviter d'être écrasées par les « extensions naturelles » du modèle de base. Système de génération : une boucle fermée complète Wang Guan n'apprécie pas l'utilisation péjorative du mot « tenue ». Il a déclaré que l'enveloppe pouvait être épaisse ou mince, mais que le Système 2 constituait le cœur de la compétitivité. Tout le monde utilise le même modèle de base (Système 1). Le succès ou l'échec d'un produit dépend de l'« enveloppe » que l'on construit en dehors du modèle, c'est-à-dire du contexte. L'architecture de ONE2X se compose de trois couches : Niveau bas : DSL (langage spécifique à un domaine) Le processus complexe de production vidéo peut être résumé en un ensemble fini de « capacités atomiques ». À l'instar du jeu de go, dont les règles sont fermées, il peut être calculé. Couche intermédiaire : Contexte La tâche principale de cette couche est de réduire « l'entropie ». Qu'est-ce que l'entropie ? C'est l'incertitude. Lorsqu'un utilisateur dit : « Créez une vidéo de haute qualité », l'entropie de cette instruction est très élevée, et l'IA ne sait pas comment l'exécuter. Le système 2 doit traduire cette déclaration en une instruction précise. Dans le même temps, il faut également contraindre les limites comportementales de l'agent d'IA afin de garantir qu'il n'appelle pas d'outils au hasard et que sa sortie soit contrôlable. Niveau supérieur : Environnement Il ne s'agit pas simplement d'une interface logicielle, mais d'un « environnement » dans lequel les humains et l'IA travaillent ensemble. Chaque action et modification effectuée par un utilisateur génère des données de haute qualité pour le système. Cet environnement est essentiellement une plateforme d'annotation de données. Wang Guan a donné un exemple : lorsqu’un chef cuisine, la connaissance implicite de la température de l’huile et du nombre de fois où faire revenir les aliments ne peut être apprise par l’IA si ces informations ne sont pas enregistrées. L’objectif d’Environment est de rendre explicites tous ces paramètres de « température ». Le monde physique contre le monde des idées : deux champs de bataille de la vidéo Wang Guan possède une classification unique de la piste vidéo. Des vidéos du monde physique sont capturées par des caméras, correspondant à des plateformes de vidéos courtes comme TikTok et Kuaishou. Wang Guan l'a comparé à une « boîte de nuit, un supermarché et une place commerçante », où divertissements, potins et ventes abondent déjà. Dans le monde des idées, les vidéos sont générées par l'IA et correspondent à la connaissance, à l'art et aux croyances spirituelles. Wang Guan les compare à des « bibliothèques, des opéras et des cathédrales ». Ce type de contenu a toujours été rare en raison de ses coûts de production élevés (comme les publicités haut de gamme de Nike ou la transformation d'un article en vidéo). L’objectif de ONE2X est de conquérir ce « monde des idées ». Il a également une vision plus large : transformer la vidéo de la « création » à l'« expression ». Dans l'Antiquité, la calligraphie était une forme de travail créatif qui nécessitait pinceau, encre, papier et pierre à encre, ce qui en faisait une compétence très difficile à acquérir. L'envoi de messages WeChat est actuellement une forme d'expression très accessible. La création de vidéos est encore considérée comme un travail créatif, au même titre que l'écriture d'une lettre d'amour. À l'avenir, cela devrait devenir une forme d'expression aussi naturelle que la parole. Les grands produits ne naissent que lorsqu'une modalité passe de la création à l'expression. Les systèmes génératifs remplaceront les systèmes de recommandation. Wang Guan a fait une prédiction audacieuse : l'intermédiaire va disparaître. Les plateformes internet sont essentiellement des « plateformes de distribution », contrôlant la répartition du trafic et exploitant les créateurs. TikTok et Taobao en sont des exemples. Le système de production est un système intégré de production et de vente, sans inventaire ni répartition des flux, reliant directement la demande et la production. L'IA génère directement les informations que les utilisateurs recherchent, éliminant ainsi la nécessité de parcourir d'énormes quantités de contenu. Cela signifie que l'« intermédiaire » de l'algorithme de recommandation n'est plus nécessaire. S'ensuivit un changement de monnaie. À l'ère de l'offre illimitée de contenu, ce n'est plus « l'attention » (le trafic) qui est rare ; c'est la « confiance » qui l'est. À l'avenir, les utilisateurs ne paieront plus pour le trafic, mais pour le goût et la recette du créateur. Tout comme pour Substack, je m'abonne parce que j'ai confiance en vous. Créateurs du futur : Polarisation Wang Guan estime que la communauté des créateurs se divisera en deux catégories. Artistes/experts au sommet de la pyramide Ces personnes ne seront pas remplacées par l'IA ; au contraire, leur influence sera amplifiée. Le système amplifie leurs capacités, reproduisant leur intelligence avancée des milliers de fois. Chaque opération et correction qu'ils effectuent fournit au système des « données endogènes » de haute qualité. Ils constituent la force motrice essentielle qui permet au système générateur d'évoluer continuellement. Un large éventail de « producteurs et vendeurs » Pour le grand public, la création n'est plus à visée commerciale, mais retrouve l'intégration de la production et de la vente. À l'instar des cadres retraités qui pratiquent la calligraphie chez eux, le processus créatif lui-même est une forme de consommation. Le contenu généré par l'utilisateur est créé pour satisfaire ses propres besoins spirituels ; sa valeur se réalise dès sa production et ne nécessite pas de monétisation par le biais de trafic externe. Wang Guan appelle cela « le travail est une forme de consommation ». Les chefs de produit à l'ère de l'IA : ne se contentent plus de dessiner des prototypes Wang Guan est lui-même chef de produit de formation et possède une compréhension approfondie de la valeur de ce rôle à l'ère de l'IA. La tâche principale d'un chef de produit n'est plus de dessiner des prototypes, mais de concevoir les limites de l'intelligence. Plus précisément, il peut être divisé en trois niveaux : Système de conception 1 : Définir les limites de capacité du modèle Le modèle est le produit, et sa conception mérite d'être soignée. Le chef de projet doit transformer le savoir-faire métier en données, définir ce qui constitue un « bon » résultat et établir des critères d'évaluation. Système de construction 2 : Contexte et environnement de conception La compétence fondamentale d'un chef de projet réside dans l'ingénierie du contexte. En concevant des cadres d'agents, des flux de travail et des bases de connaissances, on fournit au modèle des données d'entrée de haute qualité. Noyau stratégique : Concevoir un système en boucle fermée pour les « données endogènes » Le chef de produit doit concevoir un produit entièrement nouveau qui génère des données inédites lors de son fonctionnement. Ce produit est essentiellement une « plateforme d'étiquetage ». Wang Guan a déclaré que les Premiers ministres devaient également jouer le rôle de « concepteurs esthétiques » et de « normalisateurs ». Toutes les données ne se valent pas. Les chefs de projet doivent avoir un goût très sûr pour définir ce qui constitue un résultat de haute qualité. L'organisation comme environnement : les employés comme agents intelligents ONE2X est une entreprise très spéciale. Tout le monde travaille à distance ; il n'y a pas de postes de direction, pas d'indicateurs clés de performance (KPI), et même pas de suivi des présences. Wang Guan la définit comme un « studio de produits » plutôt que comme une entreprise traditionnelle. Sa philosophie organisationnelle est simple : considérer l'entreprise comme un « environnement » et les employés comme des « agents intelligents ». Ce concept est issu de l'apprentissage par renforcement. En apprentissage par renforcement, vous ne contrôlez pas l'agent ; vous créez plutôt un environnement dans lequel l'agent agit de manière autonome. Wang Guan a déclaré que le cœur du management ne réside pas dans l'évaluation des indicateurs clés de performance (KPI), mais dans l'alignement sur la « fonction de récompense ». Chaque employé rejoint l'entreprise avec ses propres objectifs, qu'il s'agisse d'une passion pour la technologie ou du désir d'empêcher l'entreprise de faire faillite. La sagesse organisationnelle consiste à trouver un moyen de maximiser la projection des objectifs individuels sur la direction de progression de l'entreprise. Pour remédier à la solitude et aux problèmes de confiance liés au télétravail, ONE2X a mis en place l'initiative « Chaleur et confiance ». Au sein de l'entreprise, il existe un « cercle d'amis » interne où chacun crée des groupes de discussion sur Lark pour partager des potins et rédiger de courts essais. Ces échanges non liés au travail permettent d'instaurer un climat de chaleur et de confiance interpersonnelle similaire à celui que l'on trouve hors ligne. Wang Guan a déclaré que le système de travail de bureau est un produit de la révolution industrielle. Le travail intellectuel n'a pas besoin d'être lié à des chaînes de production physiques, et le télétravail, combiné au « Plan chaleureux et de confiance », est plus adapté au modèle de studio de production. L'intelligence artificielle générale (IAG) au sens strict : une boucle automatisée de génération de revenus Wang Guan propose une définition très pragmatique de l'AGI (Intelligence Artificielle Générale). Il ne parle ni d'omniscience ni d'omnipotence, ni même de conscience de soi. Il parle d'intelligence artificielle générale au sens strict. Qu’est-ce que l’AGI au sens strict ? Dans un secteur d'activité spécifique (comme le trading d'actions), l'IA peut générer des revenus par elle-même, utiliser ces revenus pour acheter de la puissance de calcul et des données, puis s'optimiser pour générer encore plus de revenus. Lorsqu'une personne sort complètement de cette boucle, l'AGI au sens strict est réalisée dans ce domaine. Il ne s'agit pas d'une "singularité" soudaine, mais plutôt de quelque chose qui se produit progressivement, petit à petit. Par exemple, ce phénomène semble gagner du terrain dans les domaines du codage ou du traitement du langage. La stratégie de Nokia : accumuler des données et attendre le moment de l’iPhone. Wang Guan a établi une analogie précise : nous vivons actuellement « l’ère Nokia » de l’IA. Les applications d'IA que nous voyons aujourd'hui sont très similaires à la calculatrice ou au jeu Snake des téléphones Nokia. Il est inapproprié de développer des applications mobiles internet complexes à ce stade. Quelle est la stratégie ? Avant que n'arrive le « moment iPhone » (c'est-à-dire avant que les modèles multimodaux de bout en bout ne mûrissent, ne deviennent extrêmement peu coûteux et ne permettent une inférence extrêmement rapide), nous devrions nous concentrer sur la création d'outils de productivité qui soient au plus près du modèle. Cela nous permet à la fois de détecter les changements de modèle et d'accumuler des données (Système 2/Contexte), préparant ainsi le terrain pour une véritable super application à l'avenir. Wang Guan a également cité un poème pour décrire la relation entre les agents généraux et les agents verticaux : « Mille rivières reflètent la lune, dix mille kilomètres de ciel sont sans nuages. » Les agents verticaux (tels que Qianjiangyue) possèdent des connaissances et des données uniques dans leurs domaines respectifs, ce qui représente une opportunité pour les entreprises d'applications. L'Agent Universel (Wanlitien) tente de tout couvrir, mais il ne peut atteindre l'excellence dans tous les domaines pendant la phase de transition. À terme, les deux convergeront : la généralisation approfondira l'intégration verticale, et l'intégration verticale étendra ses frontières, se rejoignant dans la compétition ultime entre efficacité et coût. Papillons voletant parmi les fleurs : la philosophie de Lao Tseu sur l'engagement avec le monde Lorsqu'il a évoqué sa philosophie personnelle, Wang Guan a déclaré être profondément influencé par le taoïsme. Mais il fit une distinction intéressante : il n’aimait pas « le roc déployant ses ailes » de Zhuangzi, mais préférait « le papillon voltigeant parmi les fleurs » de Laozi. L'image d'un roc déployant ses ailes symbolise la liberté, la solitude et l'élévation. Les papillons volent parmi les fleurs sans jamais suivre une ligne droite, mais en contournant les obstacles avec aisance. Wang Guan a déclaré que les entrepreneurs devraient être comme des papillons, s'engageant activement dans le monde et s'adaptant aux changements environnementaux pour résoudre des problèmes spécifiques, plutôt que de poursuivre un détachement nihiliste. Il a également partagé un fait peu connu qu'il a trouvé « horrifiant » : une génération ne dure que 25 à 30 ans. À l'âge de trente ans, il réalisa que les produits qu'il fabriquait servaient en réalité des personnes dans « l'autre vie » (c'est-à-dire des personnes de 25 à 30 ans plus jeunes que lui). Cette perspective temporelle lui a permis de transcender les angoisses immédiates et d'envisager l'évolution du produit dans une perspective à plus long terme. Indicateur principal : Niveau d'intelligence du système L'indicateur clé de performance pour ONE2X n'est pas le nombre d'utilisateurs actifs quotidiens (DAU), mais plutôt le niveau d'intelligence du système. Wang Guan a déclaré que 3 utilisateurs experts générant 1 million de revenus valent mieux que 100 000 utilisateurs ordinaires générant le même montant de revenus. Pourquoi? Car les utilisateurs experts (dotés d'un sens esthétique et de compétences élevés) peuvent fournir des données de haute qualité au système, améliorant ainsi son « intelligence ». Comment quantifier la sagesse ? Il ne s'agit pas de la quantité de contenu généré, mais de «obtenir le même résultat avec moins de ressources». Tout comme pour résoudre un problème mathématique, celui qui trouve la réponse d'un seul coup d'œil est plus intelligent que celui qui doit effectuer plusieurs calculs. Moins on consomme de jetons, plus le système est performant. Il s'agit d'une norme de mesure totalement différente de celle de l'ère Internet. Une vérification inattendue Pour vérifier la valeur commerciale du produit, Wang Guan s'est lui-même servi de « cobaye ». Il a créé des vidéos à l'aide d'une version préliminaire de Medeo et les a publiées sur sa chaîne vidéo WeChat. À sa grande surprise, cette chaîne, qui n'était pas activement gérée, a cumulé plus de 2 millions de vues. Ce qui l'a encore plus surpris, c'est qu'il ignorait l'existence d'un système de partage des revenus du compte vidéo jusqu'au jour où celui-ci l'a informé qu'une somme d'argent (plusieurs centaines de yuans) avait été déposée sur son compte. Cela l'a convaincu que même les outils actuels, encore inachevés, pouvaient permettre aux gens ordinaires de tirer profit du contenu. Il existe une histoire encore plus folle. Un créateur de contenu IA très populaire sur Bilibili et WeChat Video Channel a emprunté tous les comptes Google de ses amis pour recharger leurs crédits et pouvoir utiliser leur produit. Ils ont acheté tous les forfaits de points disponibles et ont rechargé leur compte au maximum, mais estimant que ce n'était toujours pas suffisant, ils ont contacté directement l'équipe Crown pour obtenir de l'aide. Cela a permis à l'équipe de Wang Guan de réaliser que les meilleurs créateurs ont une soif étonnante d'outils de production efficaces. 20 points de vue qui contredisent le consensus Pour résumer les idées de Wang Guan, voici 20 de ses points de vue anti-consensus les plus fondamentaux : La logique sous-jacente de l'intelligence 1. Le premier principe de l'intelligence, ce sont les données ; les données déterminent les limites, la puissance de calcul détermine la vitesse et les algorithmes déterminent l'émergence. 2. La compression est une forme d'intelligence ; son essence réside dans la « continuité ». 3. De « l’adaptation des structures » à « l’adaptation au monde » 4. Au sens strict, l'AGI est une boucle fermée automatisée de « gagner de l'argent - évoluer ». En matière de concurrence industrielle 5. Trois étapes du développement industriel : domaine public → domaine → endogène. 6. Le fossé réside dans les « données endogènes ». 7. Nous sommes actuellement dans « l'ère Nokia » de l'IA. 8. L’« enveloppe » représente le cœur de la compétitivité ; le contexte est primordial. 9. Le résultat ultime de l'intégration générale et verticale : mille rivières reflètent mille lunes. Méthodologie du produit 10. Les systèmes génératifs remplaceront les systèmes de recommandation. 11. Théorie de l'architecture produit à trois niveaux : DSL → Contexte → Environnement 12. Le cœur de l'ingénierie contextuelle est la « réduction de l'entropie ». 13. Indicateur de l'étoile polaire : Intelligence systémique 14. L'environnement comme étiquette Concernant l'écosystème de contenu 15. La vidéo est le « point de départ » de l’ère de l’IA, et non le point d’arrivée. 16. Le monde physique contre le monde des idées 17. De la « Création » à l'« Expression » 18. Transformation monétaire : de « l’attention » à la « confiance » Sur l'organisation et la philosophie 19. L'organisation est l'environnement, et les employés sont les agents intelligents. 20. Comme un papillon voltigeant parmi les fleurs, s'engageant activement dans le monde. fin Le plat préféré de Wang Guan est le riz blanc. Au cours de la séance de questions-réponses rapide, il a déclaré qu'il n'aimait pas voyager et qu'il n'avait pas une perspective globale sur les préférences alimentaires. Le riz blanc est l'aliment le plus polyvalent ; il se marie bien avec tous les plats. Cela peut également être une allégorie de sa philosophie de développement produit : créer la base la plus simple et la plus compatible. À l'époque de Nokia et de l'IA, la plupart des gens couraient après le trafic et la monétisation, mais Wang Guan a choisi une voie plus difficile : constituer une vidéothèque, accumuler des données endogènes et attendre le moment de l'iPhone. Il a déclaré qu'une génération ne dispose que d'une seule vie. Alors profitons de cette vie pour faire quelque chose de différent. --- Cette vidéo a été générée à l'aide de Prompt et est basée sur une interview professionnelle de Zhang Xiaojun (Jun) tirée du podcast.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.