Je viens de terminer le visionnage de l'intégralité de la conversation de trois heures entre Zhang Xiaojun et Li Xiang, et c'était incroyablement instructif. Ce dialogue a eu lieu il y a six mois (avril 2025), et compte tenu de l'évolution du secteur de l'IA, une grande partie du contenu a changé depuis. Zhang Xiaojun a utilisé une analogie brillante : Cette fois-ci, j'ai abordé Li Xiang comme un « PDG modèle » pour mes questions. Partant du principe qu'il incarnait le modèle du ministère de l'Éducation, j'ai fait appel à ses trois « experts » lors des trois premiers échanges : un expert en technologie, un expert en stratégie et un expert en organisation. Au fil de la conversation, nous avons commencé à discuter de sujets tels que les individus, l'énergie, les relations interpersonnelles, les processus de mémorisation et l'intelligence humaine. La « réponse » de Li Xiang était très franche, voire quelque peu « contre-intuitive », contrairement à sa conversation avec Luo Yonghao, qui portait sur son développement et son esprit d'entreprise, et n'avait que peu de rapport avec les voitures. Il a en effet davantage parlé d'intelligence artificielle, abordant même la question de l'entraînement des modèles. --- Sujet 1 : « Outils d'information » vs « Outils de production » : Pourquoi l'IA ne nous a-t-elle pas encore permis de vraiment nous déconnecter du travail ? Il s'agit d'une observation pertinente faite par Li Xiang dès le début : « Tous mes collègues et amis parlent des merveilles de l'intelligence artificielle, mais le temps de travail de chacun n'a pas diminué et les résultats du travail ne se sont pas améliorés de manière significative. » Pourquoi? Il a proposé une comparaison entre « l'augmentation de l'entropie » et « la diminution de l'entropie » : L'IA excelle particulièrement dans l'« augmentation de l'entropie » : elle peut traiter des quantités massives d'informations, des téraoctets de données et pousser la complexité à l'extrême. Et les humains ? Le cerveau humain est naturellement conçu pour réduire l'entropie : nous inventons des méthodologies et créons des outils pour résoudre les problèmes en utilisant les règles les plus simples et en dépensant le moins d'énergie possible. La contradiction actuelle est que nous considérons presque tous encore l'IA comme un « outil d'information » (tel qu'un chatbot) ou un « outil d'assistance » (tel qu'une voix intelligente). Outils d'information : vous posez une question, ils répondent. Ils vous donnent simplement un « jeton suivant », un point de référence. Au lieu de vous aider à « réduire l'entropie », ils augmentent considérablement la quantité d'« informations invalides », voire trompeuses. Outils d'accessibilité : Ils vous aident à adapter la navigation. Prenez l'exemple de Meituan (une plateforme de livraison de repas). Elle améliore l'expérience utilisateur, mais elle reste indispensable. Li Xiang estime que la véritable avancée pour l'IA réside dans son évolution en un « outil de production ». Qu’est-ce qu’un « outil de production » ? Il en a donné une définition très simple : « unité du savoir et de l’action ». Il ne suffit pas qu'il « sache » ; il doit être capable d'« agir ». Il doit pouvoir me remplacer véritablement, accomplir un travail professionnel et prendre en charge les 8 heures les plus importantes de ma journée de travail. Il a cité des exemples comme Cursor et Deep Research, où ses collègues ont commencé à payer pour leurs propres services. Pourquoi ? Parce que ces outils ont commencé à être efficaces : ils permettaient de réaliser des projets concrets, et non plus seulement d’en parler. Ceci l'amène à son critère ultime pour juger les agents : le seul but d'un agent est de servir d'« outil de production ». Un agent qui ne peut que discuter et ne peut pas agir a une valeur extrêmement limitée. --- Sujet 2 : Que pouvons-nous apprendre de DeepSeek ? Des « bonnes pratiques » contre-intuitives Au cours de cette conversation, Li Xiang n'a pas caché son admiration pour DeepSeek et son fondateur, Liang Wenfeng. Le caractère open source de DeepSeek a permis d'accélérer de neuf mois le développement du composant linguistique du VLA (Visual Language Action Model) d'Ideal. Ideal a par la suite rendu son propre système d'exploitation open source, en grande partie par reconnaissance envers DeepSeek. Alors, qu'est-ce que DeepSeek a fait de bien exactement ? Le résumé de Li Xiang est le suivant : « Cela utilise les meilleures pratiques humaines de manière très simple. » Il a analysé deux « meilleures pratiques » : La première approche constitue la meilleure pratique pour développer les capacités (recherche et développement) : - Étape 1 : Effectuer des recherches Deuxième étape : Développement - Étape 3 : Exprimer sa capacité - Étape 4 : Transformer en valeur commerciale - Une erreur fréquente que nous commettons : passer directement à la deuxième étape, « faire de la R&D », en oubliant la première étape, « faire de la recherche ». La deuxième approche est la meilleure pratique pour les entreprises (raisonnement) : - Étape 1 : Analyse de l'indice Deuxième étape : Définir l'objectif - Étape 3 : Stratégie émergente Étape 4 : Commentaires/Évaluation - Une erreur fréquente : face à un problème, nous voulons seulement modifier la troisième étape, « stratégie », mais nous oublions de refaire la première étape, « analyse », la deuxième étape, « fixation des objectifs », et la quatrième étape, « évaluation ». Suivre scrupuleusement ces étapes est en réalité contraire à la nature humaine. L'être humain a toujours tendance à prendre des raccourcis et à agir selon ses propres désirs. Une organisation d'excellence est celle qui lutte contre cette tendance. Il estime que Leung Man Fung incarne parfaitement ce genre d’« autodiscipline » et d’« adhésion aux meilleures pratiques ». --- Sujet 3 : Démystifier le VLA : Comment « construire » un pilote ? Il s'agit de la partie la plus technique du module « Expert technique ». Alors que d'autres abordent encore les solutions globales, Li Xiang détaille déjà leur architecture VLA (Vision-Langage-Action) de nouvelle génération. Il a divisé l'évolution des systèmes d'aide à la conduite en trois étapes, une analogie très pertinente : La première étape est celle de l'algorithme basé sur des règles : comme « l'intelligence des insectes ». Par exemple, les fourmis s'appuient exclusivement sur des cartes de haute précision (phéromones), et les règles sont définies de manière rigide, rendant toute généralisation impossible. La deuxième étape est l'étape de bout en bout : comme « l'intelligence des mammifères ». Par exemple, un animal de cirque peut imiter le fait de faire du vélo, mais il ne comprend pas le monde physique. La troisième étape est l'étape VLA : la recherche de « l'intelligence humaine ». Il ne s'agit pas seulement de voir (Vision), mais aussi de comprendre (Langage, incluant le raisonnement et les chaînes de pensée), et d'exécuter (Action). Alors, comment ce « conducteur humain » a-t-il été « créé » ? Li Xiang a proposé une simple « méthode de formation en trois étapes » : Étape 1 : Préformation (base VL) – Similaire à « aller à l’école pour acquérir des connaissances » L'objectif est de permettre au modèle de comprendre le monde. Quelles données devons-nous utiliser pour l'entraînement ? En plus d'utiliser des corpus ordinaires, nous devons également utiliser trois types de données propres à Ideal : 1. Données de vision 3D (monde physique). 2. Données de vision 2D haute définition (par exemple, pour comprendre les cartes de navigation, la clarté est 10 fois supérieure à celle des sources ouvertes). 3. Corpus combiné VL (le plus crucial, tel que les données combinées de « voir cette navigation » + « les humains ont porté ce jugement »). Et ensuite ? Nous avons transformé ce modèle « médecin » comportant 32 milliards de paramètres dans le cloud en un modèle MoE « expert » comportant 3,2 milliards de paramètres côté véhicule, garantissant ainsi son exécution sur le véhicule. Deuxième étape : Après la formation (mise en pratique) – comme « Apprendre à conduire dans une auto-école » L'objectif est de transformer le « savoir » en « action » par l'imitation et l'apprentissage. Comment s'entraîne-t-on ? En apprenant des actions des conducteurs humains, le modèle VLA apprend ce qu'il voit et comprend, puis décide de l'action à entreprendre. Étape 3 : Entraînement par renforcement (ER) – Comme si l'on « conduisait réellement sur la route » L'objectif est de conduire aussi bien, voire mieux, qu'un humain. Comment s'entraîne-t-on ? 1. RLHF (Rétroaction humaine) : Alignez-le avec l'intervention humaine et les habitudes de conduite afin qu'il se comporte comme un « conducteur expérimenté » plutôt que comme un « danger sur la route ». 2. RL pur (modèle du monde) : Exécutez le simulateur (modèle du monde) de manière débridée, en utilisant le « confort », les « règles de circulation » et les « collisions » comme normes de récompense et de punition, laissez-le « apprendre » par lui-même et conduire mieux que l'humain moyen. Ces trois étapes permettent de créer un « modèle de pilote VLA ». Li Xiang estime que le secteur des transports sera le premier domaine d'application de la VLA. De plus, à l'avenir, il n'y aura plus d'« agent général », mais seulement d'innombrables « agents spécialisés » (tels que des chauffeurs, des médecins et des avocats), et ils fonctionneront tous sur un « système d'exploitation d'agent intelligent » unifié. --- Sujet 4 : La fin idéale : Une « société de terminaux AGI » Il s'agit d'une réflexion sur le module « Expert stratégique ». De qui Ideal Company tire-t-elle ses compétences organisationnelles ? L'itinéraire proposé par Li Xiang est le suivant : 1. Au stade des milliards de dollars de revenus : Apprenez de Toyota, GM (processus) et Google (OKR). 2. L'étape des 100 milliards de revenus : Apprenez de Huawei (IPD, processus organisationnels). 3. Pour atteindre le stade du billion de dollars (100 milliards de dollars américains) : nous devons apprendre d’Apple. Que devons-nous apprendre d'Apple ? Tirez des enseignements de sa capacité à se diversifier, passant d'une entreprise informatique à une entreprise de lecteurs de musique, une entreprise de téléphonie mobile et une entreprise d'écosystème de services. Partant de ce constat, Li Xiang a apporté la réponse ultime à la question de l’« idéal ». À la question « Qui est idéal ? », il ne se contentait plus de mentionner les voitures, mais en donnait une définition extrêmement claire : « D’ici 2030, nous espérons devenir une entreprise leader mondiale dans le domaine des terminaux d’IA. » Il a fait une analogie : - À l'époque du PC : il y avait les entreprises de terminaux (Apple) et les entreprises de plateformes (Microsoft). - L'ère de l'internet mobile : il existe des entreprises de terminaux (Apple) et des entreprises de plateformes (Google). - À l'ère de l'IA générale, il y aura inévitablement des entreprises de plateforme (comme OpenAI) et des entreprises de terminaux. Idéalement, nous devrions devenir l'Apple de l'ère de l'IA générale. Il estime que l'automobile est le premier véritable « terminal AGI » car elle possède simultanément quatre éléments : 1. Perception physique à 360° ; 2. Prise de décision cognitive ; 3. Capacité d'agir ; 4. Réflexion et retour d'information. Mais leurs ambitions ne s'arrêteront pas aux automobiles. Une fois qu'ils auront atteint une échelle de plus de 500 milliards, ils devront, comme Apple avec l'iPhone, explorer d'autres terminaux d'intelligence artificielle générale (qui répondent aux quatre éléments ci-dessus), tels que les appareils domestiques et portables. En réponse aux critiques selon lesquelles l'ampleur de l'opération était excessive, Li Xiang a déclaré sans ambages : « Si notre chiffre d'affaires dépasse les 100 milliards de yuans… alors ces actions sont justifiées… c'est trop rentable, pourquoi ne le ferions-nous pas ? » --- Thème 5 : Du « changement » à la « croissance » : énergie, sagesse et relations intimes C'est ma partie préférée de toute la conversation ; elle parle des « gens ». Li Xiang a partagé sa philosophie de gestion la plus importante : « Les gens sont difficiles à changer, mais ils sont disposés à évoluer. » Par conséquent, en matière de management, il « parlait en accord avec la nature humaine, mais agissait à l'encontre de celle-ci ». Il parlait d'une manière qui corresponde à la nature humaine (Évoluons ensemble), mais agissait à l'encontre de celle-ci (Appliquons strictement les « meilleures pratiques »). Il a également partagé un concept fondamental : « l'énergie ». Il estime que le cœur d'une organisation réside dans la constitution d'un « noyau énergétique » (une équipe de partenaires clés) de 3 à 7 personnes. Cette équipe doit développer une « intelligence collective » (prise de décision partagée) et une « solidarité » renforcée (soutien mutuel). Comment cette énergie peut-elle être produite ? Sa réponse découlait de son expérience de père : « Dans les relations étroites, il faut exprimer ses besoins avec audace… J’ai plus besoin d’eux (ma famille, mes collègues) qu’ils n’ont besoin de moi. » Il a découvert que l'énergie commence à circuler lorsqu'on exprime « J'ai besoin de toi ». C'est parce que chacun aspire à se sentir utile. Cela l'a amené à sa réflexion ultime sur l'ère de l'IA : l'IA est responsable de « l'intelligence », et les humains sont responsables de « la sagesse ». - Intelligence (capacités) : L'IA peut être améliorée indéfiniment. - Sagesse (Relations) : Li Xiang définit la sagesse comme « notre relation avec toutes choses » — votre relation avec vous-même, votre relation avec les autres et votre relation avec la nature. Quelle est la valeur ultime de l'IA ? C'est de libérer les humains des tâches à faible valeur ajoutée qui consomment de l'énergie et ne génèrent pas de « sagesse » (comme passer des appels d'invitation), afin que nous ayons le temps de faire des choses qui « réduisent » véritablement l'entropie et génèrent de l'énergie — de gérer les « relations » et d'accroître la « sagesse ». Cela pourrait bien être la réponse à la question fondamentale de « la relation entre l'IA et les humains ». Lien vers le texte de l'interview :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
