Acabei de assistir à versão completa da conversa de três horas entre Zhang Xiaojun e Li Xiang, e foi incrivelmente informativa. Esse diálogo aconteceu há seis meses (abril de 2025) e, de acordo com a cronologia da indústria de IA, muito do conteúdo mudou desde então. Zhang Xiaojun usou uma analogia brilhante: Desta vez, abordei Li Xiang como um "modelo de CEO" para minhas perguntas. Partindo do pressuposto de que ele representa o modelo do Ministério da Educação, invoquei seus três "especialistas" nas três primeiras rodadas da conversa: um especialista em tecnologia, um especialista em estratégia e um especialista em organização. À medida que a conversa avançava para a segunda metade, começamos a discutir pessoas, energia, relacionamentos íntimos, processos de memória e inteligência humana. A "resposta" de Li Xiang foi muito franca, até um tanto "contraintuitiva" — ao contrário de sua conversa com Luo Yonghao, que se concentrou em seu crescimento e empreendedorismo, e não teve muito a ver com carros. Em vez disso, ele falou mais sobre IA, chegando a discutir como treinar modelos. --- Tópico 1: "Ferramentas de Informação" vs. "Ferramentas de Produção": Por que a IA ainda não nos permitiu realmente nos afastarmos do trabalho? Essa é uma observação perspicaz que Li Xiang fez logo no início: "Todos os meus colegas e amigos falam sobre como a inteligência artificial é fantástica, mas a carga horária de trabalho de ninguém diminuiu e os resultados do trabalho não melhoraram de forma significativa." Por que? Ele propôs uma comparação entre "aumento da entropia" e "diminuição da entropia": A IA é particularmente boa em "aumentar a entropia" — ela pode processar quantidades massivas de informações, processar terabytes de dados e levar a complexidade ao extremo. E quanto aos seres humanos? O cérebro humano é naturalmente projetado para reduzir a entropia — inventamos metodologias e criamos ferramentas para resolver problemas usando as regras mais simples e a menor quantidade de energia. A contradição atual reside no fato de que quase todos nós ainda tratamos a IA como uma "ferramenta de informação" (como um chatbot) ou uma "ferramenta assistiva" (como um assistente de voz inteligente). Ferramentas de informação: você pergunta, elas respondem. Elas apenas fornecem um "Próximo Token", um ponto de referência. Em vez de ajudar a "reduzir a entropia", elas aumentam uma quantidade enorme de "informações inválidas", inclusive informações enganosas. - Ferramentas de acessibilidade: ajudam a ajustar a navegação; confira o Meituan (uma plataforma de entrega de comida). Elas melhoram a experiência existente, mas você ainda não consegue viver sem elas. Li Xiang acredita que o verdadeiro ponto de virada para a IA reside em sua evolução para uma "ferramenta de produção". O que é uma "ferramenta de produção"? Ele deu uma definição muito simples: "unidade entre conhecimento e ação". Não basta "saber" (conhecer); precisa ser capaz de "agir" (fazer). Tem que ser capaz de realmente me substituir, realizar trabalho profissional e resolver as 8 horas mais importantes do meu dia de trabalho. Ele citou exemplos como Cursor e Deep Research, em que seus colegas começaram a pagar por seus próprios serviços. Por quê? Porque essas ferramentas começaram a "fazer as coisas acontecerem" — elas estavam realmente "realizando" o trabalho, e não apenas "falando" sobre ele. Isso o leva ao seu critério final para avaliar agentes: o único propósito de um agente é servir como uma "ferramenta de produção". Um agente que só pode conversar e não pode realizar ações tem valor extremamente limitado. --- Tópico 2: O que podemos aprender com o DeepSeek? "Melhores práticas" contraintuitivas Nessa conversa, Li Xiang não escondeu sua admiração pelo DeepSeek e seu fundador, Liang Wenfeng. A natureza de código aberto do DeepSeek acelerou o desenvolvimento do componente de linguagem do VLA (Visual Language Action Model) da Ideal em nove meses. Posteriormente, a Ideal tornou seu próprio sistema operacional de código aberto, em grande parte como forma de gratidão ao DeepSeek. Então, o que exatamente a DeepSeek fez certo? O resumo de Li Xiang é: "Utiliza as melhores práticas humanas de uma forma muito simples." Ele descreveu duas "melhores práticas": A primeira abordagem representa a melhor prática para o desenvolvimento de capacidades (pesquisa e desenvolvimento): - Etapa 1: Realizar pesquisa Etapa Dois: Desenvolvimento - Etapa 3: Expressando a Capacidade - Etapa 4: Transformar em valor para o negócio Um erro comum que cometemos: pular diretamente para a segunda etapa, "fazer P&D", esquecendo a primeira etapa, "fazer pesquisa". A segunda abordagem é a melhor prática para os negócios (raciocínio): - Etapa 1: Análise do Índice Passo Dois: Defina o Objetivo - Etapa 3: Estratégia Emergente Etapa 4: Feedback/Avaliação Um erro comum que cometemos: ao nos depararmos com um problema, queremos mudar apenas a terceira etapa, "estratégia", mas nos esquecemos de refazer a primeira etapa, "análise", a segunda, "definição de metas", e a quarta, "revisão". Seguir rigorosamente esses passos é, na verdade, "contra a natureza humana". A natureza humana sempre busca atalhos e quer fazer o que bem entende. Uma organização excelente é aquela que luta contra essa natureza humana. Ele acredita que Leung Man Fung é a personificação desse tipo de "autodisciplina" e "adesão às melhores práticas". --- Tópico 3: Desmistificando o VLA: Como "construímos" um driver? Esta é a parte mais complexa de todo o módulo "Especialista Técnico". Enquanto outros ainda estão falando sobre soluções de ponta a ponta, Li Xiang já está detalhando a arquitetura VLA (Visão-Linguagem-Ação) de próxima geração. Ele dividiu a evolução dos sistemas de assistência ao condutor em três estágios, uma analogia muito apropriada: A primeira etapa é a do algoritmo baseado em regras: como a "inteligência dos insetos". Por exemplo, as formigas dependem estritamente de mapas de alta precisão (feromônios), e as regras são rigidamente definidas, tornando a generalização impossível. O segundo estágio é o estágio de ponta a ponta: como a "inteligência dos mamíferos". Por exemplo, um animal de circo pode imitar o ato de andar de bicicleta, mas não compreende o mundo físico. A terceira etapa é a etapa VLA: a busca pela "inteligência humana". Ela precisa não apenas ver (Visão), mas também compreender (Linguagem, incluindo raciocínio e cadeias de pensamento) e executar (Ação). Então, como esse "motorista humano" foi "criado"? Li Xiang apresentou um "método de treinamento em três etapas" simples: Etapa 1: Pré-treinamento (base VL) – Semelhante a “ir à escola para adquirir conhecimento” O objetivo é permitir que o modelo compreenda o mundo. Que dados devemos usar para o treinamento? Além de utilizar corpora comuns, também precisamos usar três tipos de dados exclusivos do Ideal: 1. Dados de visão 3D (mundo físico). 2. Dados de visão 2D de alta definição (por exemplo, para entender mapas de navegação, a nitidez é 10 vezes maior do que a de código aberto). 3. Corpus combinado VL (o mais crucial, como dados combinados de "visualização desta navegação" + "humanos fizeram este julgamento"). E então? Simplificamos esse modelo "médico" com 32 bilhões de parâmetros na nuvem em um modelo "especialista" de MoE com 3,2 bilhões de parâmetros no veículo, garantindo que ele possa ser executado no veículo. Etapa Dois: Pós-Treinamento (Incorporando Ação) – Como “Aprender a Dirigir na Autoescola” O objetivo é transformar o "conhecimento" em "ação" por meio da imitação e da aprendizagem. Como treinamos? Ao aprender com as ações dos motoristas humanos, o modelo VLA aprende o que vê e entende, e então decide qual ação tomar. Etapa 3: Treinamento de Reforço (TR) – Como se estivesse "realmente dirigindo na estrada" O objetivo é dirigir tão bem quanto, ou até melhor que, um ser humano. Como treinamos? 1. RLHF (Feedback Humano): Alinhá-lo com a intervenção humana e os hábitos de condução para que o veículo se comporte como um "motorista experiente" em vez de um "perigo na estrada". 2. Aprendizado por Reforço Puro (Modelo Mundial): Dirija livremente no simulador (modelo mundial), usando "conforto", "regras de trânsito" e "colisão" como padrões de recompensa e punição, deixe-o "aprender" sozinho e dirigir melhor do que um humano médio. Por meio dessas três etapas, cria-se um "modelo de condutor VLA". Li Xiang acredita que o setor de transportes será o primeiro cenário de aplicação para a VLA. Além disso, no futuro, não haverá um "agente geral", mas sim inúmeros "agentes especializados" (como motoristas, médicos e advogados), e todos eles funcionarão em um "Sistema Operacional de Agente (sistema operacional de agente inteligente)" unificado. --- Tópico 4: O Final Ideal: Uma "Empresa de Terminais AGI" Esta é uma reflexão sobre o módulo "Especialista Estratégico". De quem a Ideal Company aprende suas capacidades organizacionais? A rota proposta por Li Xiang é: 1. Na fase de faturamento bilionário: Aprenda com a Toyota, a GM (processos) e o Google (OKR). 2. A fase de faturamento de 100 bilhões: Aprender com a Huawei (IPD, processos organizacionais). 3. Para atingir o patamar de um trilhão de dólares (100 bilhões de dólares americanos): Precisamos aprender com a Apple. O que devemos aprender com a Apple? Aprenda com sua capacidade de se expandir de uma empresa de computadores para uma empresa de tocadores de música, uma empresa de telefones celulares e uma empresa de ecossistema de serviços. Com base nisso, Li Xiang deu a resposta definitiva à questão do "ideal". Quando perguntado "Quem é o ideal?", ele não se limitou a mencionar carros, mas apresentou uma definição extremamente clara: "Até 2030, esperamos nos tornar uma empresa líder global em terminais de IA." Ele fez uma analogia: - Na era dos PCs: existiam empresas de terminais (Apple) e empresas de plataforma (Microsoft). - A era da internet móvel: Existem empresas de terminais (Apple) e empresas de plataforma (Google). - Na era da Inteligência Artificial Geral (AGI), inevitavelmente haverá empresas de plataforma (como a OpenAI) e empresas de terminais. Idealmente, deveríamos nos tornar a Apple da era da Inteligência Artificial Geral (IAG). Ele acredita que o automóvel é o primeiro verdadeiro "terminal AGI" porque possui quatro elementos simultaneamente: 1. Percepção física de 360°; 2. Tomada de decisão cognitiva; 3. Capacidade de agir; 4. Reflexão e feedback. Mas suas ambições não se limitarão aos automóveis. Uma vez que atinjam uma escala superior a 500 bilhões, eles deverão, assim como a Apple fez com o iPhone, explorar outros terminais de Inteligência Artificial Geral (IAG) (que atendam aos quatro elementos mencionados), como dispositivos domésticos e vestíveis. Em resposta às críticas de que a escala da operação era excessiva, Li Xiang afirmou categoricamente: "Se temos mais de 100 bilhões de yuans em receita... então fazer essas coisas é razoável... é muito lucrativo, por que não faríamos?" --- Tema 5: Da "Mudança" ao "Crescimento": Energia, Sabedoria e Relacionamentos Íntimos Essa é a minha parte favorita de toda a conversa; é sobre "pessoas". Li Xiang compartilhou sua filosofia de gestão mais importante: "As pessoas são difíceis de mudar, mas estão dispostas a crescer." Portanto, ao gerir, ele "falava de acordo com a natureza humana, mas agia contra ela". Falava de uma forma que se alinhava com a natureza humana (Vamos "crescer" juntos), mas agia contra ela (Implementava rigorosamente as "melhores práticas"). Ele também compartilhou um conceito central: "energia". Ele acredita que a essência de uma organização é construir um "corpo energético" (uma equipe central de parceiros) de 3 a 7 pessoas. Essa equipe deve formar um "cérebro mais forte" (tomando decisões em conjunto) e um "coração mais forte" (apoiando-se mutuamente). Como essa energia pode ser produzida? Sua resposta surgiu de sua experiência como pai: "Em relacionamentos íntimos, você precisa expressar suas necessidades com firmeza... Eu preciso deles (família, colegas) mais do que eles precisam de mim." Ele descobriu que a energia começa a fluir quando você expressa "Eu preciso de você". Isso porque todos anseiam por se sentir necessários. Isso o levou à sua reflexão final sobre a era da IA: a IA é responsável pela "inteligência" e os humanos são responsáveis pela "sabedoria". - Inteligência (capacidades): A IA pode ser aprimorada indefinidamente. - Sabedoria (Relacionamentos): Li Xiang define sabedoria como "nossa relação com todas as coisas" — sua relação consigo mesmo, sua relação com os outros e sua relação com a natureza. Qual é o valor final da IA? É libertar os humanos do trabalho de baixo valor que consome energia e não gera "sabedoria" (como fazer ligações para convites), para que tenhamos tempo para fazer coisas que realmente "reduzem a entropia" e geram energia — para gerenciar "relacionamentos" e aprimorar a "sabedoria". Esta pode ser a resposta para a questão fundamental da "relação entre IA e humanos". O link para o texto da entrevista:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
