Wang Guan já foi derrotado pela OpenAI três vezes. O ChatGPT, nossa primeira ferramenta de escrita, foi lançado. Esta é a segunda vez que converto um arquivo do Excel em um gráfico; o GPT-4 está aqui. Esta é a terceira vez que trabalhamos no fluxo de trabalho do Agente, e o OpenAI Plugins já está online. Ele sempre pisava nos pedais com tanta precisão, como se alguém no céu estivesse observando sua barra de progresso. Isso o fez perceber uma coisa: desenvolver aplicativos às cegas é inútil. Você não sabe quais são as capacidades do modelo básico, é como construir uma casa em areia movediça, você pode ser submerso a qualquer momento. Então, ele decidiu primeiro se tornar gerente de produto de modelos na Moonshot AI para descobrir o que os modelos realmente podem fazer antes de abrir seu próprio negócio. Um ano depois, ele deixou o emprego para fundar a ONE2X e criou o gerador de vídeos com IA Medeo. Ele foi o primeiro funcionário da Dark Side of the Moon a sair para abrir o próprio negócio, e o processo de desligamento da empresa foi estabelecido por causa dele. Compressão é Inteligência: Uma Epifania em Wudaokou A crença de Wang Guan em modelos grandes surgiu de uma refeição em Wudaokou. Foi no restaurante Longrenju que Tim Yang, fundador da Moon's Dark Side, passou três horas explicando a ele o conceito de "Compressão é Inteligência", anotando fórmulas matemáticas em um papel durante todo o processo. Wang Guan disse francamente: "Não entendi nada dessas fórmulas, mas fiquei profundamente impressionado." Mais tarde, ele estudou vídeos do cientista da OpenAI, Jack Rae, e gradualmente construiu um mapa cognitivo completo. Esse conceito é muito abstrato, mas Wang Guan o explicou de forma muito vívida: A compressão não se trata apenas de diminuir o tamanho dos arquivos; trata-se de forçar os dados a estabelecerem conexões. Imagine que você está ensinando duas coisas para uma IA: traduzir do chinês para o inglês e resumir em chinês. Logicamente, a IA não havia aprendido a tarefa de "resumir em inglês". Mas, como a compressão reuniu esses pontos de conhecimento distintos, ela aprendeu automaticamente. Isso é continuidade. Os processos anteriores de IA estruturavam dados, como em uma planilha do Excel, com células que não estavam relacionadas entre si. Os grandes modelos atuais processam dados não estruturados, como linguagem e vídeo, que são inerentemente contínuos, como um rio. A compressão faz com que o rio flua mais suavemente, e a IA pode então "aprender por analogia". As três etapas dos dados: onde estão as oportunidades para startups? Wang Guan tem uma crença fundamental: o primeiro princípio da inteligência são os dados. Ele divide a competição na indústria de IA em três estágios: Fase 1: Dados de Domínio Público Antes, todos coletavam dados da internet, competindo em poder computacional e eficiência na limpeza de dados. Essa fase acabou; o cenário está definido e as empresas que adotaram o modelo básico venceram. Fase Dois: Dados de Domínio A competição gira em torno da posse de dados privados que outros não possuem, como o histórico de informações em setores como saúde e finanças. Isso beneficia grandes empresas e gigantes tradicionais. Fase 3: Dados Endógenos Esta é uma oportunidade para startups. O que são dados endógenos? São dados que não existiam no mundo antes. Antes do ChatGPT, não havia uma quantidade massiva de dados em linguagem natural sobre como resolver problemas por meio de diálogos. A geração de vídeo da ONE2X envolve a criação de uma linguagem (DSL) para descrever o processo de produção de vídeo, e essa linguagem em si é um novo conjunto de dados. Somente projetando novos formatos de produto para gerar dados endógenos e incorporando-os ao modelo, as startups podem construir barreiras para evitar serem esmagadas pelas "extensões naturais" do modelo base. Sistema de geração: um circuito fechado completo Wang Guan não gosta do uso pejorativo da palavra "roupa". Ele disse que a casca pode ser grossa ou fina, mas o Sistema 2 é o núcleo da competitividade. Todos usam o mesmo modelo base (Sistema 1). O sucesso ou fracasso de um produto depende da "camada" que você constrói fora do modelo, ou seja, o contexto. A arquitetura do ONE2X consiste em três camadas: Nível baixo: DSL (Linguagem de Domínio Específico) O complexo processo de produção de vídeo pode ser abstraído em um conjunto finito de "capacidades atômicas". Assim como no jogo de Go, onde as regras são fechadas, ele pode ser calculado. Camada intermediária: Contexto A principal função desta camada é reduzir a "entropia". O que é entropia? É incerteza. Quando um usuário diz: "Faça um vídeo de alta qualidade", a entropia dessa afirmação é muito alta, e a IA não sabe como executá-la. O Sistema 2 precisa traduzir essa declaração em uma instrução precisa. Ao mesmo tempo, também deve restringir os limites comportamentais do agente de IA para garantir que ele não acione ferramentas aleatoriamente e que sua saída seja controlável. Nível superior: Meio Ambiente Não se trata apenas de uma interface de software, mas de um "ambiente" no qual pessoas e IA trabalham juntas. Cada ação e modificação que um usuário realiza aqui gera dados de alta qualidade para o sistema. Este ambiente é essencialmente uma plataforma de anotação de dados. Wang Guan deu um exemplo: quando um chef cozinha, o conhecimento implícito da temperatura do óleo e de quantas vezes refogar o alimento não pode ser aprendido pela IA se não for registrado. O objetivo do Environment é tornar todos esses parâmetros de "temperatura" explícitos. O Mundo Físico versus o Mundo das Ideias: Dois Campos de Batalha do Vídeo Wang Guan possui uma classificação única para a faixa de vídeo. Vídeos do mundo físico são capturados por câmeras, correspondendo a plataformas de vídeos curtos como TikTok e Kuaishou. Wang Guan comparou o local a uma "casa noturna, supermercado e praça de estilo de vida", onde entretenimento, fofocas e vendas já são abundantes. Os vídeos no mundo das ideias são gerados por IA e correspondem a conhecimento, arte e crenças espirituais. Wang Guan os compara a "bibliotecas, casas de ópera e catedrais". Esse tipo de conteúdo sempre foi escasso devido aos seus altos custos de produção (como os anúncios sofisticados da Nike ou a transformação de um artigo em vídeo). O objetivo da ONE2X é conquistar esse "mundo das ideias". Ele também tem uma visão mais ampla: transformar o vídeo de "criação" em "expressão". Na antiguidade, a caligrafia era uma forma de trabalho criativo que exigia pincel, tinta, papel e pedra de tinta, tornando-se uma habilidade muito difícil de adquirir. Enviar mensagens pelo WeChat é atualmente uma forma de expressão com baixíssimas barreiras de entrada. Criar vídeos ainda é considerado um trabalho criativo, como escrever uma carta de amor. No futuro, deverá se tornar uma forma de expressão tão natural quanto falar. Grandes produtos nascem somente quando uma modalidade se transforma de criação em expressão. Sistemas generativos substituirão os sistemas de recomendação. Wang Guan fez uma previsão ousada: o intermediário vai morrer. As plataformas da internet são essencialmente "plataformas de distribuição", controlando a alocação de tráfego e explorando os criadores. TikTok e Taobao são exemplos disso. O sistema de produção é um sistema integrado de produção e vendas, sem estoque ou alocação de fluxo, conectando diretamente a demanda e a produção. A IA gera diretamente as informações que os usuários desejam, eliminando a necessidade de pesquisar em meio a grandes quantidades de conteúdo. Isso significa que o "intermediário" do algoritmo de recomendação não é mais necessário. O que se seguiu foi uma mudança de moeda. Numa era de oferta ilimitada de conteúdo, a "atenção" (tráfego) já não é escassa; o que é escasso é a "confiança". No futuro, os usuários não pagarão pelo tráfego, mas sim pelo gosto e pela receita do criador. Assim como no Substack, eu me inscrevo porque confio em você como pessoa. Criadores do Futuro: Polarização Wang Guan acredita que a comunidade de criadores será dividida em duas categorias. Artistas/especialistas no topo da pirâmide Essas pessoas não serão substituídas pela IA; pelo contrário, sua influência será amplificada. O sistema amplifica suas capacidades, replicando sua inteligência avançada milhares de vezes. Cada operação e correção realizada fornece ao sistema "dados endógenos" de alta qualidade. Eles são a principal força motriz que permite ao sistema generativo evoluir continuamente. Uma ampla gama de "produtores e vendedores" Para o público em geral, a criação deixou de ter fins comerciais e retornou à integração entre produção e vendas. Assim como os quadros aposentados que praticam caligrafia em casa, o próprio processo criativo é uma forma de consumo. O conteúdo gerado pelo usuário é criado para satisfazer as necessidades espirituais individuais; seu valor é percebido no momento em que é produzido e não requer monetização por meio de tráfego externo. Wang Guan chama isso de "trabalho é consumo". Gerentes de produto na era da IA: não se trata mais apenas de desenhar protótipos. O próprio Wang Guan é gerente de produto por formação e tem um profundo entendimento do valor dessa função na era da IA. A principal tarefa de um gerente de produto não é mais desenhar protótipos, mas sim definir os limites da inteligência. Especificamente, pode ser dividido em três níveis: Sistema de projeto 1: Defina os limites de capacidade do modelo O modelo é o produto, e o próprio modelo vale a pena ser projetado. O gerente de projeto precisa transformar o conhecimento de negócios em dados, definir o que constitui um resultado "bom" e estabelecer critérios de avaliação. Sistema de Construção 2: Contexto e Ambiente de Projeto A principal competência de um gerente de projetos reside na engenharia de contexto. Ao projetar estruturas de agentes, fluxos de trabalho e bases de conhecimento, são fornecidas entradas de alta qualidade para o modelo. Núcleo Estratégico: Projetando um Ciclo Fechado para "Dados Endógenos" O gerente de produto deve conceber um formato de produto completamente novo que gere dados que não existiam no mundo antes, durante a operação. Este produto é essencialmente uma "plataforma de etiquetagem". Wang Guan afirmou que os primeiros-ministros também precisam desempenhar o papel de definidores de "estética" e "padrões". Nem todos os dados são bons dados. Os gerentes de projeto precisam ter um paladar muito apurado para definir o que constitui um resultado de alta qualidade. A organização como ambiente: os funcionários como agentes inteligentes. A ONE2X é uma empresa muito especial. Todos trabalham remotamente; não há cargos de gestão, indicadores-chave de desempenho (KPIs) e nem mesmo controle de frequência. Wang Guan define-a como um "Estúdio de Produto", em vez de uma empresa tradicional. Sua filosofia organizacional é simples: enxergar a empresa como um "ambiente" e os funcionários como "agentes inteligentes". Esse conceito vem do aprendizado por reforço. Na aprendizagem por reforço, você não controla o agente; em vez disso, você cria um ambiente no qual o agente age de forma autônoma. Wang Guan afirmou que a essência da gestão não é a avaliação de KPIs, mas sim o alinhamento com a "função de recompensa". Cada funcionário entra na empresa com seus próprios objetivos, que podem ser uma paixão por tecnologia ou o desejo de evitar o fracasso da empresa. A sabedoria organizacional reside em encontrar uma maneira de maximizar a projeção dos vetores de objetivos individuais na direção do progresso da empresa. Para lidar com a solidão e os problemas de confiança associados ao trabalho remoto, a ONE2X criou a "Iniciativa Acolhedora e Confiável". Existe um "círculo de amigos" interno na empresa, onde todos criam grupos temáticos no Lark para compartilhar fofocas e escrever pequenos ensaios. Por meio dessas interações não relacionadas ao trabalho, é possível estabelecer um sentimento de afeto e confiança interpessoal semelhante ao que se encontra fora do ambiente profissional. Wang Guan afirmou que o sistema de trabalho baseado em escritório é um produto da Revolução Industrial. O trabalho intelectual não precisa estar atrelado a linhas de produção físicas, e o trabalho remoto, combinado com o "Plano Acolhedor e Confiável", é mais adequado ao modelo de estúdio de produto. AGI em sentido estrito: um ciclo automatizado de geração de renda. Wang Guan tem uma definição muito pragmática de IAG (Inteligência Artificial Geral). Ele não fala de onisciência ou onipotência, nem de autoconsciência. Ele está falando de IAG (Inteligência Artificial Geral) em um sentido estrito. O que é AGI em sentido estrito? Em um setor específico (como o mercado de ações), a IA pode gerar lucro por conta própria, usar esse dinheiro para comprar poder computacional e dados e, em seguida, otimizar-se para gerar ainda mais lucro. Quando uma pessoa sai completamente desse ciclo, a Inteligência Artificial Geral (IAG) em sentido estrito se realiza nesse domínio. Não se trata de uma "singularidade" repentina, mas sim de algo que acontece gradualmente, pouco a pouco. Por exemplo, esse fenômeno parece estar ganhando força nas áreas de codificação ou processamento de linguagem natural. A estratégia da Nokia: acumular dados e esperar pelo momento do iPhone. Wang Guan fez uma analogia precisa: o presente é a "era Nokia" da IA. Os aplicativos de IA que vemos hoje são muito semelhantes à calculadora ou ao jogo da cobrinha dos celulares Nokia. Neste estágio, não é apropriado desenvolver aplicativos complexos para internet móvel. Qual é a estratégia? Antes que chegue o "momento iPhone" (ou seja, antes que os modelos multimodais de ponta a ponta amadureçam, se tornem extremamente baratos e permitam inferências extremamente rápidas), devemos nos concentrar na criação de ferramentas de produtividade que sejam o mais próximas possível do modelo. Isso nos permite detectar mudanças no modelo e acumular dados (Sistema 2/Contexto), preparando o terreno para um aplicativo verdadeiramente excepcional no futuro. Wang Guan também citou um poema para descrever a relação entre agentes gerais e agentes verticais: "Mil rios refletem a lua, dez mil milhas de céu estão sem nuvens." Agentes verticais (como Qianjiangyue) possuem conhecimento e dados únicos em seus respectivos campos, representando uma oportunidade para empresas de aplicativos. O Agente Universal (Wanlitian) tenta abranger tudo, mas não consegue atingir a excelência em todas as áreas durante a fase de transição. Em última análise, os dois irão convergir: a generalização aprofundará a integração vertical, e a integração vertical expandirá seus limites, convergindo na competição final entre eficácia e custo. Borboletas voando entre as flores: a filosofia de Lao Tzu sobre o envolvimento com o mundo. Ao discutir sua filosofia pessoal, Wang Guan disse que foi profundamente influenciado pelo taoísmo. Mas ele fez uma distinção interessante: não gostou da expressão de Zhuangzi "o roc abrindo as asas", mas preferiu a de Laozi "a borboleta voando entre as flores". A imagem de um roc abrindo suas asas simboliza liberdade, isolamento e voos altos. As borboletas voam entre as flores sem nunca seguirem uma linha reta, mas sim contornando os obstáculos com facilidade. Wang Guan afirmou que os empreendedores devem ser como borboletas, interagindo ativamente com o mundo e se adaptando às mudanças ambientais para resolver problemas específicos, em vez de buscar um distanciamento niilista. Ele também compartilhou um fato pouco conhecido que considerou "horripilante": uma geração dura apenas de 25 a 30 anos. Ao chegar aos trinta e poucos anos, ele percebeu que os produtos que fabricava estavam, na verdade, servindo pessoas na "vida após a morte" (ou seja, pessoas 25 a 30 anos mais jovens que ele). Essa perspectiva em relação ao tempo permitiu que ele transcendesse as ansiedades imediatas e observasse a evolução do produto a partir de uma perspectiva de longo prazo. Indicador Estrela Polar: O Nível de Inteligência do Sistema A principal métrica da ONE2X não é o número de usuários ativos diários (DAU), mas sim o nível de inteligência do sistema. Wang Guan afirmou que 3 usuários especialistas gerando 1 milhão em receita é melhor do que 100.000 usuários comuns gerando a mesma quantia em receita. Por que? Porque os usuários especialistas (com elevado senso estético e grande capacidade) podem fornecer dados de alta qualidade para o sistema, melhorando assim a "inteligência" do sistema. Como a sabedoria pode ser quantificada? Não se trata da quantidade de conteúdo gerado, mas sim de "alcançar o mesmo efeito com menos tokens". Assim como na resolução de um problema de matemática, quem consegue ver a resposta de imediato é mais inteligente do que quem precisa fazer cálculos repetidos. Quanto menos fichas forem consumidas, mais inteligente será o sistema. Este é um padrão de medição completamente diferente daquele da era da Internet. Uma verificação inesperada Para verificar o valor comercial do produto, o próprio Wang Guan se tornou uma "cobaia". Ele criou vídeos usando uma versão antiga do Medeo e os publicou no canal de vídeos do WeChat. Surpreendentemente, o canal, que não era gerenciado ativamente, alcançou mais de 2 milhões de visualizações. O que o surpreendeu ainda mais foi que ele não sabia que a conta de vídeo tinha um sistema de compartilhamento de receita até que um dia o sistema o notificou de que dinheiro (várias centenas de yuans) havia sido depositado em sua conta. Isso o convenceu de que mesmo as ferramentas atuais, ainda em desenvolvimento, poderiam permitir que pessoas comuns lucrassem com o conteúdo. Existe uma história ainda mais maluca. Um dos principais criadores de conteúdo de IA no Bilibili e no canal de vídeos do WeChat pegou emprestadas todas as contas do Google de seus amigos para recarregar os créditos e usar o produto deles. Eles compraram todos os pacotes de pontos disponíveis e completaram o saldo até o limite, mas ainda acharam que não era suficiente, então entraram em contato diretamente com a equipe da Crown para obter ajuda. Isso fez com que a equipe de Wang Guan percebesse que os melhores criadores têm uma sede surpreendente por ferramentas de produção eficientes. 20 pontos de vista que contradizem o consenso Para resumir as ideias de Wang Guan, aqui estão 20 de seus principais pontos de vista anticonsensuais: A lógica subjacente da inteligência 1. O primeiro princípio da inteligência são os dados; os dados determinam os limites, o poder computacional determina a velocidade e os algoritmos determinam a emergência. 2. A compressão é inteligência; sua essência reside na "continuidade". 3. De "estruturas adequadas" a "estruturas adequadas ao mundo" 4. Em sentido estrito, a IAG (Inteligência Artificial Geral) é um ciclo fechado automatizado de "geração de renda - em evolução". Sobre a concorrência no setor 5. Três estágios de desenvolvimento da indústria: domínio público → domínio → endógeno. 6. A vantagem competitiva reside nos "dados endógenos". 7. Atualmente estamos na "era Nokia" da IA. 8. A "casca" é a essência da competitividade; o contexto é tudo. 9. O resultado final da integração geral e vertical: mil rios refletem mil luas. Metodologia do Produto 10. Os sistemas generativos substituirão os sistemas de recomendação. 11. Teoria da arquitetura de produto em três camadas: DSL → Contexto → Ambiente 12. O cerne da engenharia de contexto é a "redução da entropia". 13. Indicador Estrela Polar: Inteligência do Sistema 14. O ambiente como rótulo Em relação ao ecossistema de conteúdo 15. O vídeo é o "ponto de partida" da era da IA, não o ponto final. 16. O Mundo Físico versus o Mundo das Ideias 17. Da "Criação" à "Expressão" 18. Transformação Monetária: Da "Atenção" à "Confiança" Sobre Organização e Filosofia 19. A organização é o ambiente, e os funcionários são os agentes inteligentes. 20. Como uma borboleta que voa entre as flores, interagindo ativamente com o mundo. fim A comida favorita de Wang Guan é arroz branco. Durante a sessão de perguntas e respostas rápidas, ele disse que não gosta de viajar e não tem uma perspectiva global sobre preferências alimentares. O arroz branco é o alimento mais versátil; combina bem com qualquer prato. Isso também pode ser uma alegoria para sua filosofia de desenvolvimento de produtos: criar a base mais fundamental e compatível possível. Na era da IA da Nokia, a maioria das pessoas buscava tráfego e monetização, mas Wang Guan escolheu um caminho mais difícil: construir uma biblioteca de vídeos, acumular dados endógenos e esperar pelo momento do iPhone. Ele disse que uma geração só tem uma vida. Então, vamos usar esta vida para fazer algo diferente. --- Este vídeo foi gerado usando o Prompt e é baseado em uma entrevista de negócios com Zhang Xiaojun (Jun) do podcast.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.