Especialista em robótica do Google revela: Por que você ainda não tem uma babá robô em casa? No caminho de volta para Pequim, ouvi o podcast de Zhang Xiaojun: Entrevista com Tan Jie da DeepMind: Robótica, Ontologia Cruzada, Modelo Mundial, Gemini Robotics 1.5 e Google Tendo adquirido uma compreensão preliminar do progresso na combinação de robôs e grandes modelos de linguagem, achei muito interessante escrever um artigo sobre isso usando IA. --- Você já se perguntou por que os robôs conseguem dar cambalhotas e correr em ambientes simulados, mas cambaleiam e tropeçam ao caminhar na vida real? Esse problema tem incomodado Tan Jie, do Google DeepMind, há muitos anos. Como líder técnico da equipe, ele testemunhou duas mudanças paradigmáticas importantes no campo da robótica na última década. A primeira foi a aprendizagem por reforço e a segunda foram os grandes modelos de linguagem. A transição de carreira de Tan Jie é, na verdade, bastante interessante. Eu adorava jogar videogame quando criança e estudei computação gráfica para o meu doutorado. Você já ouviu falar do famoso Desafio de Robótica da DARPA de 2015? Esses robôs humanoides foram solicitados a realizar tarefas "simples", como atravessar declives, dirigir carros e girar válvulas, mas acabaram se despedaçando. Mas e em um ambiente de simulação? Os robôs já conseguem dar cambalhotas. Esse forte contraste deu a Tan Jie uma oportunidade: se a tecnologia da simulação pudesse ser transferida para o mundo real, os robôs experimentariam um salto qualitativo. Em 2018, Tan Jie publicou seu primeiro artigo no Google, utilizando aprendizado por reforço profundo para resolver o problema da marcha de robôs quadrúpedes. Qual foi a inovação deste artigo? Isso prova uma coisa: você não precisa de um doutorado para fazer robôs andarem. Anteriormente, as pessoas usavam MPC (Controle Preditivo por Modelo), mas a matemática envolvida era tão complexa que era necessário um doutorado para entendê-la. No entanto, com o advento do aprendizado por reforço, muitos alunos do ensino médio podem baixar um pacote PPO da internet e, juntamente com o Isaac Gym, fazer robôs se moverem. Quando uma tecnologia se torna suficientemente simples, ela se dissemina rapidamente. Observem: seja o Atlas da Boston Dynamics ou os robôs da SpaceX e da Entropy, todos estão usando aprendizado por reforço. Em cinco anos, essa área se transformou de uma que "apenas algumas pessoas conseguiam fazer" para uma que "todo mundo consegue fazer". Mas o aprendizado por reforço resolve apenas o problema do "cerebelo" — como andar e como manter o equilíbrio. O robô ainda não tem um "cérebro". Por volta de 2022, o surgimento de grandes modelos de linguagem mudou tudo. Antes, se você pedisse a um robô para "fazer uma xícara de café para mim", ele não tinha a menor ideia do que você queria dizer. Mas agora, se você fizer a mesma pergunta ao ChatGPT, ele poderá fornecer uma lista detalhada dos passos a seguir. Tan Jie comparou isso à relação entre o cérebro e o cerebelo: - O cérebro (grande modelo de linguagem): responsável pela compreensão, planejamento e tomada de decisões. - Cerebelo (aprendizagem por reforço): responsável pela execução, controle e equilíbrio. Ambos são indispensáveis. Este ano, a equipe lançou o Gemini Robotics 1.5, que apresenta duas inovações principais. 1. Dar aos robôs a capacidade de "pensar". Os modelos VLA anteriores funcionavam assim: recebiam uma imagem e uma descrição da tarefa como entrada e, em seguida, o ângulo do motor era exibido diretamente. E agora? O robô vai "pensar nisso" primeiro. Por exemplo, se você pedir para separar roupas por cor, primeiro ele identificará a cor, depois decidirá em qual pilha colocá-las e, em seguida, executará a ação. Todo o processo de pensamento será apresentado em formato de texto. Isso traz duas vantagens: ① Os robôs conseguem lidar com tarefas mais complexas e com várias etapas. ② Os humanos conseguem entender o que os robôs estão pensando, tornando-os mais seguros. Transferência de Movimento: Migração de dados entre ontologias Este é ainda mais impressionante. O problema anterior era que cada robô só podia usar seus próprios dados. Os dados que você coletar no robô A serão inúteis no robô B. No entanto, eles descobriram que um método chamado Transferência de Movimento permite que diferentes robôs compartilhem resultados de aprendizagem. Por exemplo: Aloha é um robô de mesa que só consegue operar em superfícies planas e nunca viu um ambiente vertical antes. Franka é um robô industrial que frequentemente recolhe itens de prateleiras verticais de ferramentas. Quando os dados de ambos os conjuntos de dados foram misturados para treinamento, Aloha repentinamente conseguiu pegar livros da estante, mesmo nunca tendo visto um cenário assim antes. Isso resolve fundamentalmente o problema da insuficiência de dados, pois qualquer tarefa realizada por um robô pode ser utilizada por outros robôs. Quanto aos detalhes de como foi feito, Tan Jie sorriu e disse: "É um segredo bem guardado." Após discutir tanta tecnologia, Tan Jie enfatizou repetidamente apenas uma palavra: dados, dados, dados. Grandes conjuntos de dados de modelos de linguagem são gratuitos e facilmente acessíveis online. Mas e os dados dos robôs? Cada um deles custa dinheiro. Wang He fez alguns cálculos: 10.000 robôs humanoides, a 100.000 de cada, totalizariam 1 bilhão. Cada máquina requer quatro pessoas para operar remotamente em dois turnos, ganhando dezenas de milhares de yuans por mês. Incluindo manutenção, etiquetagem e inspeção de qualidade, o custo mensal varia de centenas de milhões a bilhões. Isso é completamente inviável em escala. Portanto, Tan Jie acredita em um caminho diferente: dados escaláveis. incluem: - Dados de simulação - Vídeos de humanos no YouTube - Dados gerados por modelos de geração de vídeo (como Sora, VEO) Gerar uma quantidade massiva de dados de simulação e trocar poder computacional por precisão pode ser a única abordagem viável. Modelo Mundial: O Próximo Paradigma? O VLA (Visão-Linguagem-Ação) é atualmente o modelo com melhor desempenho. Mas a linguagem tem um problema: é uma forma de expressão que resulta em perda de informação. Como você descreveria os movimentos sutis de cada dedo ao usar hashis para pegar comida? É difícil. Portanto, muitas pessoas no Vale do Silício estão apostando em um modelo mundial onde a entrada é a visão e a linguagem, e a saída é a imagem do próximo quadro. O modelo mundial é Visão-Linguagem-Visão. Não substitui o VLA, mas sim coexiste com ele. Pode haver um modelo unificado de grande escala no futuro, mas isso não é possível no momento devido às limitações de capacidade computacional. O toque: uma modalidade subestimada Tan Jie apresenta uma mudança interessante em sua compreensão. Ele costumava pensar que o tato era irrelevante porque o artigo de Aloha provava que a visão sozinha poderia permitir que um robô retirasse um cartão de crédito de uma carteira. Mas recentemente, ao usar sua destreza manual para controlar a tesoura, ele mudou de ideia. Quando se tem mãos hábeis, o tato torna-se muito importante. Como os dois anéis da tesoura são muito grandes, sem feedback tátil, você não saberia se seu dedo está dentro do anel ou no ar, e não conseguiria controlar com precisão a abertura e o fechamento. Portanto, sua conclusão é que, na era dos dispositivos de preensão, a visão podia resolver 95% dos problemas. Mas, na era das mãos hábeis, o tato tornou-se indispensável. Qual o tamanho do Vale do Silício? Muitas pessoas acreditam que o horário de trabalho 996 é uma tradição chinesa. Mas Tan Jie afirmou que aqueles que trabalham com IA e robótica no Vale do Silício também trabalham no esquema 996 (das 9h às 21h, 6 dias por semana). Ele trabalha de 70 a 80 horas por semana. Por que trabalhar tanto? Porque ninguém quer perder nesta competição. Se você for o segundo melhor do mundo, o melhor jogador da sua equipe vai querer se juntar à equipe número um do mundo. Portanto, você precisa trabalhar o dobro para se manter no topo para sempre. O uso recente de ofertas exorbitantes pela Meta para atrair talentos perturbou ainda mais todo o mercado de talentos em IA no Vale do Silício. Mas Tan Jie afirmou que os talentos verdadeiramente excepcionais não se importam com dinheiro; eles apenas querem ter certeza de que estão no caminho certo. Quando ocorrem grandes mudanças, uma pessoa com senso de missão não tolerará estar no lugar errado. O robô se parece com uma criança pequena? Essa é uma pergunta interessante. Em termos de habilidades motoras, os robôs já superaram os adultos. Tan Jie disse que o robô humanoide de Yu Shu corre ainda mais rápido do que a velocidade [do robô]. No entanto, em termos de habilidades de preensão e manipulação, eles provavelmente estão apenas no nível de uma criança de dois ou três anos de idade. Ele consegue entender mais ou menos o que você quer que ele faça e consegue fazer corretamente depois de algumas tentativas, mas não é muito estável. E se você tiver mãos hábeis? Eles podem nem ter dois anos de idade. O desenvolvimento da robótica é muito desigual. O controle da marcha foi amplamente resolvido pelo aprendizado por reforço nos últimos 5 anos, mas uma boa solução para a manipulação manual ainda está longe de ser encontrada. Dois a três anos: O momento GPT O julgamento de Tan Jie é: Em 2 a 3 anos: haverá avanços suficientes para que as pessoas realmente percebam que "robôs de uso geral estão chegando". Em 5 anos: Robôs serão implantados em setores verticais como manufatura, logística e supermercados, mas não serão mais automação tradicional; em vez disso, terão capacidades de generalização. 10 anos: Robôs começam a entrar em lares em larga escala Mas ele também enfatizou repetidamente que a maioria das pessoas superestima o estado atual da robótica. Porque o que todos veem é o melhor vídeo dentre 10 tomadas, mas isso não representa as verdadeiras capacidades do robô. Há um ano, seus robôs não conseguiam nem pegar meias de Natal. Na demonstração CORAL deste ano, alguém trouxe uma caixa de controle complexa com vários botões, interruptores e controles deslizantes, e lhe foram atribuídas 25 tarefas, das quais o robô completou 10. Isso teria sido inimaginável há seis meses. No entanto, mesmo com uma taxa de sucesso de 40%, ainda é impraticável na vida real. Considerações finais Após ouvir este podcast, tenho algumas considerações: 1. A robótica não é um problema único, mas sim uma combinação de uma série de problemas complexos. Ao contrário da IA, que tem um tema principal claro, os robôs fazem experiências dispersas e ainda não resolveram nada. 2. Os dados são o maior gargalo. Se apenas um problema pode ser resolvido, é o problema dos dados. 3. O Vale do Silício acredita no pensamento a longo prazo. Eles estão dispostos a passar 10 anos apostando em uma direção, mesmo que não vejam retornos no curto prazo. Isso é muito diferente da cultura doméstica que busca a implementação rápida. 4. Os chineses representam uma grande parte dessa onda. A equipe de Tan Jie é composta por 50 a 60% de chineses. Não é porque os chineses se mantêm unidos, mas sim porque são bons em matemática, trabalhadores e talentosos. 5. O desenvolvimento de robôs foi superestimado. Embora o progresso seja rápido, ainda está longe de ser verdadeiramente implementado. Ele disse algo no final que achei bastante interessante: "Quando uma tecnologia se torna mais fácil de usar, ela se dissemina rapidamente." Isso se aplica ao aprendizado por reforço, e também a grandes modelos de linguagem. Talvez um dia, ensinar novas habilidades a robôs seja tão simples quanto usar o ChatGPT hoje em dia. Foi aí que os robôs realmente chegaram.
Link xiaoyuzhoufm.com/episode/692965…o/6Cmg3FIJDm