X (Twitter)

Este artigo da AniX, uma colaboração entre a Microsoft e a Universidade de Fudan, é bastante interessante. Vamos pedir a uma IA que o interprete: Como seria inserir seu próprio personagem em um mundo 3D e controlá-lo para realizar diversas ações como em um jogo? Uma equipe da Microsoft Research e da Universidade de Fudan criou um sistema chamado AniX, que é basicamente o tema deste texto. Dê a ele uma cena 3D (gerada usando a tecnologia 3DGS), dê a ele um personagem e, em seguida, diga-lhe em linguagem natural para "correr para a frente" ou "tocar guitarra", e ele poderá gerar o vídeo correspondente. As competências essenciais dividem-se em quatro aspetos: 1. Consistência de Cena e Personagens: No vídeo gerado, a aparência dos personagens e a aparência da cena são consistentes com o que você forneceu. 2. A biblioteca de ações é muito rica, não se limitando a simples andar e correr, mas também incluindo gestos (como acenar e saudar) e até mesmo interação com objetos (fazer ligações telefônicas e tocar violão). Os dados de treinamento continham apenas quatro ações de movimento básicas, mas o modelo aprendeu a generalizar e executar 142 ações desconhecidas. (?!) 3. Permite interação contínua. Você pode dar instruções rodada após rodada, e cada vídeo gerado dará continuidade ao anterior, mantendo a sequência. É como explorar um mundo de verdade. 4. O design de controle da câmera é bastante inteligente. Em vez de usar codificação matemática complexa para controlar a câmera, ele renderiza diretamente o caminho desejado da câmera na cena 3DGS e, em seguida, usa esse resultado de renderização como uma entrada condicional. É como mostrar ao modelo um "vídeo de referência" e dizer-lhe como a câmera deve se mover. A ideia central de todo o sistema é a geração condicional de vídeos autorregressivos. Os dados de treinamento provêm de fontes muito práticas: gravações do jogo GTA V. Eles gravaram mais de 2.000 vídeos, cada um contendo apenas uma ação, e então fizeram três coisas: ① Extrair o personagem. ② Completar o fundo (usando ferramentas de restauração por IA). ③ Marque as ações Cada personagem é representado por imagens de quatro perspectivas (frontal, traseira, esquerda e direita), para que o modelo possa perceber o personagem de diferentes ângulos. A arquitetura do modelo é baseada no HunyuanCustom (13 bilhões de parâmetros) e utiliza o método de treinamento Flow Matching. Como inserir diversas informações condicionais no modelo: ① As máscaras de cena e de personagem são diretamente mescladas ao ruído. ② Comandos de texto e imagens de personagens em múltiplas vistas são costurados na sequência. ③ Diferentes códigos posicionais são usados para distinguir essas entradas. Uma descoberta interessante foi feita: O ajuste fino do modelo pré-treinado usando dados de movimento simples não apenas não prejudicou a capacidade de generalização do modelo, como também melhorou a qualidade do movimento. É semelhante ao treinamento de um modelo de linguagem complexo; o ajuste fino não se trata de reaprender conhecimento, mas sim de ajustar o "estilo de fala". Eles utilizaram o sistema de avaliação WorldScore para medir a qualidade visual. Os resultados superaram os modelos de geração de vídeo existentes e os modelos de mundo especializados em quase todas as métricas. A taxa de sucesso do controle de movimento é particularmente reveladora: ① Animações básicas de movimento: taxa de sucesso de 100% ② 142 novas animações: taxa de sucesso de 80,7% Em comparação, outros modelos têm uma taxa de sucesso inferior a 50% em movimentos básicos, chegando a apenas 3,3% em alguns casos. A consistência dos papéis foi medida usando as pontuações DINOv2 e CLIP, com o AniX atingindo pontuações de 0,698 e 0,721, respectivamente, significativamente superiores às de outros métodos. Diversas escolhas de design importantes A entrada de caracteres em múltiplas visualizações é realmente útil. Eles compararam perspectivas de visão única, visão dupla e visão quádrupla e descobriram que os índices de consistência dos personagens aumentavam com o aumento do número de perspectivas. O mascaramento de personagens também é importante. Com as informações de mascaramento para cada quadro, o modelo consegue distinguir melhor entre personagens dinâmicos e cenas estáticas. As condições visuais são claramente úteis para a geração a longo prazo. Se as condições de cena 3DGS ou as condições de personagem com múltiplas vistas forem removidas, a qualidade gerada diminuirá significativamente com o tempo. O modelo original leva 121 segundos para gerar 93 quadros de vídeo 360P (com uma única câmera H100). Após a destilação com DMD2 na versão de 4 etapas, o processo leva apenas 21 segundos, praticamente sem perda de qualidade. Algumas ideias interessantes me vieram à mente: O valor dos dados do jogo. Jogos como GTA-V fornecem uma grande quantidade de dados de treinamento estruturados, com personagens, ambientes e ações prontamente disponíveis. Esta pode ser uma fonte de dados subestimada. Estratégia de treinamento híbrida. Posteriormente, adicionaram 400 vídeos com atores reais, usando as etiquetas "renderizado" e "real" para distinguir entre o jogo e o estilo da vida real. Essa simples anotação de dados permite que o modelo aprenda a distinguir diferentes estilos visuais, o que é bastante engenhoso. A fonte da capacidade de generalização. O treinamento com apenas 4 movimentos básicos, e ainda assim a capacidade de executar 142 novos movimentos, demonstra que o modelo pré-treinado já contém uma vasta quantidade de conhecimento sobre o movimento humano. O ajuste fino consiste simplesmente em ativar e alinhar esse conhecimento. A abordagem para o controle da câmera. Renderizar vídeos de referência diretamente é mais intuitivo e controlável do que codificá-los em representações matemáticas abstratas. Vale a pena aprender com essa filosofia de design "o que você vê é o que você recebe". O artigo não declara explicitamente suas limitações, mas os seguintes problemas são evidentes: Os dados de treinamento ainda são insuficientes; mais de 2.000 vídeos não são muitos para uma tarefa tão complexa. A taxa de sucesso das ações de interação com objetos (80,7%) é boa, mas ainda há espaço para melhorias. Embora tempos de geração mais longos mostrem alguma melhoria, a qualidade ainda diminui com o tempo, como pode ser visto nos gráficos. Este pode ser um problema comum em modelos autorregressivos. A cena precisa estar no formato 3DGS, o que representa uma pequena barreira para usuários comuns. Embora possa ser gerado usando ferramentas como o Marble, isso adiciona mais uma camada de dependência. De forma geral, a AniX deu um grande passo em direção à geração controlável de animações de personagens. Você não precisa de grandes quantidades de dados ou projetos complexos; se encontrar a abordagem certa, poderá obter ótimos resultados com pequenas quantidades de dados.

O artiarxiv.org/pdf/2512.17796contrado em https://t.co/0RSMzZPuon

Thread de 向阳乔木 (@vista8)

Informações do autor

Conteúdo da thread