X (Twitter)

A Academia de Inteligência Artificial de Pequim (BAAI) acaba de lançar seu mais recente modelo multimodal para o mundo real: o Emu3.5. Este modelo compreende e gera texto, imagens e vídeos prevendo o próximo token, e suas capacidades de geração/edição de imagens rivalizam com as do Nano Banana. Sua capacidade de compreender a sequência e as relações causais dos eventos, e de prever o que acontecerá a seguir, transformou-a de uma simples ferramenta de geração de conteúdo em um agente inteligente de propósito geral, capaz de criação coerente, planejamento de tarefas e interação com o mundo físico. O treinamento com 10 TB de dados e a aceleração com a tecnologia DiDA resultaram em um aumento de 20 vezes na velocidade de inferência. Com um único clique, ele pode gerar tutoriais, histórias em quadrinhos e filmes em altíssima definição, além de animações passo a passo para robôs/realidade aumentada. Por exemplo, pode gerar imagens fotorrealistas com base em descrições tanto em chinês quanto em inglês. Ele consegue compreender e executar tarefas no mundo físico. Ao observar o processo de pessoas dobrando roupas, ele pode decompor a tarefa em uma série de etapas específicas que o robô consegue entender e executar, guiando-o assim para concluir a operação física. #Modelo Mundial de IA#Emu

github：github.com/baaivision/Emu…

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread