X (Twitter)

A Nvidia acaba de lançar o ChronoEdit-14B na Hugging Face. Permite a edição de imagens com reconhecimento de física e a simulação do mundo condicionado à ação por meio de raciocínio temporal. Ele extrai informações prévias de um modelo generativo de vídeo pré-treinado com 14 bilhões de parâmetros e separa a inferência em (i) um estágio de raciocínio de vídeo para remoção de ruído latente da trajetória e (ii) um estágio de edição contextual para poda de tokens da trajetória. O ChronoEdit-14B foi desenvolvido pela NVIDIA como parte da família ChronoEdit de modelos fundamentais multimodais.

Modelo:huggingface.co/nvidia/ChronoE…u

Aplichuggingface.co/spaces/nvidia/…cOA5Ecj

Thread de AK (@_akhaliq)

Informações do autor

Conteúdo da thread