A Nvidia acaba de lançar o ChronoEdit-14B na Hugging Face. Permite a edição de imagens com reconhecimento de física e a simulação do mundo condicionado à ação por meio de raciocínio temporal. Ele extrai informações prévias de um modelo generativo de vídeo pré-treinado com 14 bilhões de parâmetros e separa a inferência em (i) um estágio de raciocínio de vídeo para remoção de ruído latente da trajetória e (ii) um estágio de edição contextual para poda de tokens da trajetória. O ChronoEdit-14B foi desenvolvido pela NVIDIA como parte da família ChronoEdit de modelos fundamentais multimodais.
Modelo:huggingface.co/nvidia/ChronoE…u
Aplichuggingface.co/spaces/nvidia/…cOA5Ecj
