A versão da NVIDIA para "Banana": A NVIDIA disponibilizou em código aberto um modelo de edição de imagens baseado em física: o ChronoEdit-14B. Ele gera uma imagem fisicamente precisa em 4 segundos, adicionando uma imagem estática e uma frase. O ChronoEdit possui um "senso de tempo" e um "senso comum físico". Ele consegue entender ações, como "empurrar" ou "pegar", e pode desenhar como o mundo deveria ficar após a ocorrência da ação, com base em seu conhecimento físico adquirido. O processo de edição de imagens é concluído em 8 etapas, com aproximadamente uma imagem capturada a cada 4 segundos em uma tela H100. A julgar pelos resultados, o dispositivo possui uma grande capacidade de prever o resultado das ações. Após a mudança de postura, a consistência do estilo do personagem, das roupas e do cenário é bem mantida, e os efeitos de iluminação e reflexo são tratados de forma lógica. Pode ser utilizado no desenvolvimento de jogos, efeitos especiais de filmes, treinamento de robôs e outros cenários. #ChronoEdit #EdiçãoDeImagensComIA
github:github.com/nv-tlabs/Chron… HF:huggingface.co/nvidia/ChronoE…