Finalmente, um livro como este! Vários pesquisadores de ponta em IA colaboraram em um artigo que oferece uma explicação detalhada dos princípios dos modelos de difusão. Eu traduzi uma versão bilíngue; o link está abaixo 👇 Isso permite uma compreensão bastante abrangente do modelo de difusão fundamental dos modelos atuais de imagem e vídeo, incluindo especificamente: Capítulo 1: Uma visão geral da definição, importância e linhagem dos modelos generativos, estabelecendo as bases para uma compreensão unificada. Capítulo 2 (Perspectiva VAE): Conectando-se ao DDPM com inferência variacional e explicando o treinamento e a amostragem usando variáveis latentes e objetivos de reconstrução/remoção de ruído. Capítulo 3 (Perspectiva EBM/Score): De Modelos de Energia a EDE NCSN/Score, descrevendo dinâmicas generativas com correspondência fracionária e EDE de tempo contínuo. Capítulo 4: A amostragem é a solução inversa da EDO/EDE ao longo do tempo, e a distribuição dos dados é aproximada passo a passo usando o campo vetorial de deriva de difusão. Capítulo 5 (Perspectiva NF): Do Fluxo Regularizado à Correspondência de Fluxo, unificando a ideia de "transporte orientado por probabilidade ao longo do tempo" por meio de transformação reversível/aprendizado de campo de fluxo. Capítulo Seis: Utilizando a fórmula de substituição do cálculo como fundamento unificado e empregando "técnicas de condicionalização" para transformar problemas difíceis em regressões, obtém-se um treinamento estável e controlável. Capítulo 8: Reexaminando o DDIM e o DPM-Solver dentro da estrutura de EDO, esclarecendo sua relação com os métodos numéricos clássicos e explicando o princípio da amostragem rápida. Capítulo 9: Integração numérica sistematizada e otimizada e controle de erros para acelerar a amostragem iterativa, mantendo a fidelidade e a estabilidade. Capítulo 10: Propõe a abordagem de "mapeamento de fluxo", como o modelo de consistência, para aprender diretamente o desmapeamento de qualquer passo de tempo para qualquer outro, a fim de gerar a solução em menos etapas. Capítulo 11: Estendendo trajetórias consistentes e fluxo médio para aprender a trajetória completa (integral) para geração de alta qualidade em uma ou poucas etapas.
Enderpan.quark.cn/s/2a5100e32b51/t.co/92kzC8YvM3
