O segredo por trás da Difusão Estável: descobriu-se que ela estava, na verdade, removendo ruído, e não desenhando! --- Você pode ter usado Difusão Estável. Quando você digita "Um gato está sentado em um sofá". Então, você observa a barra de progresso e avança aos poucos. 10%... 20%... 30%... A imagem foi ficando cada vez mais nítida. No início, era tudo ruído. Em seguida, algumas formas podem ser vagamente vistas. Então, você poderá ver o contorno do gato. Finalmente, uma imagem nítida apareceu. Você já se perguntou o que ele realmente faz? A resposta é: redução de ruído. Não se trata de "desenhar" uma figura. É "redução de ruído". Para começar, apresentamos um gráfico contendo apenas ruído. É como a tela estática que aparece quando não há sinal na TV. Em seguida, ele remove gradualmente o ruído. A cada fragmento removido, a imagem fica mais nítida. Após 50 passos, a imagem ficou nítida. Este é o DDPM: Modelo Probabilístico de Difusão para Remoção de Ruído. (Modelo de probabilidade de difusão com redução de ruído) Parece complicado, mas a essência se resume a duas palavras: redução de ruído. Mas existe um lugar mágico aqui: Como é que sabe que tipo de resultado deve alcançar? Quer dizer, é sempre a mesma coisa, Você pode ir até o gato, você pode ir até o cachorro, você pode ir até o carro. Como é que ele sabe que você quer um gato? A resposta é: Você contou. Você digitou "Um gato está sentado no sofá". Este texto será convertido em um vetor. Em seguida, durante cada etapa de redução de ruído, Todos os modelos analisarão esse vetor. Eu sei: Ah, você quer um gato, não um cachorro. Portanto, sua redução de ruído é voltada para "gatos". É por isso que você digita textos diferentes. Serão gerados diferentes gráficos. Porque as abordagens para a redução de ruído são diferentes. E tudo isso se baseia numa ideia simples: A geração é essencialmente o processo inverso da remoção de ruído. Primeiro, aprenda como adicionar ruído. Em seguida, inversamente, aprenda a eliminar o ruído. O objetivo final da redução de ruído é o resultado gerado. Note que este é um artigo inovador de 2020. Desde então, todos os melhores modelos de geração de imagens, Difusão estável, meio da jornada, DALL-E 2, Use essa abordagem para tudo. Não é GAN, é Difusão. A difusão é mais estável, mais controlável e produz imagens mais realistas. Além disso, ao usar a Difusão Estável, você pode ter ajustado os seguintes parâmetros: Passos: 50 Escala CFG: 7,5 Amostra: DPM++ 2M Karras O código foi executado com sucesso e o gráfico foi gerado. Mas talvez você não saiba o que esses parâmetros significam. "Etapas" refere-se ao número de etapas de redução de ruído. A Difusão Estável não gera um grafo de uma só vez. Remove o ruído passo a passo. Steps = 50 significa remover o ruído 50 vezes. A cada visita, o mapa fica um pouco mais claro. Quanto mais etapas houver, mais claro o diagrama se torna, mas mais lento ele é. Quanto menos etapas, mais desfocada a imagem, mas mais rápido o processo. De um modo geral, 50 passos são suficientes. A escala CFG representa a intensidade do guia de texto. CFG significa Guia Livre de Classificadores. Significa: quanta influência o texto que você insere tem no resultado gerado. Com CFG Scale = 1, o texto permanece praticamente inalterado e o modelo pode ser gerado arbitrariamente. Na escala CFG = 20, o texto tem um impacto significativo e o modelo é gerado estritamente de acordo com o texto. Na escala CFG, 7,5 representa um equilíbrio. Requer tanto a leitura do texto quanto um pouco de criatividade. Muito baixo, a imagem e o texto gerados não correspondem. Uma resolução muito alta resulta em uma imagem rígida e sem graça. O sampler é um método para redução de ruído. DDPM significa "redução de ruído de 1000 vezes". Mas 1000 vezes é muito lento. Então, mais tarde, alguém inventou um método mais rápido. DPM++, Euler, DDIM... Todas essas dicas são sobre "como reduzir o ruído mais rapidamente". Alguns métodos conseguem o efeito de 1000 passos em apenas 20 passos. Alguns métodos são mais estáveis. Alguns métodos são ainda mais criativos. O sampler que você escolher determina como você fará a redução de ruído. É isso que esses parâmetros significam. Etapas: Elimine o ruído várias vezes. Escala CFG: Qual a importância do impacto do texto? Amostrador: Qual método é usado para redução de ruído? ---- Artigos científicos de fácil leitura, gerados por IA, são ideais para aprender conceitos complexos.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.