Lançamento do FLUX 2: Um avanço em inteligência visual de ponta Desta vez, a Black Forest Labs lançou quatro versões: • FLUX 2 [pro]: A versão de mais alta qualidade, fornecida via API, que oferece velocidade e baixo custo, alcançando um equilíbrio perfeito entre qualidade e velocidade. • FLUX 2 [flex]: Uma versão com controle de parâmetros aberto que permite aos desenvolvedores ajustar o número de etapas e os coeficientes de orientação, equilibrando livremente a qualidade, a aderência às palavras-chave e a velocidade. • FLUX 2 [em desenvolvimento]: Um modelo ponderado aberto com parâmetros de 32 bits, atualmente o modelo aberto mais poderoso para geração e edição de imagens, capaz de ser executado localmente em uma única placa gráfica RTX 4090. • FLUX 2 [klein] (em breve): Um modelo de código aberto do Apache 2.0, derivado do modelo base, mais leve, porém ainda poderoso. Pontos Essenciais de Inovação 1. Suporte a múltiplas imagens de referência: O FLUX 2 pode referenciar até 10 imagens simultaneamente, alcançando uma consistência líder do setor em termos de personagem, produto ou estilo. Isso é significativo para cenários como design de marca e desenvolvimento de personagens. 2. O modelo de realismo e detalhes foi significativamente aprimorado em termos de iluminação, textura e lógica espacial, tornando-o adequado para fotografia de produtos, visualização e aplicações semelhantes à fotografia. 3. Capacidades de renderização de texto: Tipografia complexa, infográficos, emojis e textos pequenos em protótipos de interface agora podem ser executados de forma confiável em ambientes de produção. Isso resolve um problema antigo de precisão de texto na geração de imagens por IA. 4. A edição em alta resolução suporta a edição de imagens de até 4 megapixels, mantendo os detalhes e a consistência. 5. Os prompts aprimorados demonstram uma compreensão significativamente melhorada de instruções complexas e estruturadas, incluindo prompts com várias partes e restrições de composição. Família modelo Arquitetura Técnica O FLUX 2 é baseado em uma arquitetura de correspondência de fluxo latente, integrando geração e edição de imagens em uma única arquitetura. O modelo combina um modelo de linguagem visual Mistral-3 de 24 parâmetros com um transformador de fluxo modificado; o primeiro traz conhecimento do mundo real e compreensão contextual, enquanto o segundo captura relações espaciais, propriedades dos materiais e lógica composicional. Além disso, a equipe reconstruiu o espaço latente do modelo (VAE) do zero, alcançando um melhor equilíbrio entre capacidade de aprendizado, qualidade e taxa de compressão. Significado e impacto: A principal importância desta versão reside na transformação de uma ferramenta para demonstrar habilidades técnicas em uma ferramenta para produtividade. O FLUX 2 não se limita a gerar imagens belíssimas, mas sim a lidar de fato com diretrizes de marca, manter a consistência estilística, renderizar textos com precisão e seguir instruções complexas — todos requisitos essenciais em fluxos de trabalho criativos. O conceito de "núcleo aberto" da Black Forest Labs também merece destaque: ele fornece APIs de nível comercial e disponibiliza modelos de peso abertos, permitindo que pesquisadores, criadores e desenvolvedores participem da definição do futuro da inteligência visual, em vez de deixá-la monopolizada por algumas poucas empresas. Este é um passo significativo rumo a agentes inteligentes multimodais — o futuro da IA unificará as capacidades de percepção, geração, memória e raciocínio. O FLUX 2 demonstra que esse futuro está se aproximando rapidamente.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
