X (Twitter)

Black Forest Labs lanza FLUX.2, ¡sigue siendo de código abierto! Admite generación de texto a imagen, referencia de múltiples imágenes y edición de imágenes, y mejora significativamente las capacidades de generación de texto y adherencia a palabras rápidas. Las capacidades específicas del modelo incluyen: - Consulte hasta 10 imágenes a la vez para lograr una coherencia óptima. - Detalles más ricos, texturas más claras e iluminación más estable. - Representación de texto en tipografía compleja, infografías, emojis e interfaces de usuario. - Rendimiento mejorado al seguir instrucciones complejas y estructuradas - Significativamente más basado en el conocimiento del mundo real, la iluminación y la lógica espacial. - Admite edición de imágenes con una resolución de hasta 4 MP Esta vez se lanzaron cuatro versiones del modelo: FLUX.2 [pro]: Calidad de imagen de vanguardia comparable a la de los mejores modelos cerrados, con una adaptación a las señales y un realismo visual similares a los de otros modelos, a la vez que genera imágenes con mayor rapidez y a menor coste. Consiga velocidad y calidad. FLUX.2 [flex]: Permite a los desarrolladores controlar parámetros del modelo como el número de pasos y la intensidad de la guía, lo que les proporciona control total sobre la calidad, la compatibilidad con las señales y la velocidad. Este modelo destaca en la representación de texto y detalles. FLUX.2 [dev]: Un modelo de peso abierto 32B derivado del modelo base FLUX.2. Actualmente, es el modelo de generación y edición de imágenes de código abierto más potente, que combina la síntesis de texto a imagen y la edición de imágenes con múltiples entradas en un solo modelo. FLUX.2 [klein] (próximamente): Un modelo de código abierto con licencia Apache 2.0, una versión simplificada del modelo base de FLUX.2. Más potente y fácil de usar para los desarrolladores que modelos comparables del mismo tamaño entrenados desde cero. FLUX.2 - VAE: Un nuevo autocodificador variacional para representaciones latentes que proporciona un equilibrio optimizado entre capacidad de aprendizaje, calidad y tasa de compresión.

Referencia de múltiples imágenes y edición de imágenes

Hilo de 歸藏(guizang.ai) (@op7418)

Información del autor

Contenido del hilo