Se lanza FLUX 2: un avance en inteligencia visual de vanguardia Black Forest Labs lanzó cuatro versiones esta vez: • FLUX 2 [pro]: La versión de mayor calidad, proporcionada vía API, que ofrece velocidad y bajo costo, logrando un equilibrio perfecto entre calidad y velocidad. • FLUX 2 [flex]: una versión de control de parámetros abiertos que permite a los desarrolladores ajustar la cantidad de pasos y coeficientes de guía, equilibrando libremente la calidad, la adherencia a las palabras clave y la velocidad. • FLUX 2 [dev]: un modelo ponderado abierto con parámetros de 32 bits, actualmente el modelo abierto de generación y edición de imágenes más potente, capaz de ejecutarse localmente en una sola tarjeta gráfica RTX 4090. • FLUX 2 [klein] (próximamente): un modelo de código abierto de Apache 2.0, derivado del modelo base, más liviano pero aún potente. Puntos centrales de innovación 1. Compatibilidad con imágenes de referencia múltiple: FLUX 2 puede referenciar hasta 10 imágenes simultáneamente, logrando una consistencia líder en la industria en cuanto a personajes, productos y estilos. Esto es fundamental para escenarios como el diseño de marca y el desarrollo de personajes. 2. El modelo de realismo y detalle definitivo se ha mejorado significativamente en iluminación, textura y lógica espacial, lo que lo hace adecuado para fotografía de productos, visualización y escenarios de aplicación similares a la fotografía. 3. Capacidades de renderizado de texto: La tipografía compleja, las infografías, los emojis y el texto fino en prototipos de interfaz ahora pueden ejecutarse de forma fiable en entornos de producción. Esto soluciona un problema de larga data: la precisión del texto en la generación de imágenes con IA. 4. La edición de alta resolución admite la edición de imágenes de hasta 4 megapíxeles manteniendo el detalle y la consistencia. 5. Las indicaciones mejoradas demuestran una comprensión significativamente mejorada de instrucciones complejas y estructuradas, incluidas indicaciones de varias partes y restricciones de composición. Familia modelo Arquitectura técnica FLUX 2 se basa en una arquitectura de coincidencia de flujo latente, que integra la generación y edición de imágenes en una única arquitectura. El modelo combina un modelo de lenguaje visual Mistral-3 de 24 parámetros con un transformador de flujo modificado; el primero aporta conocimiento del mundo real y comprensión contextual, mientras que el segundo captura las relaciones espaciales, las propiedades de los materiales y la lógica compositiva. Además, el equipo volvió a entrenar el espacio latente del modelo (VAE) desde cero, logrando un mejor equilibrio entre capacidad de aprendizaje, calidad y tasa de compresión. Importancia e impacto: La importancia fundamental de esta versión reside en la transformación de una herramienta para demostrar habilidades técnicas a una herramienta para la productividad. FLUX 2 no se trata solo de generar imágenes atractivas, sino de gestionar fielmente las directrices de la marca, mantener la coherencia estilística, representar textos con precisión y seguir instrucciones complejas, todos requisitos esenciales en los flujos de trabajo creativos. El concepto de "núcleo abierto" de Black Forest Labs también es digno de mención: proporciona API de nivel comercial y lanza modelos de peso abiertos, lo que permite a los investigadores, creadores y desarrolladores participar en la configuración del futuro de la inteligencia visual, en lugar de que esté monopolizado por unas pocas empresas. Este es un paso significativo hacia los agentes inteligentes multimodales: el futuro de la IA unificará las capacidades de percepción, generación, memoria y razonamiento. FLUX 2 nos muestra que este futuro se acerca rápidamente.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
