Black Forest Labs publie FLUX.2, toujours en open source ! Il prend en charge la génération de texte à partir d'images, la référence multi-images et l'édition d'images, et améliore considérablement les capacités de génération de texte et de respect des consignes. Les capacités spécifiques du modèle comprennent : - Pour une cohérence optimale, consultez jusqu'à 10 images simultanément. — Des détails plus riches, des textures plus nettes et un éclairage plus stable. - Rendu de texte avec typographie complexe, infographies, émojis et interfaces utilisateur - Amélioration des performances dans le suivi d'instructions complexes et structurées - Nettement plus ancré dans la connaissance du monde réel, l'éclairage et la logique spatiale. - Prend en charge l'édition d'images jusqu'à une résolution de 4 MP Quatre versions du modèle ont été commercialisées cette fois-ci : FLUX.2 [pro] : Qualité d’image de pointe comparable aux meilleurs modèles fermés, offrant une fidélité des signaux et un réalisme visuel similaires aux autres modèles, tout en générant des images plus rapidement et à moindre coût. Bénéficiez à la fois de la vitesse et de la qualité. FLUX.2 [flex] : Permet aux développeurs de contrôler les paramètres du modèle, tels que le nombre d’étapes et la force du guidage, leur offrant ainsi une maîtrise totale de la qualité, de la fidélité aux signaux et de la vitesse. Ce modèle excelle dans le rendu du texte et des détails. FLUX.2 [dev] : Un modèle à poids ouverts de 32 octets dérivé du modèle de base FLUX.2. Actuellement le modèle open-source de génération et d’édition d’images le plus puissant, combinant la synthèse d’images à partir de texte et l’édition d’images multi-entrées en un seul modèle. FLUX.2 [klein] (bientôt disponible) : Modèle open source sous licence Apache 2.0, version allégée du modèle de base FLUX.2. Plus puissant et plus facile à utiliser pour les développeurs que les modèles comparables de même taille entraînés à partir de zéro. FLUX.2 - VAE : Un nouvel auto-encodeur variationnel pour les représentations latentes qui offre un compromis optimisé entre l'apprentissage, la qualité et le taux de compression.
Référence multi-images et retouche d'images



