Un modèle open source à couches décomposées de grande taille est-il déjà disponible ? Nous vous proposons un test pratique du nouveau modèle Qwen-Image-Layered d'Alibaba. Ce modèle complet permet de diviser les images en différentes couches et constitue une version optimisée de Qwen-Image. Mes tests ont couvert les points forts du modèle dans divers scénarios (affiches), les tests de conformité aux instructions (spécification des cibles d'extraction), le traitement des bords (cheveux) et les tests extrêmes (tous les autocollants ; si chaque autocollant est sur une couche séparée, plus de 50 couches peuvent être extraites). En résumé, le modèle est trop volumineux. Basé sur Qwen-Image, il occupe 20 octets. Je l'ai testé avec HuggingFace Zero GPU, et chaque exécution a duré environ deux minutes. Le modèle gère les calques séparément et le traitement des contours est plutôt bon. Cependant, sa stabilité nécessite des optimisations. Lors de mes tests, il fonctionne correctement avec quatre calques, mais plante avec huit ou dix calques. Je soupçonne un dépassement de la limite de temps d'attente du Zero GPU ou un bug (le GPU est un H200, il est donc peu probable qu'il manque de VRAM). La taille de sortie n'est que de 544 × 736 pixels, alors que la résolution recommandée est de 640 pixels, ce qui est également à améliorer. De plus, le modèle reste trop volumineux (20 octets) ; il serait souhaitable d'optimiser sa taille.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.