¿El modelo grande de capas descompuestas de código abierto está aquí tan rápido? Les presentamos una prueba práctica del nuevo modelo Qwen-Image-Layered de Alibaba. Este modelo, de gran tamaño, puede dividir imágenes en diferentes capas y es una versión optimizada de Qwen-Image. Mis pruebas cubrieron las fortalezas del modelo en varios escenarios (carteles), pruebas de cumplimiento de instrucciones (especificando objetivos de extracción), procesamiento de bordes (cabello) y pruebas extremas (todas las calcomanías; si cada calcomanía está en una capa separada, se pueden extraer más de 50 capas). En resumen, el modelo es demasiado grande. Al estar basado en Qwen-Image, ocupa solo 20 bytes. Lo probé con HuggingFace Zero GPU y cada ejecución tardó unos dos minutos. El modelo trabaja con capas separadas y el procesamiento de bordes es bastante bueno. Sin embargo, necesita optimizarse la estabilidad. En mis pruebas, genera una salida con cuatro capas, pero falla con ocho o diez. Sospecho que podría deberse a que se superó el límite de tiempo de espera de Zero GPU o a un error (la GPU es una H200, por lo que es improbable que se agote la VRAM). El tamaño de salida es de solo 544*736, mientras que la recomendación oficial es una resolución de 640, que también necesita mejorarse. Además, el modelo sigue siendo demasiado grande con solo 20 bytes; espero que se pueda optimizar el tamaño.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.