O modelo de camada decomposta de código aberto, de grande porte, já está disponível tão rapidamente? Apresentamos a vocês um teste prático do novo modelo Qwen-Image-Layered, lançado pela Alibaba. Este é um modelo robusto que divide imagens em diferentes camadas e é uma versão aprimorada do Qwen-Image. Meus testes abrangeram os pontos fortes do modelo em vários cenários (pôsteres), testes de conformidade com as instruções (especificando os alvos de extração), processamento de bordas (cabelo) e testes extremos (todos os adesivos; se cada adesivo estiver em uma camada separada, mais de 50 camadas podem ser extraídas). Resumindo, o modelo é muito grande. Por ser baseado no Qwen-Image, ele tem 20 bytes. Testei com a GPU HuggingFace Zero e cada execução levou cerca de dois minutos. O modelo utiliza camadas separadas e o processamento de bordas é bastante bom. No entanto, a estabilidade precisa ser otimizada. Nos meus testes, ele gerou resultados com quatro camadas, mas travou com oito ou dez camadas. Suspeito que isso possa ser devido ao limite de tempo limite da GPU Zero ou a um bug (a GPU é uma H200, então é improvável que esteja sem VRAM). O tamanho da saída é de apenas 544x736, enquanto a recomendação oficial é de resolução 640, o que também precisa ser melhorado. E o modelo ainda é muito grande com 20 bytes; espero que o tamanho possa ser otimizado.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.