오픈 소스 기반의 분해 계층형 대형 모델이 이렇게 빨리 나왔네요? 알리바바에서 새롭게 출시한 Qwen-Image-Layered 모델을 직접 테스트해 보았습니다. 이 모델은 이미지를 여러 레이어로 나눌 수 있는 대규모 모델이며, 기존 Qwen-Image 모델을 더욱 정교하게 다듬은 버전입니다. 제 테스트는 다양한 시나리오(포스터), 지침 준수 테스트(추출 대상 지정), 에지 처리(머리카락), 그리고 극한 테스트(모든 스티커; 각 스티커가 별도의 레이어에 있는 경우 50개 이상의 레이어를 추출할 수 있음)에서 모델의 강점을 다루었습니다. 간단히 말해서, 모델 크기가 너무 큽니다. Qwen-Image를 기반으로 하기 때문에 20바이트 크기의 모델입니다. HuggingFace Zero GPU로 테스트해 보니 한 번 실행하는 데 약 2분이 걸렸습니다. 모델은 레이어 분리가 잘 되고 에지 처리도 꽤 괜찮습니다. 하지만 안정성 최적화가 필요합니다. 제 테스트에서는 4개 레이어까지는 정상적으로 출력되지만, 8개 또는 10개 레이어에서는 충돌이 발생했습니다. Zero GPU의 타임아웃 제한 초과 또는 버그 때문일 가능성이 있다고 생각합니다 (GPU는 H200이므로 VRAM 부족 문제는 아닐 것 같습니다). 출력 해상도도 544*736으로 공식 권장 해상도인 640에 비해 낮아 개선이 필요합니다. 그리고 모델 크기가 20바이트라는 점도 여전히 너무 큽니다. 크기 최적화가 이루어지기를 바랍니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.