開源分解圖層大模型這麼快就來了? 給大家帶來阿里剛發布的Qwen-Image-Layered 模型實測, 這是一個可以把圖片分成不同圖層的大模型, 模型是基於Qwen-Image 微調的. 本次我的測試涵蓋這個模型的擅長場景(海報), 指令遵循測試(指定抽取目標), 邊緣處理(頭髮), 極限測試(全是貼紙, 一個貼紙一個圖層的話可以抽取50多個圖層). 直接說結論, 首先還是模型太大了, 因為這個模型基於Qwen-Image 所以是個20B的模型, 我是用HuggingFace Zero GPU 測試, 每次運行大概2分鐘左右, 模型的確可以分離圖層, 而且邊緣處理很不錯, 不過穩定性有待優化, 在我測試中4個圖層可以做到分離圖層, 而且邊緣處理很不錯, 不過穩定性有待優化, 在我測試中4個圖層可以做到分離圖層、以及邊緣處理很不錯, 不過可能有一個最佳化, 在我測試中4個圖層可以做到(GPU是H200, 不太可能爆顯存), 輸出尺寸只有544*736, 官方也推薦640分辨力, 這點也需要提升, 以及模型還是太大了, 20B, 希望能優化下尺寸.
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。