オープンソースの分解レイヤー大規模モデルがこんなに早く登場するなんて? Alibabaが新たにリリースしたQwen-Image-Layeredモデルのハンズオンテストをご紹介します。これは画像を複数のレイヤーに分割できる大規模なモデルで、Qwen-Imageの微調整版です。 私のテストでは、さまざまなシナリオ (ポスター)、指示準拠テスト (抽出ターゲットの指定)、エッジ処理 (髪の毛)、およびエクストリーム テスト (すべてのステッカー。各ステッカーが別のレイヤーにある場合は、50 を超えるレイヤーを抽出できます) におけるモデルの強みをカバーしました。 端的に言うと、モデルが大きすぎます。Qwen-Imageベースなので、20バイトのモデルです。HuggingFace Zero GPUでテストしたところ、1回の実行に約2分かかりました。モデルはレイヤーを分離しており、エッジ処理は非常に良好です。ただし、安定性には最適化が必要です。私のテストでは、4レイヤーで出力しますが、8レイヤーまたは10レイヤーでクラッシュします。これは、Zero GPUのタイムアウト制限を超えたか、バグが原因である可能性があります(GPUはH200なので、VRAMが不足する可能性は低いです)。出力サイズは544*736しかありませんが、公式推奨解像度は640で、これも改善が必要です。また、モデルは20バイトでは依然として大きすぎます。うまくいけば、サイズを最適化できます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。