Stable Diffusion の秘密: 描画ではなく、ずっとノイズ除去を行っていたことが判明しました。 --- 安定拡散を使用した可能性があります。 「猫がソファーに座っている」と入力すると、 そして、進捗バーを見ながら少しずつ前進していきます。 10%... 20%... 30%... だんだんと映像が鮮明になってきました。 最初はすべて騒音でした。 すると、ぼんやりと何かの形が見えてきます。 すると、猫の輪郭が見えるようになります。 ついに、鮮明な画像が現れました。 それが実際に何をするのか疑問に思ったことはありませんか? 答えは、ノイズ低減です。 絵を「描く」のではありません。 それは「ノイズ低減」です。 まず、純粋なノイズのグラフを示します。 それはテレビに信号がないときに表示される静止画のようなものです。 その後、徐々にノイズを除去していきます。 ビットが削除されるごとに、画像はより鮮明になります。 50歩ほど歩いた後、画像が鮮明になりました。 これは DDPM: ノイズ除去拡散確率モデルです。 (ノイズ除去拡散確率モデル) 複雑に聞こえますが、核となるのは「ノイズ低減」というたった 2 つの単語です。 しかし、ここには魔法のような場所があります。 どのような結果を達成すべきかをどのように知るのでしょうか? つまり、同じノイズの集まりです 猫のところに行くことも、犬のところに行くことも、車のところに行くこともできます。 あなたが猫を欲しがっていることをどうやって知るのでしょうか? 答えは、あなたがそれを言ったということです。 「猫がソファに座っています」と入力しました。 このテキストはベクターに変換されます。 そして、各ノイズ低減ステップで、 モデルはすべてこのベクトルを参照します。 わかっています。ああ、犬ではなく猫が欲しいのですね。 そのため、ノイズ低減は「猫」向けに調整されています。 そのため、異なるテキストを入力します。 さまざまなグラフが生成されます。 ノイズ低減へのアプローチが異なるためです。 そして、これらすべては単純なアイデアに基づいています。 生成は本質的に逆ノイズ除去です。 まず、ノイズを追加する方法を学びます。 次に、逆にノイズを除去する方法を学びます。 ノイズ低減の最終的な目標は、生成される結果です。 これは 2020 年の画期的な論文であることに注意してください。 それ以来、すべての優れた画像生成モデルは、 安定拡散、中間段階、DALL-E 2、 このアプローチをすべてのことに対して使用してください。 それは GAN ではなく、Diffusion です。 拡散はより安定し、より制御可能で、よりリアルな画像を生成します。 さらに、Stable Diffusion を使用しているときに、次のパラメータを調整した可能性があります。 歩数: 50 CFGスケール: 7.5 サンプラー: DPM++ 2M カラス コードが正常に実行され、グラフが生成されました。 しかし、これらのパラメータが何を意味するのか分からないかもしれません。 ステップはノイズ低減のステップ数を示します。 安定拡散では、グラフは一度に生成されません。 段階的にノイズを除去します。 ステップ = 50 は、ノイズを 50 回除去することを意味します。 訪れるたびに地図が少しずつわかりやすくなっていきます。 ステップの数が増えるほど、図はわかりやすくなりますが、速度は遅くなります。 ステップ数が少ないほど画像はぼやけますが、速度は速くなります。 一般的に言えば、50 ステップで十分です。 CFG スケールはテキスト ガイドの強度です。 CFG は分類子を使用しないガイダンスです。 つまり、入力したテキストが生成される結果にどの程度影響を与えるかということです。 CFG Scale = 1 の場合、テキストはほとんど影響を受けず、モデルを任意に生成できます。 CFG スケール = 20、テキストの影響が大きく、モデルはテキストに厳密に従って生成されます。 CFGスケール=7.5はバランスです。 テキストを読むことと、少しの創造力の両方が必要です。 低すぎると、生成された画像とテキストが一致しません。 解像度が高すぎると、硬くて魅力のない画像になります。 サンプラーはノイズを低減する方法です。 DDPM は「1000 倍のノイズ低減」を意味します。 しかし、1000回では遅すぎます。 そこで、後に誰かがより速い方法を発明しました。 DPM++、オイラー、DDIM... これらはすべて、「ノイズをより速く除去する方法」に関するものです。 いくつかの方法では、わずか 20 ステップで 1000 ステップの効果を達成できます。 いくつかの方法はより安定しています。 さらに創造的な方法もあります。 選択したサンプラーによって、ノイズ除去の方法が決まります。 これらのパラメータの意味は次の通りです。 手順: ノイズを数回除去します。 CFG スケール: テキストの影響はどの程度大きいか? サンプラー: ノイズ低減にはどのような方法が使用されますか? ---- AI によって生成された読みやすい科学記事は、複雑な概念を学ぶのに最適です。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。