拡散言語モデルは単独でもトレーニング可能です。 最近では、Transformer モデルを自分でトレーニングしたり、微調整したりすることは珍しくありません。では、拡散に基づいて独自の大規模言語モデルをトレーニングしてみませんか? 新しいフレームワークdLLMを見てみましょう。このフレームワークは、大規模な拡散言語モデルの学習に使用でき、LoRA、DeepSpeed、FSDPなどの機能をサポートしています。また、学習パフォーマンスを評価するための評価関数も組み込まれています。 さらに、クールなコマンドライン チャット インターフェイスも組み込まれており、そこで Diffusion 大規模言語モデルの出力プロセスを確認できるので、非常に興味深いです。 しかし、前に述べたことを考慮すると、Diffusion 大規模言語モデルのパフォーマンスは Transformer モデルよりまだ約 2 年遅れているため、おもちゃとして試してみる程度にしか適していないと考えられます。 フレームアドレス:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。