RT @FeitengLi: 壁に向かって #VoxCPM 1.5B TTS モデルは優れており、商用グレードの音質で 44.1kHz オーディオ出力をサポートします。 全体的なモデル アーキテクチャは ByteDance の DiTAR も参照しており、連続コーデック表現を使用して 6 まで圧縮する標準の GPT + FlowMatching/DiT バリアントです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。