X (Twitter)

もう一度ヒット😌 Kling AI がネイティブオーディオビジュアル同期モデル VIDEO 2.6 をリリースしました。 Veo 3 と同様に、このモデルは外部ダビングやポストプロダクション合成に頼ることなく、直接サウンドを生成できます。含む： • 中国語と英語での複数キャラクターの会話 • 環境音効果（風、足音、衝突音など） • 感情的な声（緊張、リラックス、神秘などの雰囲気）音と映像が自然に同期し、唇の動き、リズム、雰囲気も一貫しています。映像と音声は、同じモデルを使用した単一の推論プロセスを通じて生成されました。モジュール化やつなぎ合わせが行われていないため、従来の AI 動画に見られる「唇の動きのずれや感情のばらつき」を回避できます。 5秒/10秒、1080P生成をサポートします。キャラクターは次のことができます: • より自然に話す • 感情と声が一貫している • 表情が会話とよりマッチしている周囲の音響効果のソース素材を探す必要はもうありません。システムは画像を自動的に一致させることができます: • 雨、波、風などのさまざまなシーンの効果音。 • 足音、ドアをノックする音、摩擦音。 • 爆発音や機械音。ビデオ 2.6 は、アクション、カメラの切り替え、ストーリーのペースに関して、以前のバージョンよりも安定しています。 • シーンの切り替えがより自然になります。 • キャラクターの描写がショット間でより一貫性を保ちます。 • アクションシーンで突然のフレーム落ちが発生しにくくなります。

小互（@imxiaohu）のスレッド

作者情報

スレッド内容