Veo3 和Sora2 發布之後,AI 視訊模式的發展趨勢已經非常清晰,就是影音融合。 今天,國內的終於跟上節奏,火山引擎正式發布了Seedance 1.5 pro。 它採用了業界領先的音視頻聯合生成方案。 它在音畫同步、方言演繹、運鏡控制和敘事表達上展現了驚人的潛力。 這是我做的一組相聲和方言的實測。
除了人聲,環境音效(SFX)與畫面的同步率也非常重要,可以簡化先前複雜的AI 音效工作流程。特別是在遊戲場景、電影特效場景等有高頻音效需求的場景。 這個模型不僅懂畫面聲音,也懂專業的攝影術語,在運鏡上表現得更專業,連續性更好。 人物表演方面也更加細膩真實。 這是幾個測試範例,實測抽卡成功率50%。
Seedance 1.5 pro 在技術上和前代模型的本質區別在於它不再把聲音看作視頻的附屬品。 透過MMDiT 原生架構和針對音視頻聯合場景的RLHF 訓練,它解決了以往AI 視頻“畫質雖好但無神、無聲、無鏡頭感”的痛點,特別是在中文方言和專業攝影控制上形成了差異化競爭優勢。 一些架構設計特點: 1. 基於MMDiT(Multi-modal Diffusion Transformer) 架構。它採用雙分支(Dual-branch)設計,內部整合了一個跨模態聯合模組(Cross-modal joint module)。這使得視覺和聽覺流在生成過程中就能進行深度交互,確保了極高的時間同步性和語意一致性。 2. 引入音頻回饋的RLHF。在SFT 之上,專門針對音視頻上下文開發了強化學習(RLHF)演算法。它使用多維獎勵模型來評估視訊品質、美學表現以及音訊保真度。 3. 推理流水線。它的推理鏈條包括:使用者提示詞-> 提示詞工程-> 文字編碼器-> 聯合生成模型(DiT) -> 視訊/音訊細化器(Refiner) -> 輸出。 4. 評估標準:升級了評測基準,不僅看畫質,還特別增加了「視訊生動性」維度(分為動作和鏡頭兩個子維度)以及四個音訊維度(指令遵循、音質、音畫同步、音訊表現力)。 完整技術報告網址:https://t.co/sc5YoGlMJt
Seedance 1.5 pro 是AI 影片產生從「默片時代」邁向「有聲電影時代」的重要一步。它在音畫同步、方言演繹、運鏡控制和敘事表達上展現了驚人的潛力。雖然目前在部分方言支持(如東北話、上海話)和複雜場景的穩定性(抽卡成功率約50%)上仍有提升空間,但它已經能夠輔助創作者完成短劇、廣告demo 甚至電影分鏡的製作。 體驗入口: 目前Seedance 1.5 Pro 已正式上線,可以在這幾個地方玩到: 即夢AI : 網頁端選擇「影片生成」 -> 模型選擇 影片3.5 Pro。 豆包App: 對話方塊輸入「照片動起來」 -> 上傳照片-> 選擇 1.5 Pro 模型(內測中)。 開發者API: 下週,Seedance 1.5 Pro 模型API 將在 火山引擎(Volcano Engine) 開放呼叫。現在可到火山方舟體驗中心體驗模型效果,也可預約模型服務。 https://t.co/iogZcW2wZ5