在今日的百度世界大會上,沉寂許久的百度發布其文心5.0(EB5) 模型 似乎憋了個大招 根據公佈的資訊,這代模型直接從訓練伊始就融合文字、圖像、音訊、視訊訓練數據 是一個原生的全模態模型... - 參數規模高達2.4 兆 - MoE架構啟動參數比例< 3% 測試了下影片分析能力,感覺是有點東西... 真的能看懂視頻,不只是台詞,畫面分析的也很可以...
來高難度的 混剪視訊分析↓ 這個影片裡,用到了哪些動畫、影視劇的素材,分別在哪些時間點?還用到了哪些bgm?全部詳細陳列。
有沒有動漫大佬看看對不對 超出了我的知識範疇,哈哈哈哈 我只認識幾個 但我粗略看了下還是都比較正確的...
還有就是影像、音訊什麼的全部都能辨識 提取播客內容文字也不在話下 提示:擷取音訊完整內容,並總結重點,同時改寫成一篇時候公眾號發布的文章
其他文字圖像類的我就沒測試了 你們想體驗的在這裡體驗yiyan-preview.baidu.comd 不過這次好像沒有說這個模型開不開源...

