X (Twitter)

在今日的百度世界大會上，沉寂許久的百度發布其文心5.0（EB5）模型似乎憋了個大招根據公佈的資訊,這代模型直接從訓練伊始就融合文字、圖像、音訊、視訊訓練數據是一個原生的全模態模型... - 參數規模高達2.4 兆 - MoE架構啟動參數比例< 3% 測試了下影片分析能力，感覺是有點東西... 真的能看懂視頻，不只是台詞，畫面分析的也很可以...

來高難度的混剪視訊分析↓ 這個影片裡，用到了哪些動畫、影視劇的素材，分別在哪些時間點？還用到了哪些bgm？全部詳細陳列。

有沒有動漫大佬看看對不對超出了我的知識範疇，哈哈哈哈我只認識幾個但我粗略看了下還是都比較正確的...

還有就是影像、音訊什麼的全部都能辨識提取播客內容文字也不在話下提示：擷取音訊完整內容，並總結重點，同時改寫成一篇時候公眾號發布的文章

其他文字圖像類的我就沒測試了你們想體驗的在這裡體驗yiyan-preview.baidu.comd 不過這次好像沒有說這個模型開不開源...

其他文字圖像類的我就沒測試了

你們想體驗的在這裡體驗：https://t.co/N9gVIyrF5d

不過這次好像沒有說這個模型開不開源...

來自小互（@imxiaohu）的推文串

作者資訊

推文串內容