本日の百度世界大会で、百度は長い沈黙を経て、文心5.0(EB5)モデルを発表した。 彼らは大きな動きを控えているようだ。 公開された情報によると、この世代のモデルは、トレーニングの開始時からテキスト、画像、オーディオ、ビデオのトレーニングデータを直接統合します。 ネイティブのフルモーダルモデルです。 - パラメータスケールは 2.4 兆にも及びます。 - MoEアーキテクチャ活性化パラメータ比<3% ビデオ分析機能をテストしましたが、いくつかのメリットがあるようです... 会話だけでなく、ビデオを本当に理解できますが、視覚的な分析も非常に優れています...
もっと難しいことに挑戦してみましょう。 ビデオマッシュアップ分析↓ この動画ではどのようなアニメーションや映画/テレビの素材が、どの時点で使用されましたか?また、どのようなBGMが使用されましたか?詳細なリストをご提供ください。
アニメの専門家はこれが正しいかどうか確認できますか? これは私の知識を超えています、ハハハ いくつかしか知りません。 しかし、ざっと見たところ、それらはすべてかなり正しいと思います...
さらに、あらゆる種類の画像と音声を認識することができます。 ポッドキャストのコンテンツをテキストに抽出することも簡単です。 ヒント: 完全な音声コンテンツを抽出し、要点を要約して、WeChat 公式アカウントでの公開に適した記事に書き直します。
他のテキストや画像の種類はテストしていません。 ぜひyiyan-preview.baidu.comps://t.co/N9gVIyrF5d しかし、今回はモデルがオープンソースになるかどうかについては言及がなかったようです…

