X (Twitter)

Lors de la conférence mondiale de Baidu d'aujourd'hui, Baidu, après une longue période de silence, a dévoilé son modèle Wenxin 5.0 (EB5). Il semblerait qu'ils aient retenu une action importante. D'après les informations publiées, cette génération de modèles intègre directement, dès le début de l'entraînement, des données d'apprentissage textuelles, visuelles, audio et vidéo. Il s'agit d'un modèle modal complet natif... - L'échelle des paramètres atteint 2,4 billions. - Rapport du paramètre d'activation de l'architecture MoE < 3% J'ai testé les capacités d'analyse vidéo, et il semble que cela ait un certain intérêt... Tu comprends vraiment bien les vidéos, pas seulement les dialogues, mais ton analyse visuelle est également très bonne...

Essayons quelque chose de plus difficile. Analyse de montages vidéo ↓ Quelles séquences d'animation et extraits de films/séries télévisées ont été utilisés dans cette vidéo, et à quels moments ? Quelle musique de fond a été utilisée ? Veuillez fournir une liste détaillée.

Des experts en anime pourraient-ils vérifier si cela est correct ? Ça dépasse mes compétences, hahaha Je n'en connais que quelques-uns. Cependant, après un rapide coup d'œil, je pense qu'ils ont tous assez raison...

De plus, il peut reconnaître tous types d'images et de sons. Extraire le contenu d'un podcast et le convertir en texte est également un jeu d'enfant. Conseil : Extrayez l'intégralité du contenu audio, résumez les points clés et réécrivez-le sous forme d'article adapté à la publication sur un compte officiel WeChat.

Je n'ai pas testé d'autres yiyan-preview.baidu.comges. Voici ce que vous aimeriez vivre : https://t.co/N9gVIyrF5d Cependant, il semble qu'aucune mention n'ait été faite cette fois-ci quant à savoir si le modèle sera open source ou non...

Je n'ai pas testé d'autres types de texte et d'images.

Voici ce que vous aimeriez vivre : https://t.co/N9gVIyrF5d

Ce

Fil de 小互 (@imxiaohu)

Informations sur l'auteur

Contenu du fil