En la Conferencia Mundial de Baidu de hoy, Baidu, después de un largo período de silencio, lanzó su modelo Wenxin 5.0 (EB5). Parece que han estado reprimiendo un movimiento importante. Según la información publicada, esta generación de modelos integra datos de entrenamiento de texto, imagen, audio y vídeo directamente desde el inicio del entrenamiento. Es un modelo modal completo nativo... - La escala del parámetro alcanza los 2,4 billones. - Relación del parámetro de activación de la arquitectura MoE < 3% He probado las capacidades de análisis de vídeo y parecen tener cierto mérito... Realmente entiendes los vídeos, no solo el diálogo, sino que tu análisis visual también es bastante bueno...
Intentemos algo más difícil. Análisis de mashup de vídeo ↓ ¿Qué material de animación y cine/televisión se utilizó en este vídeo y en qué momentos? ¿Qué música de fondo se utilizó? Por favor, proporcione una lista detallada.
¿Algún experto en anime podría comprobar si esto es correcto? Esto se me escapa, jajaja Solo conozco a unos pocos. Sin embargo, tras una mirada superficial, creo que todas son bastante correctas...
Además, puede reconocer todo tipo de imágenes y audio. Extraer el contenido de un podcast a texto también es muy sencillo. Sugerencia: Extraiga el contenido de audio completo, resuma los puntos clave y reescríbalo en un artículo adecuado para su publicación en una cuenta oficial de WeChat.
No he probado otros tipos dyiyan-preview.baidu.como es lo que te gustaría experimentar: https://t.co/N9gVIyrF5d Sin embargo, parece que esta vez no se mencionó si el modelo será de código abierto o no...

