Na Conferência Mundial da Baidu de hoje, após um longo período de silêncio, a Baidu lançou seu modelo Wenxin 5.0 (EB5). Parece que eles estavam guardando uma grande novidade. De acordo com as informações publicadas, esta geração de modelos integra dados de treinamento de texto, imagem, áudio e vídeo diretamente desde o início do treinamento. É um modelo modal completo nativo... - A escala do parâmetro chega a 2,4 trilhões. - Razão do parâmetro de ativação da arquitetura MoE < 3% Testei as funcionalidades de análise de vídeo e parece que elas têm algum mérito... Você consegue entender muito bem os vídeos, não apenas os diálogos, mas sua análise visual também é muito boa...
Vamos tentar algo mais difícil. Análise de mashup de vídeo ↓ Que material de animação e cinema/TV foi usado neste vídeo e em que momentos? Qual música de fundo foi usada? Por favor, forneça uma lista detalhada.
Algum especialista em anime poderia verificar se isso está correto? Isso está além do meu conhecimento, hahaha Conheço apenas alguns. No entanto, após uma análise superficial, acho que todos estão razoavelmente corretos...
Além disso, ele consegue reconhecer todos os tipos de imagens e áudio. Extrair o conteúdo do podcast para texto também é muito fácil. Dica: Extraia o conteúdo de áudio completo, resuma os pontos principais e reescreva-o em um artigo adequado para publicação em uma conta oficial do WeChat.
Não testei outros tipos de yiyan-preview.baidu.com que você gostaria de experimentar: https://t.co/N9gVIyrF5d No entanto, parece que desta vez não houve menção sobre se o modelo será de código aberto ou não...

