X (Twitter)

A Baidu acaba de lançar um novo modelo VLM. Aqui está um resumo para todos: O modelo multimodal ERNIE-4.5-VL-28B-A3B-Thinking, embora possua um total de 28 parâmetros, adota a arquitetura MoE, de modo que os parâmetros de ativação reais são apenas 3 bilhões, tornando-o verdadeiramente leve. O ponto principal é que seu desempenho é bastante robusto, aproximando-se do desempenho dos modelos topo de linha em diversos testes de benchmark. As principais características deste modelo incluem: Raciocínio visual: já demonstramos isso bastante antes; ele não só consegue identificar elementos da imagem, como também deduzir o conteúdo. Raciocínio STEM: Útil para lidar com tarefas de resolução de problemas baseadas em fotos em matemática, física, etc. Localização Visual: Oferece recursos de localização mais precisos e execução flexível de comandos. Pensamento Baseado em Imagens: O modelo pode pensar como um humano, ampliando e reduzindo o zoom livremente nas imagens para captar cada detalhe. Uso de Ferramentas: Pode usar busca por imagem e outras funções para identificar conhecimento específico. - Compreensão de vídeo: Identificar mudanças de conteúdo em um vídeo ao longo de diferentes períodos de tempo. Atualmente, ele suporta vários métodos de implantação, incluindo vLLM. No entanto, a demonstração oficial para espaço ainda não foi lançada para testes diretos; você terá que esperar. Farei um teste mais tarde, caso tenha interesse. Endereço do modelo:

Dados detalhados

Dados detalhados 2

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread