Um modelo multimodal gratuito e de código aberto que pode "ampliar imagens para o pensamento" com apenas 3 bilhões de parâmetros de ativação. O modelo de pensamento multimodal de Wenxin foi disponibilizado como código aberto; o modelo chama-se ERNIE-4.5-VL-28B-A3B-Thinking. Surpreendentemente, a versão de código aberto utiliza a licença Apache-2.0, fornecendo código completo de ponderação e inferência, que também é adequado para uso comercial. Nos últimos anos, a indústria de modelos em grande escala tem se assemelhado a uma corrida armamentista: os parâmetros têm se tornado cada vez maiores e o poder computacional cada vez mais caro. Na verdade, modelos pequenos também possuem vantagens exclusivas: baixo custo de implantação, alta velocidade de inferência e mais cenários de uso (como execução em telefones celulares). O grande destaque é que o modelo de código aberto tem a capacidade de "pensar em imagens": ele pode ampliar e reduzir o zoom em imagens ativamente, focar em detalhes e realizar raciocínio em várias etapas. Além disso, por ser um modelo multimodal, ele também suporta análise de vídeo, extração de texto e outras funcionalidades. Diz-se que apresenta um desempenho muito estável em tarefas que envolvem compreensão e raciocínio de imagens/textos/vídeos/documentos. Algumas versões oficiais parecem bastante promissoras.
O modelo foi carregado no HuggingFace, GitHub e huggingface.co/baidu/ERNIE-4.…dle. Rosgithub.com/PaddlePaddle/E…tgithub.com/PaddlePaddle/F…: https:/aistudio.baidu.com/modelsdetail/3…://t.co/C0lCKwbIMp Comunidade PaddlePaddle Galaxy:





