A Baidu disponibilizou em código aberto a versão Thinking do modelo ERNIE-4.5-VL-28B-A3B. Foque no aprimoramento da compreensão multimodal e das capacidades de raciocínio intermodal. Sua vantagem reside em alcançar uma compreensão visual de alta precisão e um raciocínio complexo com uma escala de parâmetros relativamente pequena, através de um design de estrutura de modelo eficiente e estratégias de aprendizado por reforço. Os testes realizados por eles mostraram que a maioria das métricas de compreensão multimodal se aproximava das dos modelos Gemini-2.5-Pro e GPT-5-High. A tarefa de compreensão de documentos/gráficos chegou a superar a meta estabelecida. Esta atualização introduz a funcionalidade "Pensar com Imagens", semelhante à versão anterior do O3. O modelo pode ampliar, reduzir e recortar imagens automaticamente para ajudar a descobrir detalhes da imagem e realizar raciocínio visual. Do modelo OCR de alguns dias atrás ao atual ERNIE-4.5-VL-28B-A3B Thinking, o Baidu parece ter encontrado sua direção e seus pontos fortes. Atualmente, não há muita concorrência no setor multimodal doméstico, e existem poucos bons modelos multimodais. Embora todos estejam focados no código, estão fazendo um bom trabalho no desenvolvimento multimodal. O modelo foi lançado no HuggingFace, GitHub e na comunidade PaddlePaddle, e os pesos e o código de inferência foram disponibilizados publicamente.
Downlhuggingface.co/baidu/ERNIE-4.…t.co/eFD6tcWBRr
