A Baidu acaba de lançar o ERNIE-4.5-VL-28B-A3B-Thinking, que se concentra em "pensar através de imagens" e permite aos usuários ampliar e reduzir livremente as imagens usando ferramentas de escala, pesquisa e outras funcionalidades. Isso aprimora a capacidade do modelo de lidar com detalhes minuciosos e conhecimento visual de longo prazo, permitindo uma compreensão mais abrangente de cenas visuais complexas. Super GPT-5-High e GEMINI-2.5-Pro em VLMs são cegos Pode ser utilizado para raciocínio em múltiplas etapas, análise de grafos, inferência causal, resolução de problemas STEM baseados em fotos e localização temporal de vídeos. #BaiduERNIE #VLM
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
