A Xiaohongshu lançou um modelo multimodal chamado DeepEyesV2, que tem a capacidade de invocar ferramentas. Ele pode encontrar ferramentas por conta própria, visualizar imagens, escrever código, pesquisar páginas da web e combinar ferramentas para resolver problemas complexos. Adaptável à tarefa, pode selecionar de forma inteligente a ferramenta mais adequada com base na natureza da tarefa atual; também pode combinar várias ferramentas para resolver problemas complexos. Com base nas informações contextuais atuais, é possível decidir seletivamente se uma ferramenta deve ser invocada e qual ferramenta invocar. Supera o GPT-4o, o Gemini 2.5 Pro e outros modelos de busca nos testes FVQA-test, MMSearch, SimpleVQA e outros. #DeepEyesV2 #AgenticMLLM
github:github.com/Visual-Agent/D…
