Xiaohongshu lanzó un modelo multimodal llamado DeepEyesV2, capaz de invocar herramientas. Puede encontrar herramientas automáticamente, visualizar imágenes, escribir código, buscar en páginas web y combinar herramientas para resolver problemas complejos. Adaptable a las tareas, puede seleccionar de forma inteligente la herramienta más adecuada en función de la naturaleza de la tarea actual; también puede combinar varias herramientas para resolver problemas complejos. En función de la información contextual actual, se puede decidir selectivamente si se debe invocar una herramienta y cuál es. Supera a GPT-4o, Gemini 2.5 Pro y otros modelos de búsqueda en FVQA-test, MMSearch, SimpleVQA y otros modelos de búsqueda. #DeepEyesV2 #AgenticMLLM
github:github.com/Visual-Agent/D…
