Xiaohongshu a publié un modèle multimodal appelé DeepEyesV2, capable d'appeler des outils. Il peut trouver des outils de manière autonome, visualiser des images, écrire du code, effectuer des recherches sur le Web et combiner des outils pour résoudre des problèmes complexes. Adaptatif à la tâche, il peut sélectionner intelligemment l'outil le plus approprié en fonction de la nature de la tâche en cours ; il peut également combiner plusieurs outils pour résoudre des problèmes complexes. En fonction des informations contextuelles actuelles, il est possible de décider de manière sélective s'il convient d'invoquer un outil et, le cas échéant, lequel. Surpasse GPT-4o, Gemini 2.5 Pro et d'autres modèles de recherche sur FVQA-test, MMSearch, SimpleVQA et d'autres modèles de recherche. #DeepEyesV2 #AgenticMLLM
github:github.com/Visual-Agent/D…
