Troisième élément de la ligne de recherche dont j'attends beaucoup (+ Imagerie mentale machine + Jetons de perception) : CoTs multimodaux (au lieu de VLM marmonnants). Basé sur BAGEL (lui-même basé sur Qwen 2.5-VL-7B), donc assez limité. Et entièrement réalisé à la main. Mais ! Ils obtiennent des manipulations émergentes !
C'est vraiment génial @leothecurious Je pense que cela me donne largement raison concernant votre condamnation de la vision VLM, jugée prématurée, et le fait qu'il existe de nombreuses opportunités faciles à saisir, même dans ce paradigme défaillant.



