Tercera pieza de la línea de investigación de la que espero mucho (+ Imágenes Mentales de Máquinas + Tokens de Percepción): CoTs multimodales (en lugar de VLMs ininteligibles). Basado en BAGEL (a su vez basado en Qwen 2.5-VL-7B), por lo que está bastante limitado. Y muy artesanal. ¡Pero! ¡Consiguen manipulaciones emergentes!
¡Esto es genial! @leothecurious Creo que esto me da la razón en gran medida respecto a tu condena de la visión VLM por ser prematura y ofrecer muchas oportunidades fáciles incluso en este paradigma limitado.



