Terceiro elemento da linha de pesquisa da qual tenho grandes expectativas (além de Imagens Mentais de Máquina e Tokens de Percepção): CoTs multimodais (em vez de VLMs murmurantes). Baseado no BAGEL (que por sua vez é baseado no Qwen 2.5-VL-7B), portanto bastante compacto. E muito artesanal. Mas! Eles obtêm manipulações emergentes!
Isso é muito legal @leothecurious Acho que isso em grande parte me dá razão em relação à sua condenação da visão VLM como prematura e com muitas oportunidades fáceis de serem aproveitadas mesmo neste paradigma limitado.



