X (Twitter)

Terceiro elemento da linha de pesquisa da qual tenho grandes expectativas (além de Imagens Mentais de Máquina e Tokens de Percepção): CoTs multimodais (em vez de VLMs murmurantes). Baseado no BAGEL (que por sua vez é baseado no Qwen 2.5-VL-7B), portanto bastante compacto. E muito artesanal. Mas! Eles obtêm manipulações emergentes!

Isso é muito legal @leothecurious Acho que isso em grande parte me dá razão em relação à sua condenação da visão VLM como prematura e com muitas oportunidades fáceis de serem aproveitadas mesmo neste paradigma limitado.

Thread de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informações do autor

Conteúdo da thread