X (Twitter)

Tercera pieza de la línea de investigación de la que espero mucho (+ Imágenes Mentales de Máquinas + Tokens de Percepción): CoTs multimodales (en lugar de VLMs ininteligibles). Basado en BAGEL (a su vez basado en Qwen 2.5-VL-7B), por lo que está bastante limitado. Y muy artesanal. ¡Pero! ¡Consiguen manipulaciones emergentes!

¡Esto es genial! @leothecurious Creo que esto me da la razón en gran medida respecto a tu condena de la visión VLM por ser prematura y ofrecer muchas oportunidades fáciles incluso en este paradigma limitado.

Hilo de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Información del autor

Contenido del hilo