Revisitando a codificação posicional multimodal em modelos de visão-linguagem
Discuta com o autor: huggingface.co/papers/2510.23…
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
2 tweets · 3 de nov. de 2025, 15:42
Revisitando a codificação posicional multimodal em modelos de visão-linguagem
Discuta com o autor: huggingface.co/papers/2510.23…