Os modelos multimodais unificados podem gerar tanto texto quanto imagens, mas será que realmente possuem capacidades de raciocínio intermodal? Este artigo apresenta um parâmetro de avaliação especificamente desenvolvido para avaliar a capacidade de um modelo unificado de realizar "raciocínio intermodal recíproco". Em termos simples, o modelo de avaliação para o "pensamento textual" pode gerar imagens usando raciocínio textual, ou o "pensamento visual" pode gerar texto usando raciocínio imagético. Os resultados dos testes mostram que os modelos são relativamente bons em "pensamento textual", mas relativamente fracos em "pensamento visual".
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.