X (Twitter)

Os modelos multimodais unificados podem gerar tanto texto quanto imagens, mas será que realmente possuem capacidades de raciocínio intermodal? Este artigo apresenta um parâmetro de avaliação especificamente desenvolvido para avaliar a capacidade de um modelo unificado de realizar "raciocínio intermodal recíproco". Em termos simples, o modelo de avaliação para o "pensamento textual" pode gerar imagens usando raciocínio textual, ou o "pensamento visual" pode gerar texto usando raciocínio imagético. Os resultados dos testes mostram que os modelos são relativamente bons em "pensamento textual", mas relativamente fracos em "pensamento visual".

Thread de 宝玉 (@dotey)

Informações do autor

Conteúdo da thread