Para quem se interessa pelos avanços mais recentes no pensamento e raciocínio multimodal baseados em imagens e vídeos, esta coletânea de artigos de @KevinQHLin é leitura obrigatória! 1. Pensando com Imagem Esta seção apresenta quatro artigos que exploram como integrar imagens na inferência de IA para melhorar a compreensão visual e as capacidades de tomada de decisão do modelo: [1] DeepEyes: Incentivando o “Pensamento com Imagens” por meio do Aprendizado por Reforço O artigo da equipe Xiaohongshu utiliza aprendizado por reforço para incentivar o modelo a usar imagens durante o raciocínio, oferecendo suporte a funções de localização e ampliação de regiões, o que ajuda o modelo a processar detalhes visuais com mais precisão. [2] GRIT: Ensinando MLLMs a pensar com imagens Os autores incluem YFan_UCSC e xwang_lk. Este método implementa o encadeamento baseado em regiões em grandes modelos de linguagem multimodais (MLLMs) sem processamento externo, representando diretamente as regiões da imagem por meio de tokens, melhorando assim a eficiência. [3] ThinkMorph: Propriedades emergentes no raciocínio multimodal intercalado em cadeia de pensamento Os autores incluem Kuvvius, LINJIEFUN, michaelqshieh e RanjayKrishna. O artigo propõe uma estrutura de pensamento unificada, interligada e em cadeia que gera simultaneamente texto e imagens, revelando propriedades emergentes no raciocínio multimodal. [4] V-Thinker: Pensamento interativo com imagens Desenvolvido pela equipe do WeChat, esse método permite o raciocínio interativo por meio de ferramentas visuais baseadas em código, permitindo que o modelo ajuste dinamicamente o processamento de imagens para suportar um processo de pensamento mais flexível. 2. Pensando com Vídeo Esta seção lista três artigos que destacam o potencial do vídeo como uma modalidade visual dinâmica no raciocínio: [5] Os modelos de vídeo são aprendizes e raciocinadores de zero-shot Baseado no modelo Veo3 do Google DeepMind, ele suporta inferência de cadeia de quadros sem treinamento prévio (zero-shot chain-of-frame inference), o que significa que pode lidar com inferências lógicas em sequências de vídeo sem treinamento adicional. [6] MiniVeo3-Reasoner Um modelo de geração de vídeo de código aberto da THUML, projetado para o pensamento em cadeia, oferecendo uma implementação mais acessível. [7] Pensando com vídeo: geração de vídeo como um paradigma promissor de raciocínio multimodal Os autores são da equipe xpqiu. Este artigo apresenta o benchmark VideoThinkBench e explora a geração de vídeo como um novo paradigma para o raciocínio multimodal. O artigo original pode ser encontrado na publicação original de Kevin 🔽
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
