Para aquellos interesados en los últimos avances en pensamiento y razonamiento multimodal basados en imágenes y vídeos, ¡esta colección de artículos de @KevinQHLin es de lectura obligatoria! 1. Pensar con imágenes Esta sección presenta cuatro artículos que exploran cómo integrar imágenes en la inferencia de IA para mejorar la comprensión visual y las capacidades de toma de decisiones del modelo: [1] DeepEyes: Incentivar el “pensamiento con imágenes” mediante el aprendizaje por refuerzo El artículo, elaborado por el equipo de Xiaohongshu, utiliza el aprendizaje por refuerzo para animar al modelo a usar imágenes durante el proceso de pensamiento, apoyando las funciones de localización y ampliación de regiones, lo que ayuda al modelo a procesar los detalles visuales con mayor precisión. [2] GRIT: Enseñar a los MLMS a pensar con imágenes Entre los autores se encuentran YFan_UCSC y xwang_lk. Este método implementa el encadenamiento basado en regiones en modelos de lenguaje multimodales de gran tamaño (MLLM) sin procesamiento externo, representando directamente las regiones de la imagen mediante tokens, lo que mejora la eficiencia. [3] ThinkMorph: Propiedades emergentes en el razonamiento multimodal intercalado de cadena de pensamiento Entre los autores se encuentran Kuvvius, Linjiefun, Michaelqshieh y RanjayKrishna. El artículo propone un marco de pensamiento unificado, interconectado y en cadena que genera simultáneamente texto e imágenes, revelando propiedades emergentes en el razonamiento multimodal. [4] V-Thinker: Pensamiento interactivo con imágenes Desarrollado por el equipo de WeChat, este método permite el razonamiento interactivo a través de herramientas visuales basadas en código, lo que permite al modelo ajustar dinámicamente el procesamiento de imágenes para apoyar un proceso de pensamiento más flexible. 2. Pensar con vídeo Esta sección enumera tres artículos que destacan el potencial del vídeo como modalidad visual dinámica en el razonamiento: [5] Los modelos de vídeo son aprendices y razonadores de cero ejemplos. Basado en el modelo base Google DeepMind Veo3, admite la inferencia de cadena de fotogramas sin ejemplos, lo que significa que puede manejar inferencias lógicas en secuencias de video sin entrenamiento adicional. [6] MiniVeo3-Razonador Un modelo de generación de vídeo de código abierto de THUML, diseñado para el pensamiento en cadena, que ofrece una implementación más accesible. [7] Pensar con vídeo: La generación de vídeo como un paradigma prometedor de razonamiento multimodal Los autores pertenecen al equipo xpqiu. Este artículo presenta el benchmark VideoThinkBench y explora la generación de vídeo como un nuevo paradigma para el razonamiento multimodal. El artículo original se puede encontrar en la publicación original de Kevin 🔽
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
