關注圖像和視頻多模態思考推理最新進展的朋友們,@KevinQHLin 這篇論文集合不容錯過! 1. Thinking with Image(利用圖像思考) 這部分介紹了四篇論文,探討如何將圖像整合進AI 推理中,以提高模型的視覺理解和決策能力: [1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning 來自小紅書團隊,論文透過強化學習激勵模型在思考時使用圖像,支持區域定位和放大功能,幫助模型更精確地處理視覺細節。 [2] GRIT: Teaching MLLMs to Think with Images 作者包括YFan_UCSC 和xwang_lk。此方法在多模態大語言模型(MLLMs)中實現基於區域的鍊式思考,無需外部處理,直接透過tokens 表示影像區域,提高效率。 [3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning 作者包括Kuvvius、LINJIEFUN、michaelqshieh 和RanjayKrishna。論文提出統一的交織式鍊式思考框架,同時產生文字和圖像,揭示多模態推理中的新興屬性。 [4] V-Thinker: Interactive Thinking with Images 來自微信團隊,該方法透過程式碼驅動的視覺工具實現互動式推理,允許模型動態調整影像處理以支援更靈活的思考過程。 2. Thinking with Video(利用影片思考) 這部分列出了三篇論文,強調影片作為動態視覺模態在推理中的潛力: [5] Video models are zero-shot learners and reasoners 來自Google DeepMind Veo3 基礎模型,支援零樣本鍊式影格(Chain-of-Frame)推理,即無需額外訓練即可處理影片序列中的邏輯推斷。 [6] MiniVeo3-Reasoner 來自THUML 的開源視訊生成模型,專為鍊式思考設計,提供更容易存取的實作。 [7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm 作者來自xpqiu 團隊,該論文引入VideoThinkBench 基準測試,探討影片生成作為多模態推理的新範式。 論文原文見Kevin 原貼🔽
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
