[論文解讀] 用影片思考:影片產生作為一種有前景的多模態推理範式 研究動機:既有範式的限制論文指出目前兩種主流AI 推理範式有明顯缺陷: 1. "用文本思考"(Thinking with Text) · 代表:Chain-of-Thought (CoT) · 限制:純文字缺乏視覺訊息,無法處理視覺推理任務 2. "用圖像思考"(Thinking with Images) · 代表:OpenAI o3、o4-mini 等模型· 兩大問題:靜態約束:圖像只能捕捉單一時刻,無法表現動態過程或連續變化· 模態割裂:文本和視覺作為獨立模態,阻礙統一的多模態理解和生成 創新解決方案:"用視訊思考" 論文提出利用視訊生成模型(如Sora-2)建構統一的時間框架,實現視覺和文本推理的橋接。 核心優勢· 動態推理:可視化動態過程(如畫線解決空間謎題),表現時序演化和連續變換· 多模態融合:在視頻幀內嵌入文本,實現統一的多模態理解和生成· 類人認知:更自然地對齊人類涉及想像和心理模擬的認知過程 核心實驗發現發現1:視覺任務表現出色 Eyeballing 遊戲: · Sora-2 整體準確率40.2%,超越所有競爭對手Claude 4.5: 35.1% · GPT-5: 29.7% · Gemini 2.5: 26.5% 在特定任務表現突出:射線交點:88%(遠超其他模型) 圓心:70% 能力展現: · 可以模擬射線的延伸與反射· 能操控幾何元素(點、線)支持空間推理· 展現幾何與物理推理能力 發現2:歸納推理能力視覺謎題: · 色彩填滿任務:67.0%(接近Gemini的73.9%) · 形狀繪製任務:64.9%(接近Claude的68.6%) · 能辨識並應用對稱、漸層、組合等模式 發現3:少樣本學習能力 ARC-AGI-2 測試: · 自動評估準確率:1.3% · 手動分析100個案例:完全正確:3% · 大部分正確:14% · 部分正確:28% 關鍵發現:提供所有範例比只提供一個範例效果更好,證明Sora-2 是少樣本學習者 發現4:文本推理的意外表現數學推理(音頻準確率): · GSM8K: 98.9%(與SOTA相當) · MATH-500: 92.0% · AIME24: 46.7%(SOTA約93%) 多模態推理: · MathVista: 75.7% · MMMU: 69.2% · MMBench: 89.0% 重要發現: · 音訊準確率普遍高於視訊準確率· 視訊產生文字困難,但能在影格中嵌入文字訊息 發現5:自洽性提升推理在Arc Connect 謎題上的實驗: · 單次嘗試最後畫面:56% · 單次嘗試主幀投票:68% · 5次嘗試主幀投票:90% 啟示:自洽性方法可顯著提升影片生成推理任務的效能 深度分析實驗 1. 資料外洩分析· 在改編的數學題(不同數值)上測試· 表現保持一致,排除了測試集洩漏的可能性 2. 推理過程分析· 手動分析115個正確答案案例: · 完全正確:僅13.91% · 邏輯正確但有書寫錯誤:29.57% · 不可讀或邏輯錯誤:43.48% 結論:Sora-2 在提供正確答案的同時,難以產生連貫的推理過程 3. 能力來源探究· 透過對比Wan2.5(有/沒有提示重寫器): · 停用重寫器時:準確率接近0% · 啟用重寫器時:準確率大幅提升 推測:Sora-2 的文本推理能力可能主要來自提示重寫器模型(很可能是VLM),而非視訊生成元件本身 論文討論地址
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
![[論文解讀] 用影片思考:影片產生作為一種有前景的多模態推理範式
研究動機:既有範式的限制論文指出目前兩種主流AI 推理範式有明顯缺陷:
1. "用文本思考"(Thinking with Text)
· 代表:Chain-of-Tho](https://pbs.twimg.com/media/G5MkvUbbIAATh_r.jpg)