[論文解説] ビデオで考える:有望なマルチモーダル推論パラダイムとしてのビデオ生成 研究の動機: 既存のパラダイムの限界 この論文では、現在主流となっている 2 つの AI 推論パラダイムの重大な欠陥を指摘しています。 1. 「テキストで考える」 • 代表者:思考の連鎖(CoT) • 制限事項: プレーンテキストには視覚情報が不足しており、視覚的推論タスクを処理できません。 2. 「イメージで考える」 • 代表的なモデル:OpenAI o3、o4-mini など • 2つの大きな問題: * 静的制約:画像は単一の瞬間しか捉えられず、動的なプロセスや継続的な変化を表現できない。 * モーダルの断片化:テキストと画像が独立したモダリティとして扱われるため、統一されたマルチモーダル理解と生成が妨げられる。 革新的なソリューション:「ビデオで考える」 この論文では、ビデオ生成モデル (Sora-2 など) を使用して、視覚的推論とテキスト推論をつなぐ統一された時間的フレームワークを構築することを提案しています。 主な利点:• 動的推論:動的なプロセス(線を描いて空間パズルを解くなど)を視覚化し、時間的変化と継続的な変化を示します。 • マルチモーダル融合:ビデオフレーム内にテキストを埋め込み、統合されたマルチモーダル理解と生成を実現します。 • 人間のような認知:想像力や精神的なシミュレーションを含む人間の認知プロセスに、より自然に適応します。 主要な実験結果:発見1:視覚課題における優れたパフォーマンス 目玉ゲーム: Sora-2は総合精度40.2%を達成し、Claude 4.5 (35.1%)を含むすべての競合製品を上回りました。 • GPT-5: 29.7% ジェミニ2.5:26.5% 特定のタスクにおける優れたパフォーマンス:レイ交差:88%(他のモデルをはるかに上回る) センター:70% 能力の実証: • 光線の伸長と反射をシミュレートできます。 • 空間推論をサポートするために、幾何学的要素(点、線)を操作できます。 • 幾何学的および物理的な推論能力を示します。 発見 2: 帰納的推論を必要とする視覚パズル: • 色塗りタスク: 67.0% (ジェミニの73.9%に近い) • 図形描画課題: 64.9% (クロードの68.6%に近い) • 対称性、グラデーション、組み合わせなどのパターンを認識し、適用できます。 発見3:少数ショット学習能力 ARC-AGI-2 テスト: • 自動評価精度:1.3% 100 ケースの手動分析: 3% が完全に正解。 ほぼ正解: 14% 部分的に正解: 28% 主な発見: すべての例を提供する方が 1 つの例のみを提供するよりも効果的であり、Sora-2 が少数ショットの学習者であることを証明しています。 発見4:数学的推論におけるテキスト推論の予想外のパフォーマンス(音声精度): • GSM8K: 98.9% (最先端技術に匹敵) 数学500: 92.0% ・AIME24: 46.7% (SOTA 約93%) マルチモーダル推論: マスビスタ:75.7% · MMMU: 69.2% · MMベンチ: 89.0% 主な調査結果: • 音声の精度は一般的にビデオの精度よりも高くなります。 • ビデオからテキストを生成するのは困難ですが、フレームにテキスト情報を埋め込むことは可能です。 発見5: 自己一貫性により、Arc Connectパズルの実験が強化される: • 1回の試行の最後のフレーム: 56% • メインフレーム投票の1回の試み: 68% • メインフレーム投票の5回の試み:90% 意味: 自己矛盾のない方法により、ビデオ生成推論タスクのパフォーマンスが大幅に向上します。 詳細分析実験 1. データ漏洩分析 • 適応された数学の問題(異なる値を使用)でテスト • 一貫したパフォーマンスにより、テスト セットの漏洩の可能性が排除されました。 2. 推論プロセス分析:115の正解例の手動分析: 完全に正解: わずか13.91% • 論理的には正しいが、記述に誤りがある: 29.57% • 判読不能または論理的に欠陥がある: 43.48% 結論: Sora-2 は、正しい答えを提供しながら一貫した推論プロセスを生成するのに苦労しています。 3. 機能のソースの調査: Wan2.5 (プロンプト リライタあり/なし) を比較すると、次のようになります。 • リライタが無効の場合: 精度は 0% に近くなります。 • リライターを有効にすると、精度が大幅に向上します。 推測: Sora-2 のテキスト推論能力は、ビデオ生成コンポーネント自体ではなく、主にキュー書き換えモデル (おそらく VLM) から得られると考えられます。 論文討論演説
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[論文解説] ビデオで考える:有望なマルチモーダル推論パラダイムとしてのビデオ生成
研究の動機: 既存のパラダイムの限界 この論文では、現在主流となっている 2 つの AI 推論パラダイムの重大な欠陥を指摘しています。
1. 「テキスト](https://pbs.twimg.com/media/G5MkvUbbIAATh_r.jpg)