画像や動画に基づくマルチモーダル思考と推論の最新の進歩に興味がある人にとって、@KevinQHLin によるこの論文集は必読です。 1. イメージで考える このセクションでは、モデルの視覚的理解と意思決定能力を向上させるために、画像を AI 推論に統合する方法を検討した 4 つの論文を紹介します。 [1] DeepEyes:強化学習による「イメージで考える」ことの奨励 Xiaohongshu チームの論文では、強化学習を使用してモデルが考えながら画像を使用するように促し、領域の特定と拡大機能をサポートして、モデルが視覚的な詳細をより正確に処理できるようにしています。 [2] GRIT: MLLMにイメージで考えることを教える 著者にはYFan_UCSCとxwang_lkが含まれます。この手法は、外部処理を必要とせずにマルチモーダル大規模言語モデル(MLLM)に領域ベースの連鎖を実装し、トークンを通じて画像領域を直接表現することで効率を向上させます。 [3] ThinkMorph: マルチモーダルインターリーブ思考連鎖推論における創発特性 著者にはKuvvius、LINJIEFUN、michaelqshieh、RanjayKrishnaが含まれます。本論文では、テキストと画像を同時に生成する、統合され、絡み合った、連鎖的な思考フレームワークを提案し、マルチモーダル推論における新たな特性を明らかにしています。 [4] V-Thinker:画像を使ったインタラクティブな思考 WeChat チームによって開発されたこの手法は、コード駆動型の視覚ツールを通じてインタラクティブな推論を可能にし、モデルが画像処理を動的に調整してより柔軟な思考プロセスをサポートできるようにします。 2. ビデオで考える このセクションでは、推論における動的な視覚的モダリティとしてのビデオの可能性を強調した 3 つの論文を紹介します。 [5] ビデオモデルはゼロショット学習器および推論器である Google DeepMind Veo3 ベースモデルに基づいており、ゼロショットのフレームチェーン推論をサポートしているため、追加のトレーニングなしでビデオシーケンス内の論理推論を処理できます。 [6] MiniVeo3-Reasoner THUML のオープンソースのビデオ生成モデル。チェーン思考向けに設計されており、よりアクセスしやすい実装を提供します。 [7] ビデオで考える:有望なマルチモーダル推論パラダイムとしてのビデオ生成 著者はxpqiuチームのメンバーです。本論文では、VideoThinkBenchベンチマークを紹介し、マルチモーダル推論の新たなパラダイムとしてのビデオ生成について考察します。 原論文はケビンの原文投稿でご覧いただけます🔽
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
