X (Twitter)

マイクロソフトと復旦大学の共同研究によるこのAniX論文は非常に興味深い。AIに解釈させてみよう。自分でデザインしたキャラクターを 3D の世界に配置し、ゲームのようにさまざまなアクションを実行するように制御するとしたら、どのような感じでしょうか? Microsoft Research と復旦大学のチームが AniX と呼ばれるシステムを作成しました。これが基本的にこの問題の目的です。 3D シーン (3DGS テクノロジを使用して生成) とキャラクターを与え、自然言語で「前に走って」または「ギターを弾いて」と指示すると、対応するビデオを生成できます。コア機能は次の 4 つの側面にあります。 1. シーンとキャラクターの一貫性: 生成されたビデオでは、キャラクターの外観とシーンの外観が、提供したものと一致しています。 2. アクションライブラリは非常に豊富で、単純な歩行や走行だけでなく、ジェスチャー（手を振る、敬礼など）や、オブジェクトとのインタラクション（電話をかける、ギターを弾く）まで含まれています。トレーニングデータには 4 つの基本的な動作アクションしか含まれていませんでしたが、モデルは 142 の未知のアクションを一般化して実行することを学習しました。(?!) 3. 継続的なインタラクションを可能にします。ラウンドごとに指示を与えると、生成されるビデオは前のビデオの続きとなり、連続性が保たれます。まるで世界を探検しているかのようです。 4. カメラ制御の設計は非常に巧妙です。複雑な数学的コーディングを用いてカメラを制御するのではなく、3DGSシーン内で目的のカメラパスを直接レンダリングし、そのレンダリング結果を条件入力として使用します。これは、モデルに「リファレンスビデオ」を見せて、カメラがどのように動くべきかを指示するようなものです。システム全体の中核となるアイデアは、条件付き自己回帰ビデオ生成です。トレーニングデータは、GTA-V のゲーム録画という非常に実用的なソースから取得されます。彼らは、それぞれ 1 つのアクションのみを含む 2,000 本以上のビデオを録画し、次の 3 つのことを行いました。 ① キャラクターを抽出します。② 背景を完成させます（AI修復ツールを使用）。 ③ アクションにタグを付ける各キャラクターは 4 つの視点 (前面、背面、左、右) からの画像で表現されるため、モデルはさまざまな角度からキャラクターを認識できます。モデルアーキテクチャは HunyuanCustom (130 億のパラメーター) に基づいており、Flow Matching トレーニングメソッドを使用します。さまざまな条件情報をモデルに取り込む方法: ① シーンマスクとキャラクターマスクはノイズに直接ブレンドされます。② テキストコマンドとマルチビューキャラクター画像はシーケンスにステッチされます。③ これらの入力を区別するために、異なる位置コードが使用されます。興味深い発見がありました: シンプルなモーションデータを使用して事前トレーニング済みのモデルを微調整すると、モデルの一般化能力が損なわれないだけでなく、モーションの品質も向上しました。これは大規模な言語モデルのトレーニングに似ています。微調整は知識を再学習することではなく、「話し方」を調整することです。彼らは、視覚的な品質を測定するために WorldScore 評価システムを使用しました。結果は、ほぼすべての指標において、既存のビデオ生成モデルや特殊な世界モデルを上回りました。モーションコントロールの成功率は特に注目に値します。 ① 基本移動アニメーション：成功率100％ ② 142個の新しいアニメーション：成功率80.7％それに比べて、他のモデルでは、基本的な動作の成功率が 50% 未満で、中には 3.3% と低いものもあります。役割の一貫性は DINOv2 スコアと CLIP スコアを使用して測定され、AniX はそれぞれ 0.698 と 0.721 のスコアを達成し、他の方法よりも大幅に高いスコアを示しました。いくつかの重要な設計上の選択マルチビュー文字入力は確かに便利です。彼らは、単一視点、二重視点、および四視点の視点を比較し、視点の数が増えるにつれて、キャラクターの一貫性スコアが上昇することを発見しました。文字のマスキングも重要です。各フレームのマスキング情報により、モデルは動的なキャラクターと静的なシーンをより適切に区別できます。視覚的な条件は長期的な生成に明らかに役立ちます。 3DGS シーン条件またはマルチビューキャラクター条件が削除されると、生成される品質は時間の経過とともに大幅に低下します。元のモデルでは、360P ビデオ (単一の H100) を 93 フレーム生成するのに 121 秒かかります。 DMD2 を使用して 4 段階バージョンに蒸留すると、品質の低下がほとんどなく、わずか 21 秒しかかかりません。いくつか興味深い点が思い浮かびました。ゲームデータの価値。 GTA-V のようなゲームでは、キャラクター、環境、アクションなど、構造化されたトレーニングデータが豊富に用意されています。これは過小評価されているデータソースである可能性があります。ハイブリッドトレーニング戦略。その後、ゲームと現実のスタイルを区別するために、「レンダリング」と「リアル」というラベルを使用して、400 本のライブアクションビデオを追加しました。このシンプルなデータ注釈により、モデルはさまざまな視覚スタイルを区別することを学習できます。これは非常に独創的です。一般化能力の源。わずか 4 つの基本的な動作でトレーニングしたにもかかわらず、142 の新しい動作を実行できたことは、事前トレーニング済みのモデルにすでに人間の動作に関する豊富な知識が含まれていることを示しています。微調整とは、この知識を活性化し、調整することです。カメラ制御へのアプローチ。参照ビデオを直接レンダリングする方が、抽象的な数学的表現にエンコードするよりも直感的で制御しやすくなります。この「見た目通りのものが得られる」というデザイン哲学は学ぶ価値があります。この論文ではその限界は明確に述べられていないが、次のような問題点が明らかである。トレーニングデータはまだ少なすぎます。2,000 本を超えるビデオは、このような複雑なタスクには十分ではありません。オブジェクトインタラクションアクションの成功率（80.7%）は良好ですが、まだ改善の余地があります。生成時間を長くすることで多少の改善が見られますが、グラフからもわかるように、品質は時間の経過とともに低下します。これは自己回帰モデルによく見られる問題かもしれません。シーンは 3DGS 形式である必要があり、これは一般ユーザーにとって少し障壁となります。 Marble などのツールを使用して生成することもできますが、依存関係がさらに追加されます。全体として、AniX は制御可能なキャラクターアニメーション生成の方向に大きな前進を遂げました。膨大な量のデータや複雑な設計は必要ありません。適切なアプローチを見つければ、少量のデータで素晴らしい結果を達成できます。

原文はhttarxiv.org/pdf/2512.17796いただけます。

向阳乔木（@vista8）のスレッド

作者情報

スレッド内容