Meta の SAM 3 モデルの実践テストをご紹介します。 この大規模モデルには、ビデオ コンテンツの認識、画像コンテンツの認識、画像から 3D モデルの生成、画像から 3D 人間のポーズ モデルの生成という 4 つの機能があります。 最初のテストであるビデオコンテンツの認識を見てみましょう。 まずは簡単なシナリオ、つまりロボットが作業しているところから始めましょう。左側の検索バーに、動画内のオブジェクトの名前が自動的に表示されます。「ロボット」を選択し、ラベル付けを試みます。結果は凡庸です。動画の後半部分のみラベル付けが成功し、前半部分はラベル付けされていません。これは、モデルの移植性が低い可能性を示唆しています。 本当にそうなのでしょうか?もっと複雑な動画、高速自転車レースを見てみましょう。左側は選手を認識していませんが、なんとソックスは認識しています(笑)。ご安心ください。自転車マーカーがどれだけうまく機能するか見てみましょう。素晴らしいですね。では、手動でマーカーを追加してみましょう。素晴らしい、今回は問題なし! では、最大いくつのターゲットにラベルを付けることができるのでしょうか?3つ目のテストを見てみましょう。「人物」にラベルを付けるためにクリックした後、10人が自動的にラベル付けされました。11人目に手動でラベル付けしようとしたところ、失敗しました。したがって、動画コンテンツ認識でラベル付けできるターゲットの最大数は10です。 画像コンテンツ認識を見てみましょう。 私たちは大胆な挑戦から始めました。画像内のすべての泡にラベルを付けさせるというものです。ご覧の通り、重なり合った泡の一部はラベル付けされませんでしたが、大部分の泡はラベル付けに成功しました。この結果はすでに非常に印象的で、特別に訓練されたYOLOに匹敵するほどです。 では、さらにターゲットを追加しても、認識できるのでしょうか?水滴を認識しようとしているこの画像を見てみましょう。ひどい結果です!ターゲットが多すぎるため、正しくマークできません。ただし、1つのターゲットを手動でマークするのは問題ありません。 動物にラベルを付けることはできるでしょうか?問題ありません。この羊のラベル付けを見てください。非常に成功しています。しかし、トレーニング内容が限られていると、汎化効果は低くなります。例えば、究極の課題である回路基板では、コンデンサと抵抗器は認識できますが、クリックすると様々な部品が混同されてしまいます。 次に 3D シーン モデリングを行います。 まず、マミヤカメラです。モデリングしてみましたが、画像に写っている顔は問題ないように見えますが、他の顔はぼやけています。これは現在の3Dモデリングでよくある問題です。実際に見たことがなければ、大きなモデルで何が写りきるのか想像もつきません。また、ソーシャルメディアの用途で非常にクリエイティブな、楽しいエフェクトもいくつか組み込まれています。 次はもう少し複雑な蒸気機関車を見てみましょう。ご覧の通り、今回はモデリングの精度に少々問題があり、機関車の機械的なディテールが正確に再現されていません。 マルチオブジェクトモデリングをテストしてみましょう。パフォーマンスは非常に良好です。レゴミニフィギュアのモデリング効果がかなり優れていることがわかります。 では、シーンモデリングはどうでしょうか?階段を試してみましょう... ああ、この錯覚は強すぎます。階段はプラットフォームとしてモデリングされています。 最後に、画像を使用して 3D キャラクターのポーズを生成します。 まずはシングルプレイのシーンをアップロードします。効果は抜群です。キャラクターのポーズがとてもリアルに表現されているのがお分かりいただけると思います。 もう少し複雑にしてみましょう。キャラクターの数を増やし、画像に障害物をいくつか追加します。完璧です!キャラクターのポーズは正しく再現されています。画像内の3人目は隠れていますが。もちろん、いくつか欠点もあります。例えば、キャラクターの腹部がスカートに隠れており、モデリングに問題が生じています。 バスケットボールのような複雑なシーンでも、モデリングは非常に精巧です。隠れているキャラクターのモデルも非常に正確です。 もう少し複雑な例として、多数の人物が登場するシーンのモデリングに成功しました。しかし、このシーンにもいくつか問題がありました。実際には全員が地面に立っているにもかかわらず、モデルが遠近法を誤って認識し、全員がそれぞれ異なる高さの斜面に立っているように見えてしまうのです。 要約 4つのモードのうち、最も優れているのは画像から3Dキャラクターのポーズを生成するモード、次いで画像コンテンツ認識、動画コンテンツ認識の順で、最も劣っているのは画像から3Dモデルを生成するモードです。それでもなお、このモデルは業界における大きな進歩を表しています。 #sam3 #メタ
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。