バスケットボールを認識するために、たくさんの大きなモデルが混ぜ合わされました! 認識効果をお見せしましょう。シュート位置、シュートが入ったかどうか、背番号、ボールの位置(審判が持っている別のボールも捉えられます)、ゴール、そして選手を識別できます。 使用されたモデルは合計で以下のとおりです。 F-DETR(選手検出) – DETRに似たリアルタイムターゲット検出機能です。微調整を加えることで、選手、背番号、審判、バスケットボール、さらにはシュートの種類まで検出できます。 SAM2(トラッキングプレイヤー) – プレイヤーのセグメンテーションと追跡に使用されます。プレイヤーが視界から隠れた後でも再識別し、物理的接触中でも安定したターゲットIDを維持します。 SigLIP + UMAP + K-means (教師なしチームクラスタリング) — 視覚言語埋め込みと教師なしクラスタリングを組み合わせたこの手法では、均一な色とテクスチャを使用してプレーヤーを自動的にグループ化し、手動でラベルを付ける必要がなくなります。 SmolVLM2(選手背番号認識)— これは非常に強力です。今年2月にリリースされ、256M、500M、2.2Bの3つのバージョンがあります。主にOCRのシナリオで使用されます。これはVLM(仮想マシンライブラリ)であり、NBAジャージのトリミング画像で微調整した結果、チームジャージと選手背番号の認識精度が56%から86%に向上しました。 ResNet-32 — (番号分類) ジャージ番号の分類用に細かく調整された古典的な CNN。93% のテスト精度を達成し、細かく調整された SmolVLM2 を上回りました。 原文は素晴らしく、十分な学習教材となるため、強くお勧めします。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。