一籃大模型揉一起做籃球辨識! 給大家看這個辨識效果,投籃位置,是否進球,球衣編號,球在哪裡(甚至裁判手裡拿的另外一個球都能捕捉到),籃筐,運動員都能識別。 總計用了這些模型: F-DETR (偵測球員)- 這是個類別DETR 的即時目標偵測器。微調後用來偵測球員、球衣號碼、裁判、籃球,甚至是投籃類型。 SAM2 (跟蹤球員)- 用於分割與跟蹤。它在球員被遮蔽後重新識別,並在身體接觸中保持目標ID 穩定。 SigLIP + UMAP + K-means (無監督球隊聚類)— 結合視覺-語言嵌入與無監督聚類,透過統一的顏色和紋理將球員自動分組,無需人工標註 SmolVLM2 (辨識球員號碼)— 這個比較猛,今年2月發布的,有256M, 500M, 2.2B 三個版本。一般用在OCR場景,是個VLM,經過NBA 球衣裁切影像微調後,辨識隊服與編號準確率從56%提升至86% ResNet-32 — (號碼分類)一種經典CNN,經過微調用於球衣號碼分類,測試準確率達到93%,優於微調後的SmolVLM2 原文寫的非常棒,作為學習資料夠了,推薦給大家:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。