¡Se mezcló una cesta entera de modelos grandes para crear un efecto de baloncesto! Permítanme mostrarles su capacidad de reconocimiento. Puede identificar la posición de tiro, si el tiro entró, el número de la camiseta, dónde está el balón (incluso puede capturar otro balón que tenga en sus manos el árbitro), la canasta y el jugador. Estos modelos se utilizaron en total: F-DETR (Detección de Jugadores) – Se trata de un detector de objetivos en tiempo real similar a DETR. Tras un ajuste fino, puede utilizarse para detectar jugadores, números de camisetas, árbitros, balones e incluso tipos de tiro. SAM2 (Seguimiento de Jugador) – Se utiliza para la segmentación y el seguimiento. Reidentifica a los jugadores después de que quedan ocultos y mantiene una identificación de objetivo estable durante el contacto físico. SigLIP + UMAP + K-means (Agrupamiento de equipos no supervisado): este método combina incrustaciones visuales-lingüísticas con agrupamiento no supervisado, agrupando automáticamente a los jugadores mediante colores y texturas uniformes, eliminando la necesidad de etiquetado manual. SmolVLM2 (reconocimiento de números de jugadores): Esta herramienta es bastante potente. Lanzada en febrero de este año, cuenta con tres versiones: 256M, 500M y 2.2B. Se utiliza generalmente en escenarios de OCR. Es una biblioteca de máquina virtual (VLM) y, tras un ajuste con imágenes recortadas de camisetas de la NBA, la precisión en el reconocimiento de camisetas de equipos y números de jugadores ha aumentado del 56 % al 86 %. ResNet-32 — (Clasificación de números) Una CNN clásica, finamente ajustada para la clasificación de números de camisetas, que logra una precisión de prueba del 93%, superando a la SmolVLM2 finamente ajustada. El texto original es excelente y constituye un amplio material de aprendizaje; lo recomiendo encarecidamente.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.