¡Aquí tenéis una prueba práctica de los modelos SAM 3 de Meta! Este modelo de gran tamaño tiene cuatro funciones: reconocimiento de contenido de vídeo, reconocimiento de contenido de imagen, generación de modelos 3D a partir de imágenes y generación de modelos de pose humana 3D a partir de imágenes. Analicemos la primera prueba: el reconocimiento de contenido de vídeo. Comencemos con un escenario sencillo: un robot en funcionamiento. La barra de búsqueda de la izquierda muestra automáticamente los nombres de los objetos en el vídeo. Seleccionamos «robot» e intentamos etiquetarlo. Los resultados son mediocres; se observa que solo la última parte del vídeo se etiqueta correctamente, mientras que el principio permanece sin etiquetar. Esto sugiere que el modelo podría tener una transferibilidad deficiente. ¿Es así de verdad? Veamos un vídeo más complejo: una carrera de bicicletas a alta velocidad. El lado izquierdo no reconoce al ciclista, pero, sorprendentemente, ¡sí reconoce los calcetines! Jaja. No te preocupes, veamos qué tal funciona el marcador de bicicletas. Muy bien. Ahora intentemos añadir marcadores manualmente. ¡Genial, esta vez sin problema! ¿Cuántos objetivos se pueden etiquetar como máximo? Analicemos la tercera prueba. Al hacer clic en "personas", se etiquetaron automáticamente 10 personas. Al etiquetar manualmente a la undécima persona, la prueba falló. Por lo tanto, el número máximo de objetivos que se pueden etiquetar en el reconocimiento de contenido de vídeo es 10. Analicemos el reconocimiento de contenido de imágenes. Comenzamos con un reto ambicioso: etiquetar todas las burbujas de la imagen. Como se puede observar, la gran mayoría se etiquetaron correctamente, aunque algunas que se superponían no se detectaron. Este resultado es ya bastante impresionante, comparable al de un YOLO especialmente entrenado. Entonces, si añadimos más, ¿podrá seguir reconociéndolos? Veamos este ejemplo intentando reconocer gotas de agua: ¡es un desastre! No se puede marcar correctamente, principalmente porque hay demasiados objetivos. Sin embargo, marcar manualmente un solo objetivo sigue funcionando bien. ¿Se pueden etiquetar los animales? Sin problema, mira este ejemplo de etiquetado de ovejas: ¡todo un éxito! Sin embargo, si el contenido del entrenamiento es limitado, la generalización es deficiente. Por ejemplo, con el desafío final de las placas de circuitos, aunque reconoce condensadores y resistencias, al hacer clic en ellos sigue confundiendo los distintos componentes. Luego viene el modelado de escenas en 3D. Primero, está la cámara Mamiya. La modelamos y, si bien los rostros que se muestran en la imagen se ven bien, otros aparecen borrosos, un problema común en el modelado 3D actual. Al fin y al cabo, es imposible imaginar lo que un modelo a gran escala no puede capturar si no se ha visto antes. También incluye algunos efectos integrados divertidos, bastante creativos para redes sociales. A continuación, vamos a complicarlo un poco más y analizar una locomotora de vapor. Como pueden ver, en este caso la precisión del modelo es algo problemática; los detalles mecánicos del tren no se reproducen con exactitud. Probemos el modelado de múltiples objetos. El rendimiento es muy bueno. Como pueden ver, el efecto de modelado de las minifiguras LEGO es bastante bueno. ¿Y qué tal modelar la escena? Intentemos con una escalera... ¡Oh, no! Esta ilusión es demasiado fuerte; la escalera se ha modelado como una plataforma. Finalmente, la imagen se utiliza para generar una pose de personaje en 3D. Primero subiremos una escena para un solo jugador; el efecto es excelente. Se puede apreciar que la pose del personaje es muy realista. Hagámoslo un poco más complejo. Aumentaremos el número de personajes y añadiremos algunas obstrucciones a la imagen. ¡Perfecto! Se puede apreciar que las poses de los personajes se siguen reproduciendo correctamente; incluso la tercera persona en la imagen está oculta. Claro que hay algunos fallos. Por ejemplo, el abdomen del personaje queda oculto por la falda, lo que provoca algunos problemas con el modelado. Incluso en escenas más complejas como el baloncesto, el modelado es muy preciso. Los modelos de los personajes que aparecen ocultos también son muy exactos. Para algo un poco más complejo, se modeló con éxito una escena con una gran cantidad de personas. Sin embargo, esta también presentó algunos problemas. Si bien todos estaban en el suelo, el modelo interpretó mal la perspectiva, haciendo que parecieran estar de pie en una pendiente a diferentes alturas. Resumir De los cuatro modos, el mejor es la generación de poses de personajes 3D a partir de imágenes, seguido del reconocimiento de contenido de imagen, luego el reconocimiento de contenido de vídeo, y el peor es la generación de modelos 3D a partir de imágenes. Aun así, este modelo representa un avance significativo en la industria. #sam3 #meta
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.