Voici un test pratique des modèles SAM 3 de Meta ! Ce grand modèle possède quatre fonctions : reconnaissance de contenu vidéo, reconnaissance de contenu image, génération de modèles 3D à partir d'images et génération de modèles de pose humaine 3D à partir d'images. Examinons le premier test : la reconnaissance de contenu vidéo. Prenons un exemple simple : un robot au travail. La barre de recherche à gauche affiche automatiquement les noms des objets présents dans la vidéo. Nous sélectionnons « robot » et tentons de l’étiqueter. Les résultats sont mitigés ; seule la fin de la vidéo est correctement étiquetée, le début restant non étiqueté. Cela suggère que le modèle présente une faible transférabilité. Est-ce vraiment le cas ? Prenons l'exemple d'une vidéo plus complexe : une course cycliste à grande vitesse. Le côté gauche ne reconnaît pas l'athlète, mais, chose étonnante, il reconnaît ses chaussettes ! Haha ! Ne vous inquiétez pas, voyons comment fonctionne le marqueur de vélo. Très bien. Essayons maintenant d'ajouter des marqueurs manuellement. Génial, aucun problème cette fois-ci ! Combien de cibles peuvent être étiquetées au maximum ? Prenons l’exemple du troisième test. Après avoir cliqué sur « Personnes », 10 personnes ont été automatiquement identifiées. Lorsque nous avons tenté d’étiqueter manuellement la 11e personne, l’opération a échoué. Par conséquent, le nombre maximal de cibles pouvant être étiquetées lors de la reconnaissance de contenu vidéo est de 10. Examinons la reconnaissance du contenu des images. Nous avons commencé par un défi audacieux : étiqueter toutes les bulles de l’image. Comme vous pouvez le constater, la grande majorité des bulles ont été correctement étiquetées, même si certaines bulles superposées ont échappé à l’identification. Ce résultat est déjà impressionnant, comparable à celui d’un YOLO spécialement entraîné. Donc, si on en ajoute d'autres, pourra-t-il toujours les reconnaître ? Prenons l'exemple de la reconnaissance de gouttelettes d'eau : c'est un désastre ! Impossible de les marquer correctement, principalement à cause du nombre excessif de cibles. En revanche, marquer manuellement une seule cible reste possible. Peut-on étiqueter les animaux ? Aucun problème, regardez cet étiquetage de moutons, c'est très réussi. Cependant, si le contenu de l'entraînement est limité, la généralisation est faible. Par exemple, face au défi ultime des circuits imprimés, même si le programme reconnaît les condensateurs et les résistances, cliquer dessus confond encore différents composants. Vient ensuite la modélisation de la scène en 3D. Tout d'abord, il y a l'appareil photo Mamiya. Nous l'avons modélisé, et si les visages affichés sur l'image sont corrects, d'autres apparaissent flous, un problème courant avec la modélisation 3D actuelle. Après tout, il est difficile d'imaginer les limites d'un grand modèle si on ne l'a jamais vu auparavant. Il comprend également des effets intégrés amusants, très créatifs pour les réseaux sociaux. Passons maintenant à un cas un peu plus complexe : une locomotive à vapeur. Comme vous pouvez le constater, la précision de la modélisation laisse à désirer ; les détails mécaniques du train ne sont pas reproduits avec exactitude. Testons la modélisation multi-objets. Les performances sont excellentes. On constate que le rendu des minifigurines LEGO est très réussi. Et la modélisation de scènes ? Prenons l'exemple d'un escalier… Oh non, l'illusion est trop forte ; l'escalier a été modélisé comme une plateforme. Enfin, l'image est utilisée pour générer une pose de personnage 3D. Nous allons d'abord mettre en ligne une scène solo ; l'effet est excellent. Vous pouvez constater que la pose du personnage est très réaliste. Complexifions un peu les choses. Augmentons le nombre de personnages et ajoutons des éléments qui obstruent l'image. Parfait ! Vous pouvez constater que les poses des personnages sont toujours correctement reproduites ; même la troisième personne est masquée. Bien sûr, il y a quelques défauts. Par exemple, le ventre du personnage est caché par sa jupe, ce qui pose quelques problèmes de modélisation. Même dans des scènes plus complexes comme le basketball, la modélisation est très précise. Les modèles des personnages partiellement cachés sont également très fidèles. Pour une scène un peu plus complexe, avec un grand nombre de personnes, la modélisation a été réussie. Cependant, elle présentait également quelques problèmes. Bien que tous les personnages se trouvaient au sol, le modèle a mal interprété la perspective, donnant l'impression qu'ils se tenaient sur une pente à différentes hauteurs. Résumer Parmi les quatre modes, le meilleur est la génération de poses de personnages 3D à partir d'images, suivi de la reconnaissance de contenu d'images, puis de la reconnaissance de contenu vidéo ; le moins performant est la génération de modèles 3D à partir d'images. Malgré cela, ce modèle représente une avancée significative dans le secteur. #sam3 #méta
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.