Meta a également lancé les modèles Segment Anything de nouvelle génération « SAM 3 » et « SAM 3D ». Il s'agit d'une nouvelle mise à jour majeure de la série Segment Anything (SAM 1 → SAM 2 → SAM 3). L'objectif commun de SAM 3 et SAM 3D est de permettre à l'IA de mieux comprendre le monde physique réel, offrant ainsi une segmentation et une reconstruction d'objets extrêmement flexibles dans les images, les vidéos et les scènes 3D. En résumé : SAM 3 permet à l'IA de véritablement comprendre ce que vous souhaitez segmenter, tandis que SAM 3D lui permet de transformer des photos en un monde 3D interactif. 1. SAM 3 : Un modèle unifié pour la « segmentation arbitraire » d’images et de vidéos (Segmentation universelle rapide) Innovations clés : • Prend en charge plusieurs méthodes d'invite : il hérite des invites de point, de boîte et de masque de SAM 1/2 et ajoute des invites de texte (vocabulaire ouvert, tel que « parapluie à rayures rouges et blanches ») et des invites d'exemple d'image (téléchargez une image de référence et laissez le modèle segmenter les « choses similaires »). • Réaliser véritablement une « segmentation au niveau conceptuel » : ne plus se limiter à des catégories fixes (telles que les 80 catégories de COCO), mais pouvoir segmenter n’importe quel concept précis décrit par l’utilisateur, ou même des concepts composés (tels que « une personne assise mais ne tenant pas de boîte cadeau »). • Permet le suivi d'objets en temps réel dans les vidéos, prenant en charge les scènes dynamiques (telles que les vidéos prises avec des lunettes à la première personne). • Il peut servir d’« outil visuel » pour les grands modèles de langage multimodaux, permettant à des modèles tels que Llama de mieux gérer les tâches complexes de raisonnement visuel. Performance: • Sur le benchmark SA-Co, il surpasse les modèles de référence tels que Gemini 2.5 Pro, GLEE et OWLv2 d'environ 2 fois. L'inférence pour une seule image (plus de 100 objets) ne prend que 30 ms (GPU H200), et la vidéo est quasiment en temps réel. • Comparé à SAM 2, il offre des performances équivalentes ou légèrement supérieures à celles de SAM 2 dans les tâches de segmentation traditionnelles, tout en ajoutant de nouvelles capacités conceptuelles. Formation et données : • En utilisant un ensemble de données de plus de 4 millions de concepts uniques, réduisez considérablement les coûts et améliorez l'efficacité grâce à un processus d'annotation hybride IA + humain (vérification assistée par Llama 3.2v). • Entièrement open source : les pondérations du modèle, les ensembles de données d’évaluation (y compris l’ensemble de données vidéo sur la faune SA-FARI) et le code de réglage fin sont tous disponibles publiquement. Applications pratiques : • Il a été intégré à des produits tels que Instagram Edits, Meta AI Vibes et la fonctionnalité « Voir dans la pièce » de Facebook Marketplace. Il peut être utilisé pour les effets vidéo, la visualisation de produits en 3D, la surveillance de la faune sauvage, etc. 2. SAM 3D : Générer des reconstructions 3D de haute qualité à partir d'une seule image naturelle. Positionnement central : • C’est la première fois que la série SAM est étendue à la 3D, dans le but de « reconstruire des modèles 3D du monde physique réel à partir de photographies du quotidien ». • Diviser en deux sous-modèles : • Objets SAM 3D : Reconstruction de la forme, de la texture et de la disposition 3D des objets et des scènes. SAM 3D Body : Spécialisé dans l'estimation de la pose et de la forme humaine en 3D (prend en charge l'occlusion, les poses inhabituelles et plusieurs personnes). Points forts techniques : • Générer des maillages 3D texturés et mis en scène à partir d'une simple photographie ordinaire (pas besoin de capteurs multivues ou de profondeur). • Utilisation d’un moteur de données « modèle dans la boucle » : l’IA génère d’abord une 3D approximative, et les humains ne sont responsables que de la notation/correction des exemples difficiles, permettant une annotation de haute qualité de près d’un million d’images (un total de 3,14 millions de grilles). • En combinant un pré-entraînement avec des données synthétiques et un entraînement en plusieurs étapes aligné sur des données réelles, le fossé entre « simulation et réalité » a été comblé avec succès. • Prend en charge les invites interactives (masques de segmentation, points clés 2D, etc.) pour guider la reconstruction. Performance: • Lors des tests de préférence humaine, le taux de victoire est d'au moins 5:1, dépassant ainsi les meilleurs modèles existants. • Il génère des données rapidement (en quelques secondes), possède une résolution modérée et est performant dans la gestion des occlusions, des petits objets et des points de vue indirects. Statut open source : • Le code des deux sous-modèles, des poids et du nouveau jeu de données (SA-3DAO) est entièrement open source. Le modèle paramétrique humain MHR est également disponible sous une licence commerciale permissive.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
