Meta también lanzó los modelos de Segment Anything de próxima generación "SAM 3" y "SAM 3D". Esta es otra importante actualización de la serie Segment Anything (de SAM 1 → SAM 2 → SAM 3). El objetivo común de SAM 3 y SAM 3D es acercar la IA a la capacidad de «comprender el mundo físico real», lo que permite una segmentación y reconstrucción de objetos altamente flexible en imágenes, vídeos y escenas 3D. En resumen: SAM 3 permite que la IA realmente «comprende» lo que se desea segmentar, mientras que SAM 3D permite que la IA transforme las fotos en un mundo 3D interactivo. 1. SAM 3: Un modelo unificado para la "segmentación arbitraria" de imágenes y vídeos (Segmentación Universal Indicable) Innovaciones clave: • Admite múltiples métodos de indicaciones: hereda las indicaciones de punto, cuadro y máscara de SAM 1/2, y agrega indicaciones de texto (vocabulario abierto, como "paraguas a rayas rojas y blancas") e indicaciones de ejemplo de imagen (cargar una imagen de referencia y dejar que el modelo segmente "cosas similares"). • Lograr una verdadera “segmentación a nivel de concepto”: ya no se limita a categorías fijas (como las 80 categorías de COCO), sino que puede segmentar cualquier concepto detallado descrito por el usuario, o incluso conceptos compuestos (como “una persona sentada pero que no sostiene una caja de regalo”). • Permite el seguimiento de objetos en tiempo real en vídeos, admitiendo escenas dinámicas (como vídeos grabados con gafas en primera persona). • Puede servir como una “herramienta visual” para modelos de lenguaje multimodales de gran tamaño, lo que permite que modelos como Llama manejen mejor tareas complejas de razonamiento visual. Actuación: • En la prueba comparativa SA-Co, supera a modelos líderes como Gemini 2.5 Pro, GLEE y OWLv2 por aproximadamente 2 veces. La inferencia para una sola imagen (más de 100 objetos) tarda solo 30 ms (GPU H200), y el vídeo es casi en tiempo real. • En comparación con SAM 2, su rendimiento es igual o ligeramente superior al de SAM 2 en tareas de segmentación tradicionales, al tiempo que añade nuevas capacidades conceptuales. Entrenamiento y datos: • Utilizando un conjunto de datos de más de 4 millones de conceptos únicos, reduzca significativamente los costos y mejore la eficiencia a través de un proceso de anotación híbrido de IA + humano (verificación asistida por Llama 3.2v). • Totalmente de código abierto: Los pesos del modelo, los conjuntos de datos de evaluación (incluido el conjunto de datos de vídeo de vida silvestre SA-FARI) y el código de ajuste fino están disponibles públicamente. Aplicaciones prácticas: • Se ha integrado con productos como Instagram Edits, Meta AI Vibes y la función "Ver en la habitación" de Facebook Marketplace. Se puede utilizar para efectos de vídeo, visualización de productos en 3D, monitoreo de vida silvestre, etc. 2. SAM 3D: Generación de reconstrucciones 3D de alta calidad a partir de una sola imagen natural. Posicionamiento central: • Esta es la primera vez que la serie SAM se extiende al 3D, con el objetivo de "reconstruir modelos 3D del mundo físico real a partir de fotografías cotidianas". • Dividir en dos submodelos: • Objetos SAM 3D: Reconstrucción de forma, textura y diseño 3D para objetos y escenas. SAM 3D Body: Se especializa en la estimación de la pose y la forma humana en 3D (admite oclusión, poses inusuales y múltiples personas). Aspectos técnicos destacados: • Genera mallas 3D texturizadas y posadas a partir de una sola fotografía ordinaria (sin necesidad de sensores de profundidad o multivista). • Utilizando un motor de datos “modelo en bucle”: la IA primero genera un 3D aproximado, y los humanos solo son responsables de calificar/corregir los ejemplos difíciles, logrando una anotación de alta calidad de casi un millón de imágenes (un total de 3,14 millones de cuadrículas). • Al combinar el preentrenamiento con datos sintéticos con el entrenamiento en múltiples etapas alineado con datos reales, se ha logrado cerrar con éxito la brecha entre "simulación y realidad". • Admite indicaciones interactivas (máscaras de segmentación, puntos clave 2D, etc.) para guiar la reconstrucción. Actuación: • En las pruebas de preferencia humana, la tasa de éxito es de al menos 5:1, superando a los mejores modelos actuales. • Velocidad de generación rápida (unos pocos segundos), resolución moderada y gran capacidad para manejar oclusiones, objetos pequeños y puntos de vista indirectos. Estado de código abierto: • El código para ambos submodelos, pesos y el nuevo conjunto de datos (SA-3DAO) es todo de código abierto. El modelo paramétrico humano MHR también está disponible bajo una licencia comercial permisiva.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
