X (Twitter)

메타는 또한 차세대 Segment Anything 모델인 "SAM 3"과 "SAM 3D"를 출시했습니다. 이는 Segment Anything 시리즈(SAM 1 → SAM 2 → SAM 3)의 또 다른 주요 업그레이드입니다. SAM 3와 SAM 3D의 공통된 목표는 AI가 "실제 물리적 세계를 이해하는" 능력에 더욱 가까워지도록 하여 이미지, 비디오 및 3D 장면에서 매우 유연한 객체 분할 및 재구성을 가능하게 하는 것입니다. 간단히 말해, SAM 3는 AI가 분할하려는 대상을 진정으로 "이해"할 수 있도록 하고, SAM 3D는 AI가 사진을 인터랙티브 3D 세계로 변환할 수 있도록 합니다. 1. SAM 3: 이미지 및 비디오의 "임의 분할"을 위한 통합 모델(Promptable Universal Segmentation) 핵심 혁신: • 다양한 프롬프팅 방법을 지원합니다. SAM 1/2의 포인트, 박스, 마스크 프롬프트를 계승하고, 텍스트 프롬프트(예: "빨간색과 흰색 줄무늬 우산"과 같은 개방형 어휘)와 이미지 예시 프롬프트(참조 이미지를 업로드하고 모델이 "유사한 것"을 분할하도록 함)를 추가합니다. • 진정한 "개념 수준 세분화"를 달성합니다. 더 이상 고정된 범주(예: COCO의 80개 범주)에 국한되지 않고 사용자가 설명한 세부적인 개념이나 심지어 복합 개념(예: "앉아 있지만 선물 상자를 들고 있지 않은 사람")도 세분화할 수 있습니다. • 비디오에서 실시간 객체 추적을 활성화하여 동적 장면(예: 1인칭 안경 비디오)을 지원합니다. • 다중 모드 대규모 언어 모델을 위한 "시각적 도구" 역할을 하여 Llama와 같은 모델이 복잡한 시각적 추론 작업을 보다 잘 처리할 수 있도록 합니다. 성능: • SA-Co 벤치마크에서는 Gemini 2.5 Pro, GLEE, OWLv2 등 주요 모델보다 약 2배 더 우수한 성능을 보입니다. 단일 이미지(100개 이상의 객체)에 대한 추론은 30ms(H200 GPU)만 걸리고, 비디오는 거의 실시간입니다. • SAM 2와 비교했을 때 기존 세분화 작업에서는 SAM 2와 동등하거나 약간 더 나은 성능을 보이는 동시에 새로운 개념적 기능도 추가되었습니다. 훈련 및 데이터: • 400만 개 이상의 고유한 개념 데이터 세트를 사용하여 AI와 인간의 하이브리드 주석 프로세스(Llama 3.2v 지원 검증)를 통해 비용을 크게 절감하고 효율성을 개선합니다. • 완전한 오픈 소스: 모델 가중치, 평가 데이터 세트(야생 동물 비디오 데이터 세트 SA-FARI 포함), 미세 조정 코드는 모두 공개적으로 사용 가능합니다. 실제 응용 분야: • Instagram Edits, Meta AI Vibes, Facebook Marketplace의 "View in Room" 등의 제품과 통합되었습니다. 비디오 효과, 3D 제품 시각화, 야생 동물 모니터링 등에 사용할 수 있습니다. 2. SAM 3D: 단일 자연 이미지로부터 고품질 3D 재구성을 생성합니다. 핵심 포지셔닝: • 이번 작품은 SAM 시리즈가 3D로 확장된 첫 사례로, "일상적인 사진으로부터 실제 물리적 세계의 3D 모델을 재구성한다"는 목표를 가지고 있습니다. • 두 개의 하위 모델로 구분: • SAM 3D 객체: 객체와 장면에 대한 3D 모양, 질감 및 레이아웃 재구성. SAM 3D 바디: 3D 인체 포즈 및 형태 추정에 특화되어 있습니다(교합, 특이한 포즈, 여러 사람 지원). 기술적 하이라이트: • 단일 일반 사진에서 텍스처가 적용된 3D 메시를 생성합니다(다중 보기 또는 깊이 센서가 필요 없음). • "모델 인 더 루프" 데이터 엔진 사용: AI가 먼저 대략적인 3D를 생성하고, 인간은 어려운 예시에 대한 점수 매기기/수정만 담당하여 거의 100만 개의 이미지(총 314만 개의 그리드)에 대한 고품질 주석을 달성합니다. • 사전 학습과 합성 데이터를 결합하고, 실제 데이터에 맞춰 다단계 학습을 진행함으로써 "시뮬레이션과 현실" 간의 격차를 성공적으로 해소했습니다. • 재구성을 안내하기 위해 대화형 프롬프트(세그먼트 마스크, 2D 키 포인트 등)를 지원합니다. 성능: • 인간 선호도 테스트에서 승률은 최소 5:1로, 현재 최고 모델을 능가합니다. • 빠른 생성 속도(몇 초), 적당한 해상도, 강력한 폐색, 작은 물체, 간접 시점 처리 능력. 오픈 소스 상태: • 하위 모델, 가중치 및 새로운 데이터 세트(SA-3DAO)에 대한 코드는 모두 오픈 소스입니다. 인간 매개 변수 모델인 MHR도 허가된 상용 라이선스에 따라 제공됩니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용