A Meta também lançou os modelos Segment Anything de próxima geração, "SAM 3" e "SAM 3D". Esta é mais uma grande atualização da série Segment Anything (do SAM 1 → SAM 2 → SAM 3). O objetivo comum do SAM 3 e do SAM 3D é aproximar a IA da capacidade de "compreender o mundo físico real", permitindo segmentação e reconstrução de objetos altamente flexíveis em imagens, vídeos e cenas 3D. Em resumo: o SAM 3 permite que a IA realmente "compreenda" o que você deseja segmentar, enquanto o SAM 3D permite que a IA transforme fotos em um mundo 3D interativo. 1. SAM 3: Um modelo unificado para "segmentação arbitrária" de imagens e vídeos (Segmentação Universal Sugerida) Principais inovações: • Suporta múltiplos métodos de solicitação: Herda as solicitações de ponto, caixa e máscara do SAM 1/2 e adiciona solicitações de texto (vocabulário aberto, como "guarda-chuva listrado vermelho e branco") e solicitações de exemplo de imagem (carregue uma imagem de referência e deixe o modelo segmentar "coisas semelhantes"). • Alcançar verdadeiramente a “segmentação em nível conceitual”: não mais limitado a categorias fixas (como as 80 categorias do COCO), mas capaz de segmentar qualquer conceito detalhado descrito pelo usuário, ou mesmo conceitos compostos (como “uma pessoa sentada, mas sem segurar uma caixa de presente”). • Permite o rastreamento de objetos em tempo real em vídeos, com suporte para cenas dinâmicas (como vídeos com óculos em primeira pessoa). • Pode servir como uma “ferramenta visual” para grandes modelos de linguagem multimodais, permitindo que modelos como o Llama lidem melhor com tarefas complexas de raciocínio visual. Desempenho: • No teste de benchmark SA-Co, seu desempenho supera em aproximadamente duas vezes modelos líderes como Gemini 2.5 Pro, GLEE e OWLv2. A inferência para uma única imagem (mais de 100 objetos) leva apenas 30 ms (GPU H200), e o vídeo é quase em tempo real. • Em comparação com o SAM 2, seu desempenho é igual ou ligeiramente superior ao do SAM 2 em tarefas de segmentação tradicionais, além de adicionar novas capacidades conceituais. Treinamento e dados: • Utilizando um conjunto de dados com mais de 4 milhões de conceitos únicos, reduzimos significativamente os custos e melhoramos a eficiência através de um processo de anotação híbrido de IA + humano (verificação assistida por Llama 3.2v). • Totalmente de código aberto: os pesos do modelo, os conjuntos de dados de avaliação (incluindo o conjunto de dados de vídeo da vida selvagem SA-FARI) e o código de ajuste fino estão todos disponíveis publicamente. Aplicações práticas: • Foi integrado a produtos como Instagram Edits, Meta AI Vibes e "View in Room" do Facebook Marketplace. Pode ser utilizado para efeitos de vídeo, visualização de produtos em 3D, monitoramento da vida selvagem, etc. 2. SAM 3D: Geração de reconstruções 3D de alta qualidade a partir de uma única imagem natural. Posicionamento central: • Esta é a primeira vez que a série SAM foi expandida para o 3D, com o objetivo de "reconstruir modelos 3D do mundo físico real a partir de fotografias do dia a dia". • Dividir em dois submodelos: • Objetos 3D do SAM: reconstrução de forma, textura e layout 3D para objetos e cenas. SAM 3D Body: Especializado em estimativa de pose e forma humana em 3D (suporta oclusão, poses incomuns e múltiplas pessoas). Destaques técnicos: • Gere malhas 3D texturizadas e posicionadas a partir de uma única fotografia comum (sem necessidade de múltiplas vistas ou sensores de profundidade). • Utilizando um mecanismo de dados "model-in-the-loop": a IA primeiro gera um modelo 3D aproximado, e os humanos são responsáveis apenas por pontuar/corrigir exemplos difíceis, alcançando uma anotação de alta qualidade de quase um milhão de imagens (um total de 3,14 milhões de grades). • Ao combinar o pré-treinamento com dados sintéticos com o treinamento em múltiplos estágios alinhado a dados reais, a lacuna entre "simulação e realidade" foi superada com sucesso. • Suporta instruções interativas (máscaras de segmentação, pontos-chave 2D, etc.) para orientar a reconstrução. Desempenho: • Em testes de preferência humana, a taxa de sucesso é de pelo menos 5:1, superando os melhores modelos atuais. • Alta velocidade de geração (alguns segundos), resolução moderada e grande capacidade de lidar com oclusão, objetos pequenos e pontos de vista indiretos. Status de código aberto: • O código para ambos os submodelos, pesos e o novo conjunto de dados (SA-3DAO) são todos de código aberto. O modelo paramétrico humano MHR também está disponível sob uma licença comercial permissiva.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
