Aqui está um teste prático dos modelos SAM 3 da Meta! Este modelo de grande porte possui quatro funções: reconhecimento de conteúdo de vídeo, reconhecimento de conteúdo de imagem, geração de modelo 3D a partir de imagem e geração de modelo 3D de pose humana a partir de imagem. Vamos analisar o primeiro teste: reconhecimento de conteúdo de vídeo. Vamos começar com um cenário simples: um robô em ação. A barra de pesquisa à esquerda exibe automaticamente os nomes dos objetos no vídeo. Selecionamos "robô" e tentamos rotulá-lo. Os resultados são medíocres; podemos ver que apenas a parte final do vídeo é rotulada corretamente, enquanto o início permanece sem rótulo. Isso sugere que o modelo pode ter baixa transferibilidade. Será mesmo assim? Vamos ver um vídeo mais complexo, uma corrida de bicicleta em alta velocidade. O lado esquerdo não reconhece o atleta, mas, surpreendentemente, reconhece as meias, haha! Não se preocupe, vamos ver como funciona o marcador de bicicleta. Muito bem. Agora vamos tentar adicionar marcadores manualmente. Ótimo, sem problemas desta vez! Então, quantos alvos podem ser rotulados no máximo? Vejamos o terceiro teste. Após clicar para rotular "pessoas", 10 pessoas foram rotuladas automaticamente. Quando rotulamos manualmente a 11ª pessoa, o processo falhou. Portanto, o número máximo de alvos que podem ser rotulados no reconhecimento de conteúdo de vídeo é 10. Vamos analisar o reconhecimento de conteúdo de imagens. Começamos com um desafio ousado: pedimos ao programa que rotulasse todas as bolhas na imagem. Como você pode ver, a grande maioria das bolhas foi rotulada com sucesso, embora algumas sobrepostas tenham passado despercebidas. Este resultado já é bastante impressionante, comparável ao de um YOLO especialmente treinado. Então, se adicionarmos mais, ele ainda conseguirá reconhecê-los? Vejamos este aqui tentando reconhecer gotas de água — é um desastre! Não é possível marcá-las corretamente, principalmente porque há muitos alvos. No entanto, marcar manualmente um único alvo ainda funciona bem. É possível identificar animais com etiquetas? Sem problemas, veja esta identificação de ovelhas, é muito bem-sucedida. No entanto, se o conteúdo do treinamento for limitado, o efeito de generalização será baixo. Por exemplo, no desafio final de placas de circuito impresso, embora o sistema reconheça capacitores e resistores, ao clicar neles, ainda confunde vários componentes. Em seguida, vem a modelagem de cenas em 3D. Primeiro, temos a câmera Mamiya. Nós a modelamos e, embora os rostos mostrados na imagem pareçam bons, outros aparecem borrados, um problema comum na modelagem 3D atual. Afinal, você não consegue imaginar o que um modelo grande não consegue capturar se nunca o viu antes. Ele também inclui alguns efeitos integrados divertidos, que são bastante criativos para cenários de mídias sociais. Em seguida, vamos complicar um pouco as coisas e analisar uma locomotiva a vapor. Como você pode ver, desta vez a precisão da modelagem é um tanto problemática; os detalhes mecânicos do trem não foram reproduzidos com exatidão. Vamos testar a modelagem de múltiplos objetos. O desempenho é muito bom. Você pode ver que o efeito da modelagem de minifiguras LEGO é bastante satisfatório. E quanto à modelagem de cenas? Vamos tentar uma escada... Ah, não, essa ilusão é muito forte; a escada foi modelada como uma plataforma. Por fim, a imagem é usada para gerar uma pose de personagem em 3D. Vamos enviar primeiro uma cena para um jogador; o efeito é excelente. Você pode ver que a pose do personagem é muito realista. Vamos complicar um pouco mais. Vamos aumentar o número de personagens e adicionar alguns obstáculos à imagem. Perfeito! Você pode ver que as poses dos personagens ainda são reproduzidas corretamente; até mesmo a terceira pessoa na imagem está obscurecida. Claro, existem algumas falhas. Por exemplo, o abdômen da personagem está obscurecido pela saia, causando alguns problemas na modelagem. Mesmo em cenas mais complexas, como uma partida de basquete, a modelagem é muito precisa. Os modelos dos personagens que estão ocultos também são muito fiéis. Para algo um pouco mais complexo, uma cena com um grande número de pessoas foi modelada com sucesso. No entanto, esta também apresentou alguns problemas. Todos estavam, na verdade, no chão, mas o modelo interpretou mal a perspectiva, fazendo com que todos parecessem estar em uma encosta em diferentes alturas. Resumir Dos quatro modos, o melhor é a geração de poses de personagens 3D a partir de imagens, seguido pelo reconhecimento de conteúdo de imagem, depois pelo reconhecimento de conteúdo de vídeo, e o pior é a geração de modelos 3D a partir de imagens. Mesmo assim, este modelo representa um avanço significativo no setor. #sam3 #meta
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.