Meta의 SAM 3 모델을 직접 테스트해 보세요! 이 대형 모델에는 비디오 콘텐츠 인식, 이미지 콘텐츠 인식, 이미지-3D 모델 생성, 이미지-3D 인체 포즈 모델 생성이라는 네 가지 기능이 있습니다. 첫 번째 테스트인 비디오 콘텐츠 인식을 살펴보겠습니다. 간단한 시나리오로 시작해 보겠습니다. 작업 중인 로봇입니다. 왼쪽 검색창에 영상 속 물체의 이름이 자동으로 표시됩니다. "로봇"을 선택하고 라벨을 붙여보겠습니다. 결과는 밋밋합니다. 영상 후반부만 라벨이 제대로 붙고, 초반부는 라벨이 붙지 않은 것을 볼 수 있습니다. 이는 해당 모델의 전이성이 낮음을 시사합니다. 정말 그럴까요? 좀 더 복잡한 영상, 고속 자전거 경주 영상을 볼까요? 왼쪽 영상은 선수를 인식하지 못하는데, 놀랍게도 양말은 인식하네요. 하하! 걱정하지 마세요. 자전거 마커가 얼마나 잘 작동하는지 봅시다. 아주 잘 작동하네요. 이제 마커를 직접 추가해 볼까요? 대박, 이번에는 문제없네요! 그렇다면 최대 몇 개의 대상에 라벨을 지정할 수 있을까요? 세 번째 테스트를 살펴보겠습니다. "사람" 라벨을 지정하기 위해 클릭했을 때 10명이 자동으로 라벨링되었습니다. 11번째 사람을 수동으로 라벨링했을 때는 실패했습니다. 따라서 비디오 콘텐츠 인식에서 라벨링할 수 있는 대상의 최대 개수는 10개입니다. 이미지 콘텐츠 인식에 대해 살펴보겠습니다. 저희는 대담한 과제로 시작했습니다. 이미지 속 모든 거품에 라벨을 붙이는 것이었죠. 보시다시피, 대부분의 거품은 성공적으로 라벨링되었지만, 겹치는 거품은 몇 개 누락되었습니다. 이 결과는 특별히 훈련된 YOLO에 비견될 만큼 매우 인상적입니다. 그럼, 더 추가해도 인식할 수 있을까요? 물방울을 인식하려고 하는 이 문제를 살펴보겠습니다. 정말 엉망입니다! 타겟이 너무 많아서 제대로 표시할 수 없습니다. 하지만 하나의 타겟을 수동으로 표시하는 것은 여전히 괜찮습니다. 동물에 라벨을 붙일 수 있나요? 문제없습니다. 이 양 라벨링 좀 보세요. 아주 성공적입니다. 하지만 훈련 내용이 제한적이면 일반화 효과가 떨어집니다. 예를 들어, 회로 기판이라는 궁극적인 과제의 경우, 커패시터와 저항은 인식하지만, 여러 부품을 클릭했을 때 여전히 혼동이 발생합니다. 그 다음에는 3D 장면 모델링이 이어집니다. 먼저, 마미야 카메라가 있습니다. 저희가 직접 모델링했는데, 이미지에 나온 얼굴들은 괜찮아 보이지만 다른 얼굴들은 흐릿하게 보이는데, 이는 현재 3D 모델링에서 흔히 발생하는 문제입니다. 대형 모델이 무엇을 표현할 수 있을지는 직접 본 적이 없다면 상상도 할 수 없으니까요. 또한, 소셜 미디어에 활용하기 좋은 재미있는 내장 효과도 포함되어 있습니다. 다음으로, 좀 더 복잡한 증기 기관차를 살펴보겠습니다. 보시다시피, 이번에는 모델링 정확도가 다소 떨어집니다. 기차의 기계적 세부 사항이 정확하게 재현되지 않았습니다. 다중 객체 모델링을 테스트해 보겠습니다. 성능이 매우 좋습니다. LEGO 미니피규어 모델링 효과가 꽤 좋은 것을 확인할 수 있습니다. 그럼 장면 모델링은 어떨까요? 계단을 만들어 볼까요... 아, 이런, 이 착시 효과는 너무 강하네요. 계단을 플랫폼으로 모델링했거든요. 마지막으로, 이미지를 사용하여 3D 캐릭터 포즈를 생성합니다. 먼저 싱글 플레이어 장면을 업로드하겠습니다. 효과가 훌륭합니다. 캐릭터의 포즈가 매우 사실적으로 표현된 것을 보실 수 있습니다. 좀 더 복잡하게 만들어 보겠습니다. 캐릭터 수를 늘리고 이미지에 방해 요소를 몇 개 추가해 보겠습니다. 완벽하네요! 캐릭터 포즈가 여전히 제대로 표현된 것을 보실 수 있습니다. 이미지 속 세 번째 인물도 가려져 있습니다. 물론 몇 가지 단점도 있습니다. 예를 들어, 캐릭터의 복부가 치마에 가려져 모델링에 문제가 있습니다. 농구처럼 복잡한 장면에서도 모델링이 매우 정확합니다. 가려진 캐릭터의 모델링도 매우 정확합니다. 좀 더 복잡한 예로, 엄청나게 많은 사람들이 있는 장면을 성공적으로 모델링했습니다. 하지만 이 장면에도 몇 가지 문제가 있었습니다. 실제로는 모두 바닥에 누워 있었지만, 모델이 원근법을 잘못 이해하여 모두가 서로 다른 높이의 경사면에 서 있는 것처럼 보이게 했습니다. 요약하다 네 가지 모드 중 가장 좋은 것은 이미지-3D 캐릭터 포즈 생성이고, 그 다음으로 이미지 콘텐츠 인식, 비디오 콘텐츠 인식 순이며, 가장 나쁜 것은 이미지-3D 모델 생성입니다. 그럼에도 불구하고, 이 모델은 업계에서 상당한 발전을 보여줍니다. #샘3 #메타
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.