정보 공유

메타(Meta)가 그리는 시각 AI의 미래: SAM 3와 SAM 3D

sglee6484 2026. 2. 21. 14:20

메타가 자사의 'Segment Anything' 컬렉션에 두 가지 강력한 모델, SAM 3SAM 3D를 새롭게 추가했습니다.

 

이름에서 알 수 있듯 하나는 이미지를 더 똑똑하게 이해하고, 다른 하나는 평면을 입체로 만들어주는 기술입니다.

 

이 두 모델이 시각 AI 분야를 어떻게 바꾸고 있는지, 그리고 우리에게 어떤 이득을 주는지 핵심만 추려 정리했습니다.


1. SAM 3: 이제는 '개념'을 이해하고 찾아냅니다

기존의 AI 모델들이 단순히 "이 영역은 객체다"라고 인식했다면, SAM 3는 한 단계 더 나아갔습니다.

 

바로 '프롬프트 기반 개념 분할(Promptable Concept Segmentation)' 기능을 탑재한 것인데요.

 

이게 무슨 말이냐고요?

 

예를 들어, 비디오에서 단순히 자동차를 찾는 게 아니라 **"노란색 스쿨버스"**라고 텍스트를 입력하면,

 

SAM 3는 영상 내에 있는 모든 노란색 스쿨버스를 식별하고 분할해냅니다.

 

텍스트뿐만 아니라 클릭이나 예시 영역 지정 같은 다양한 프롬프트도 찰떡같이 알아듣습니다.

 

즉, 단순한 픽셀 덩어리가 아니라 **'시각적 개념'**을 이해한다는 뜻입니다.

 

  • 성능 업그레이드: 객체를 감지하고 추적하는 정확도가 훨씬 좋아졌습니다.
  • 활용 분야: 비디오 편집자가 특정 사물만 따내거나, 로봇이 복잡한 환경에서 특정 도구를 찾는 일 등이 훨씬 쉬워질 겁니다. SA-Co라는 방대한 데이터셋으로 공부했으니 똑똑할 수밖에 없죠.

2. SAM 3D: 사진 한 장이면 3D 모델이 뚝딱

SAM 3가 보는 눈을 키웠다면, SAM 3D는 상상력을 키웠습니다.

 

단 한 장의 2D 이미지만 있으면, 3D 형태와 질감, 공간 배치까지 포함된 완전한 3D 모델을 만들어냅니다.

 

가장 놀라운 점은 **'보이지 않는 부분'**을 처리하는 능력입니다.

 

사진 속 의자가 책상에 살짝 가려져 있거나 뒷면이 안 보여도 상관없습니다.

 

SAM 3D는 시각적 단서를 통해 가려진 부분을 지능적으로 예측해서 채워 넣습니다.

 

네, AI가 알아서 '상상'해서 그려주는 건데 꽤나 그럴싸합니다.

(물론 없는 걸 만들어내는 거니 가끔 창의력이 과할 수도 있겠지만요.)

 

SAM 3D는 크게 두 가지 전문 모델로 나뉩니다.

  • SAM 3D Objects: 일상적인 사물을 재구성하는 데 특화되어 있습니다. 페이스북 마켓플레이스의 "가상 배치(View in Room)" 기능이 바로 이 기술을 씁니다. 내 방 사진에 중고 소파를 3D로 띄워볼 수 있다는 얘기죠.
  • SAM 3D Body: 사람의 자세나 형태를 추정하는 모델입니다. 복잡한 환경에서도 인체의 움직임을 정확하게 잡아냅니다.

기술적 특징과 요약

무엇보다 속도가 깡패입니다. 보통 3D 모델링은 시간이 꽤 걸리는 작업인데, SAM 3D는 약 10초면 결과물을 내놓습니다. 컵라면 물이 끓기도 전에 3D 모델 하나가 나오는 셈이죠.

  • 작동 원리: DINOv2로 특징을 뽑아내고, 이를 폴리곤 메시나 가우시안 스플랫으로 변환합니다.
  • 오픈 소스: 메타는 이 기술을 쿨하게 오픈 소스로 풀었습니다. 개발자나 연구자라면 누구나 모델 체크포인트와 코드를 받아볼 수 있습니다.

한 줄 평: 메타는 이제 이미지를 '보는' 것을 넘어, 그 안의 개념을 읽고 보이지 않는 뒷면까지 그려내기 시작했습니다. AR, 게임, 로봇 공학 등 3D 콘텐츠가 필요한 모든 곳에서 이 기술들이 꽤나 유용하게 쓰일 것 같네요.

직접 테스트해보고 싶다면 메타의 Segment Anything Playground를 방문해 보세요.