메타가 자사의 'Segment Anything' 컬렉션에 두 가지 강력한 모델, SAM 3와 SAM 3D를 새롭게 추가했습니다.
이름에서 알 수 있듯 하나는 이미지를 더 똑똑하게 이해하고, 다른 하나는 평면을 입체로 만들어주는 기술입니다.
이 두 모델이 시각 AI 분야를 어떻게 바꾸고 있는지, 그리고 우리에게 어떤 이득을 주는지 핵심만 추려 정리했습니다.
1. SAM 3: 이제는 '개념'을 이해하고 찾아냅니다
기존의 AI 모델들이 단순히 "이 영역은 객체다"라고 인식했다면, SAM 3는 한 단계 더 나아갔습니다.
바로 '프롬프트 기반 개념 분할(Promptable Concept Segmentation)' 기능을 탑재한 것인데요.
이게 무슨 말이냐고요?
예를 들어, 비디오에서 단순히 자동차를 찾는 게 아니라 **"노란색 스쿨버스"**라고 텍스트를 입력하면,
SAM 3는 영상 내에 있는 모든 노란색 스쿨버스를 식별하고 분할해냅니다.
텍스트뿐만 아니라 클릭이나 예시 영역 지정 같은 다양한 프롬프트도 찰떡같이 알아듣습니다.
즉, 단순한 픽셀 덩어리가 아니라 **'시각적 개념'**을 이해한다는 뜻입니다.
- 성능 업그레이드: 객체를 감지하고 추적하는 정확도가 훨씬 좋아졌습니다.
- 활용 분야: 비디오 편집자가 특정 사물만 따내거나, 로봇이 복잡한 환경에서 특정 도구를 찾는 일 등이 훨씬 쉬워질 겁니다. SA-Co라는 방대한 데이터셋으로 공부했으니 똑똑할 수밖에 없죠.

2. SAM 3D: 사진 한 장이면 3D 모델이 뚝딱
SAM 3가 보는 눈을 키웠다면, SAM 3D는 상상력을 키웠습니다.
단 한 장의 2D 이미지만 있으면, 3D 형태와 질감, 공간 배치까지 포함된 완전한 3D 모델을 만들어냅니다.
가장 놀라운 점은 **'보이지 않는 부분'**을 처리하는 능력입니다.
사진 속 의자가 책상에 살짝 가려져 있거나 뒷면이 안 보여도 상관없습니다.
SAM 3D는 시각적 단서를 통해 가려진 부분을 지능적으로 예측해서 채워 넣습니다.
네, AI가 알아서 '상상'해서 그려주는 건데 꽤나 그럴싸합니다.
(물론 없는 걸 만들어내는 거니 가끔 창의력이 과할 수도 있겠지만요.)
SAM 3D는 크게 두 가지 전문 모델로 나뉩니다.
- SAM 3D Objects: 일상적인 사물을 재구성하는 데 특화되어 있습니다. 페이스북 마켓플레이스의 "가상 배치(View in Room)" 기능이 바로 이 기술을 씁니다. 내 방 사진에 중고 소파를 3D로 띄워볼 수 있다는 얘기죠.
- SAM 3D Body: 사람의 자세나 형태를 추정하는 모델입니다. 복잡한 환경에서도 인체의 움직임을 정확하게 잡아냅니다.

기술적 특징과 요약
무엇보다 속도가 깡패입니다. 보통 3D 모델링은 시간이 꽤 걸리는 작업인데, SAM 3D는 약 10초면 결과물을 내놓습니다. 컵라면 물이 끓기도 전에 3D 모델 하나가 나오는 셈이죠.
- 작동 원리: DINOv2로 특징을 뽑아내고, 이를 폴리곤 메시나 가우시안 스플랫으로 변환합니다.
- 오픈 소스: 메타는 이 기술을 쿨하게 오픈 소스로 풀었습니다. 개발자나 연구자라면 누구나 모델 체크포인트와 코드를 받아볼 수 있습니다.
한 줄 평: 메타는 이제 이미지를 '보는' 것을 넘어, 그 안의 개념을 읽고 보이지 않는 뒷면까지 그려내기 시작했습니다. AR, 게임, 로봇 공학 등 3D 콘텐츠가 필요한 모든 곳에서 이 기술들이 꽤나 유용하게 쓰일 것 같네요.
직접 테스트해보고 싶다면 메타의 Segment Anything Playground를 방문해 보세요.
'정보 공유' 카테고리의 다른 글
| 삼성전자 13Gbps HBM4: AI 병목을 뚫어버린 '진짜' 광대역의 등장 (0) | 2026.02.22 |
|---|---|
| 메타 레이밴 스마트 글래스: 스마트폰 없는 세상을 꿈꾸다 (1) | 2026.02.22 |
| 구글의 새로운 실험, AI 브라우저 'Disco'가 온다 (2) | 2026.02.21 |
| 코딩? 이제 '말'로 합니다: 바이브코딩과 구글 오팔이 여는 세상 (0) | 2026.02.20 |
| 카카오 옴니모달 AI '카나나-o' API 베타, 지금이 기회입니다 (0) | 2026.02.20 |