네이티브 바운딩 박스, 비전 개발자들의 모든 것을 바꾼다

발행: 3일 전 (2026년 6월 12일 AM 02:01 GMT+9)

5 분 소요

Source: Dev.to

잠깐 동안만 해도, 이미지 안에서 객체가 정확히 어디에 있는지를 AI에게 알려달라고 하는 것은 완전한 설계 악몽이었습니다. 프롬프트를 이해하기 위해 거대한 LLM을 연결하고, 그 출력을 YOLO 같은 전용 컴퓨터 비전 모델이나 CNN에 파이프해서 몇 개의 좌표만 추출해야 했죠.
Gemini는 네이티브 바운딩 박스(bbox) 기능으로 완전히 판을 뒤집었습니다. 공간 추적을 완전히 별개의 데이터 과학 문제로 다루는 대신, 좌표를 별도의 파이프라인 없이 자체 어휘의 일부로 취급합니다.

전통적인 객체 탐지 모델을 사용해 본 적이 있다면, 그 모델이 고정된 사전(dictionary)에 얽매여 있다는 것을 알 수 있습니다. 표준 COCO 데이터셋으로 모델을 학습시키면 정확히 80가지 항목만을 인식합니다: “car”, “dog”, “banana” 등. “범퍼의 움푹 들어간 부분”이나 “이 고대 원고의 서명” 같은 것을 찾으라고 하면 완전히 멍해집니다.

Gemini는 오픈 보카뷸러리 객체 탐지를 제공합니다. 공간 이해가 멀티모달 코어에 직접 내장돼 있기 때문에, 사람처럼 자연스럽게 프롬프트를 할 수 있습니다:
“익어 보이는 초록 사과를 모두 찾아줘.”
모델은 이미지를 파싱하고 구조화된 텍스트 좌표를 바로 반환합니다. 별도의 특수 학습이나 맞춤 파인튜닝이 필요 없습니다.

각 이미지마다 해상도가 다르기 때문에 원시 픽셀 수를 추측하는 것은 골칫거리였지만, Gemini는 모든 사진을 가상의 1000 × 1000 그리드로 정규화합니다.
반환되는 형식은 항상 정수 시퀀스로 구성됩니다: [ymin, xmin, ymax, xmax].

원점(Origin): 이미지의 좌상단은 [0, 0].
경계(Bounds): 이미지의 우하단은 [1000, 1000].

Gemini의 출력을 실제 이미지에 매핑하는 수식은 매우 간단합니다. 좌표를 1000으로 나눈 뒤 이미지의 실제 너비·높이와 곱하면 됩니다:

Pixel_X = (xmin_or_xmax / 1000) * Image_Width
Pixel_Y = (ymin_or_ymax / 1000) * Image_Height

다른 기본 모델들은 파이썬 스크립트를 작성해 이미지를 자르거나 대략적인 위치 설명을 제공할 수 있지만, Gemini가 네이티브하게 원시 구조화 좌표를 반환한다는 점은 소프트웨어 구축 방식을 완전히 바꿉니다.
사용자 포커스나 객체 중요도에 따라 UI 요소를 동적으로 강조하고, 에이전트가 2D 프레임 투영을 이용해 3D 매핑된 공간에서 정확히 물체를 찾게 하며, 표, 시각적 콜아웃, 폼 필드 등에 대해 맞춤 OCR 학습 없이 정밀한 바운딩 박스를 추출하고, “깨진 로그인 버튼 아이콘”을 찾아 프로그램적으로 클릭할 수 있는 좌표를 바로 반환하도록 할 수 있습니다.

모델에게 진정으로 “보는” 방법을 가르치는 것은 측정하는 법을 가르치는 것과 같습니다. Gemini의 bbox 기능은 비전의 미래가 단순히 방 안에 무엇이 있는지를 라벨링하는 것이 아니라, 정확히 어디에 위치하는지를 아는 것임을 증명합니다.

네이티브 바운딩 박스, 비전 개발자들의 모든 것을 바꾼다

관련 글

자체 호스팅 LLM 에이전트 군단 신뢰성 확보

인지적 부채: AI가 만든 코드의 숨은 비용

README가 거짓말을 하니, 병합할 때마다/docs PR를 여는 봇을 만들었다.

RTO vs RPO vs MTTR vs MTBF: the Security+ metrics people mix up, and how to keep them straight