키포인트에서 측정으로: 랜드마크만으로는 무용지물

발행: 3일 전 (2026년 6월 11일 AM 06:49 GMT+9)

5 분 소요

출처: Dev.to

모든 손 추적 데모는 21개의 점을 보여줍니다. 흥미로운 부분은 아무도 보여주지 않는, 점을 누군가가 행동할 수 있는 숫자로 바꾸는 과정입니다.

현대적인 손 추적 모델을 실행하면 손당 21개의 매우 안정적인 랜드마크를 초당 30프레임으로 얻을 수 있습니다. 인상적이지만 그 자체로는 쓸모가 없습니다. 고객이 점에 돈을 지불한 적은 없습니다. 그들은 측정값에 돈을 냅니다: 이 간격이 규정에 맞는가, 이 부품이 정렬됐는가, 이 환자의 운동 범위가 개선됐는가 등.

저는 전력 인프라 작업을 하면서 이를 배웠습니다. 여기서 최종 산출물은 “우리가 전선을 감지했다”가 아니라 그 전선의 부착 높이와 간격 규정을 위반했는지 여부였습니다. 키포인트는 세 단계 중 첫 번째 단계에 불과했습니다.

내 포트폴리오의 키포인트 데모는 매 프레임마다 손당 세 가지 측정값을 도출합니다:

const wrist = lm[0];
const palm = distance(wrist, lm[9]);          // 스케일 기준

const pinch = distance(lm[4], lm[8]) / palm;  // 엄지 끝 ↔ 검지 끝

핵심은 스케일 기준 라인입니다. 픽셀 거리 자체는 의미가 없습니다—카메라에 가까워질수록 변하기 때문이죠. 손바닥 길이(손목에서 중간 관절까지)로 나누면 거리 변화에 관계없이 안정적인 상대 측정값이 됩니다. 여기에 평균 성인 손바닥 길이(~8.5 cm)를 곱하면 대략적인 실제 간격으로 변환됩니다—데모에서는 집게 라인 위에 “≈ 3.2 cm”가 떠 있습니다. 인프라 작업에서는 표준 교차암, 전선 기둥 높이와 같은 알려진 물체 치수가 같은 역할을 합니다. 픽셀 기반 측정 시스템마다 반드시 ‘자’가 필요합니다.

손가락 개수 세기는 기하학적 테스트(각 손끝이 손목보다 중간 관절에서 더 멀리 있는가?)이며, “손 벌림”은 손끝 신전 정도를 평균합니다—각각 세 줄의 기하학이지만, 모델 출력을 사람이 즉시 이해할 수 있는 읽기값으로 변환합니다.

랜드마크는 MediaPipe 사전 학습 파이프라인(손바닥 탐지기 → 랜드마크 회귀기 → 제스처 분류기, float16, WASM + GPU 위임)에서 나옵니다—구글 모델이며 페이지에 크레딧이 표시됩니다. 제가 담당한 엔지니어링은 통합(지연 로딩, 렌더 루프, UI 스로틀링)과 그 위에 얹힌 측정 레이어입니다. 사전 학습 모델이 충분할 때와 자체 미세 조정이 필요할 때를 아는 것—예를 들어 전력 키포인트 작업에서 상용 모델은 교차암을 한 번도 본 적이 없었기에 직접 튜닝했듯이—이것이 적용 컴퓨터 비전에서 고위 판단의 대부분을 차지합니다.

당신의 분야가 무엇이든: 랜드마크 → 스케일 기준 → 상대 측정 → 임계값 → 결정. 마지막 단계, 숫자에서 결정으로의 전환이 바로 비즈니스 가치가 살아있는 곳입니다. 모델은 점점 상품화되고 있지만, 측정 시스템은 그렇지 않습니다.

시도해 보세요 (천천히 집게 동작을 하고 숫자를 확인하세요): rs-03.github.io/portfolio-website/demos

출처: github.com/rs-03/portfolio-website

키포인트에서 측정으로: 랜드마크만으로는 무용지물

관련 글

LongMemEval에서 메모리 방식이 전체 컨텍스트를 앞섰다 — 우리가 놓친 승리

Eidentic 소개

Typescript의 타입

AgentForge – AI 에이전트가 신뢰할 수 있는 코드를 배포하도록 하는 28가지 프로덕션 급 스킬