에이전트가 두 개의 Hugging Face Spaces를 연결해 3D 파리 갤러리를 만든 방법

발행: 3일 전 (2026년 6월 9일 PM 07:46 GMT+9)

7 분 소요

출처: Hugging Face Blog

빌딩 블록 경제가 멀티미디어에 온다
모든 Space는 agents.md를 통한 빌딩 블록이다
실제 예시: 파리 기념물 → 스플랫
왜 중요한가
직접 해보기

한 에이전트가 두 개의 Hugging Face Spaces만으로 3D 파리 갤러리를 만들었습니다.

코딩 에이전트에게 파리의 기념물을 3D 가우시안 스플랫으로 보여주는 아름다운 웹사이트를 만들라고 요청했습니다. 이미지 생성기를 한 번도 열어본 적 없고, 3D 재구성 도구를 건드린 적도 없습니다. 에이전트는 두 개의 Hugging Face Spaces를 직접 호출해 이미지와 3D 스플랫을 모두 생성하고, 이를 시네마틱 뷰어에 연결했습니다.

결과는 정적 Space로 바로 확인할 수 있습니다:

👉 mishig/monuments-de-paris

이 글에서는 왜 지금 이런 것이 가능한지, 그리고 앞으로 멀티미디어 소프트웨어가 어떻게 구축될지에 대한 미리보기가 될 것이라고 생각하는 이유를 다룹니다.

빌딩 블록 경제가 멀티미디어에 온다

Mitchell Hashimoto는 최근 빌딩 블록 경제 라는 변화를 설명했습니다. 소프트웨어를 만드는 가장 효율적인 경로는 이제 다듬어진 단일 애플리케이션이 아니라, 작고 잘 문서화된 구성 요소들을 다른 사람(점점 더 에이전트)이 조합하는 방식이라는 것이죠. 그의 핵심 관찰은: AI는 처음부터 모든 것을 만드는 데는 그다지 뛰어나지 않지만, 검증된 조각들을 연결하는 데는 정말 뛰어나다는 점입니다. 이 논지는 주로 코드 라이브러리를 대상으로 이야기되었습니다. 하지만 같은 힘이 멀티미디어 AI에도 작용하고 있습니다. 최신 이미지 모델, 비디오 모델, TTS 모델, 3D 재구성 모델을 사용하는 가장 어려운 부분은 모델 자체가 아니라 통합이었습니다. SDK, 가중치, GPU, 입력 포맷, 폴링 등 말이죠. 만약 각 모델이 문서화된 호출 가능한 블록이라면, 에이전트는 npm 패키지를 모으듯이 이를 쉽게 연결할 수 있습니다.

바로 Hugging Face Spaces가 조용히 그런 역할을 하게 된 것입니다.

모든 Space는 `agents.md`를 통한 빌딩 블록이다

Hub에는 수천 개의 최신 모델이 호스팅되어 있으며(그 중 대부분이 오픈 웨이트), 대부분은 인터랙티브 Spaces 형태로 배포됩니다. 현재 모든 Gradio Space는 에이전트가 정확히 어떻게 호출해야 하는지를 알려주는 평문 agents.md 파일을 제공합니다:

curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

한 번에 필요한 모든 정보를 반환합니다: 스키마 URL, 호출 및 폴링 템플릿, 파일 업로드 방법, 인증 힌트 등:

API schema:   GET  .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
Poll result:  GET  .../gradio_api/call/{endpoint}/{event_id}
File inputs:  POST .../gradio_api/upload -F "files=@file.ext"
Auth:         Bearer $HF_TOKEN

클라이언트 라이브러리도, 하드코딩된 통합도 필요 없습니다. 에이전트는 이 정보를 읽고 Space를 처음부터 끝까지 제어할 수 있습니다. HF_TOKEN만 설정하면 바로 시작할 수 있죠.
핵심은 체이닝입니다: 한 Space의 출력이 다음 Space의 입력이 됩니다. 프롬프트 → 이미지 → 3D. 바로 이 파이프라인이 이번 갤러리를 만든 전 과정입니다.

실제 예시: 파리 기념물 → 스플랫

에이전트는 두 개의 Space를 체인했습니다:

이미지: ideogram-ai/ideogram4 가 각 기념물을 깔끔한 어두운 배경의 “표본” 사진으로 변환했습니다(에펠탑은 작은 받침대 위의 디오라마 형태). 프롬프트 입력 → 이미지 출력.
스플랫: VAST-AI/TripoSplat 가 각 단일 이미지로부터 3D 가우시안 스플랫(.ply)을 재구성했습니다. 이미지 입력 → 3D 출력.