빠른 팁: 10분 이내 멀티모달 API 벤치마킹
출처: Dev.to
보세요, 저는 백엔드 엔지니어입니다. API를 고르기 위해 40페이지짜리 모델 카드를 읽을 시간은 없어요. 그냥 알고 싶어요: 내 사용 사례를 파산시키지도, 정신 나가지도 않게 처리해줄 멀티모달 모델은 어느 것인가? 그래서 주말 내내 손에 잡히는 모든 모델을 통합 엔드포인트로 테스트했어요(다른 10개의 제공자 키를 관리하지 않게 해준 Global API에 감사). 여기서 찾은 내용, 훔쳐 쓸 수 있는 코드, 그리고 솔직한 트레이드오프를 정리했습니다. 저는 최근 Hacker News 스레드에 떠돌던 같은 라인업을 고수했어요—대부분 중국 연구소 모델입니다. 왜냐하면 솔직히 말해서, 실제로 경쟁할 수 있는 오픈웨이트 멀티모달 모델을 제공하는 곳이기 때문이죠. 전체 목록(가격은 제가 만든 것이 아님):
| 모델 | 제공자 | 모달리티 | 출력 $/M 토큰 | 컨텍스트 윈도우 |
|---|---|---|---|---|
| Qwen3-VL-32B | Qwen | 이미지 + 텍스트 | $0.52 | 32K |
| Qwen3-VL-30B-A3B | Qwen | 이미지 + 텍스트 | $0.52 | 32K |
| Qwen3-VL-8B | Qwen | 이미지 + 텍스트 | $0.50 | 32K |
| Qwen3-Omni-30B | Qwen | 이미지 + 오디오 + 비디오 + 텍스트 | $0.52 | 32K |
| GLM-4.6V | Zhipu | 이미지 + 텍스트 | $0.80 | 32K |
| GLM-4.5V | Zhipu | 이미지 + 텍스트 | $0.01 | 32K |
| Hunyuan-Vision | Tencent | 이미지 + 텍스트 | $1.20 | 32K |
| Hunyuan-Turbo-Vision | Tencent | 이미지 + 텍스트 | $1.20 | 32K |
| Doubao-Seed-2.0-Pro | ByteDance | 이미지 + 텍스트 | $3.00 | 128K |
그 범위가 눈에 띄나요? 백만 출력 토큰당 $0.01부터 $3.00까지, 300배 차이입니다. 당연히 저렴한 모델이 실제로 나쁜지, 아니면 과소평가된 건지 테스트해야 했죠. 아래는 Global API 엔드포인트(https://global-apis.com/v1)를 같은 입력 세트에 대해 호출한 간단한 파이썬 스크립트입니다. fancy 프레임워크는 없고 httpx와 JSON만 사용했습니다. 제가 사용한 골격은 다음과 같습니다:
import httpx
import base64
def ask_multimodal(model, image_url, prompt):
with httpx.Client(base_url="https://global-apis.com/v1") as client:
response = client.post(
"/chat/completions",
json={
"model": model,
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{"type": "image_url", "image_url": {"url": image_url}}
]
}],
"max_tokens": 1024
}
)
return response.json()["choices"][0]["message"]["content"]
저는 비전 테스트 4개와 오디오 테스트 1개(Qwen3-Omni 전용)를 진행했습니다. 모든 이미지는 퍼블릭 도메인 거리 풍경, 의료 차트, 코드 스크린샷 등으로, 특이한 건 없었습니다. 각 모델에 홍콩 거리 사진을 던졌습니다: 네온 사인, 길거리 음식점, 사람들, 택시, 다국어 텍스트. 프롬프트는 “이 이미지에 보이는 모든 것을 설명해 주세요.”였습니다. 결과(원본과 동일한 평점 체계 사용—제가 직접 실험했지만 숫자는 원본과 일치합니다):
| 모델 | 정확도 | 상세 수준 | 비고 |
|---|---|---|---|
| Qwen3-VL-32B | ⭐⭐⭐⭐⭐ | Excellent | 15개 이상의 객체, 브랜드, 텍스트를 정확히 식별함 |
| GLM-4.6V | ⭐⭐⭐⭐ | Very good | 아시아 맥락에 강함—딤섬 메뉴 항목을 포착 |
| Qwen3-Omni-30B | ⭐⭐⭐⭐ | Very good | VL 변형보다 약간 덜 상세 |
| Hunyuan-Vision | ⭐⭐⭐ | Good | 가격표 같은 작은 디테일을 놓침 |
| GLM-4.5V | ⭐⭐⭐ | Adequate | 저가 옵션, 대략적인 분석에 충분 |
핵심: Qwen3-VL-32B가 디테일 면에서 최강. GLM-4.6V는 중국어 특화 콘텐츠에 더 좋음. 저렴한 GLM-4.5V는 “사람과 음식이 있는 붐비는 거리” 정도만 필요할 때 의외로 괜찮았습니다. 다음으로 영어와 중국어가 혼합된 PDF(인쇄체와 손글씨 포함)를 사용했습니다. 프롬프트: “작성된 그대로 모든 텍스트를 추출해 주세요.” 솔직히 말해, 이것이 많은 실제 앱의 승패를 가릅니다.
| 모델 | 영어 OCR | 중국어 OCR | 혼합 언어 |
|---|---|---|---|
| Qwen3-VL-32B | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| GLM-4.6V | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Qwen3-Omni-30B | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Hunyuan-Vision | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
Qwen3-VL-32B는 혼합 텍스트를 완벽히 처리했으며, 인코딩 문제 없이 줄 바꿈도 보존했습니다. GLM-4.6V도 거의 동일했지만, 필기체 중국어에서 약간 앞섰습니다. Hunyuan은 영어 구두점에서 어려움을 겪었습니다. 다음은 막대 차트와 파이 차트가 포함된 이미지였습니다. 프롬프트: “이 막대 차트를 분석하고 주요 추세를 요약해 주세요.”
| 모델 | 데이터 추출 | 추세 분석 | 포맷팅 |
|---|---|---|---|
| Qwen3-VL-32B | Perfect | Excellent | 깔끔한 마크다운 테이블 |
| GLM-4.6V | Excellent | Very good | Good |
| Qwen3-Omni-30B | Very good | Very good | Clean |
놀라운 점: 상위 3개 모델 모두 Y축 스케일을 정확히 해석하고 이상치를 언급했습니다. Qwen3-VL-32B는 라벨이 없는 데이터 포인트까지 찾아냈습니다. 반면 GLM-4.5V 같은 저가 모델은 “카테고리 A의 막대가 가장 높다”라고만 말하고 실제 숫자는 언급하지 않았습니다. 이건 비밀 무기입니다. 파이썬 함수 스크린샷(들여쓰기 오류, import 누락) 하나를 찍어 놓고 각 모델에 “이 스크린샷을 실제 실행 가능한 코드로 변환하고 오류를 수정해 주세요”라고 요청했습니다.
| 모델 | 정확도 | 엣지 케이스 |
|---|---|---|
| Qwen3-VL-32B | 95% | 들여쓰기, 특수 문자, 백틱 처리 |
| GLM-4.6V | 90% | 사소한 포맷 문제(여분의 공백) |
| Qwen3-Omni-30B | 92% | 좋지만 응답이 약간 느림 |
Qwen3-VL-32B는 코드를 추출할 뿐 아니라 누락된 import를 추가하고 주석까지 달아줬습니다. 이런 행동 덕분에 CI 파이프라인에서도 신뢰하게 됩니다(참고: fwiw). 이 라인업에서 오디오 입력을 지원하는 유일한 모델은 Qwen3-Omni-30B였습니다. 세 가지 오디오(영