AI 게이트웨이에서 제공자를 비용·지연·처리량 기준으로 정렬

발행: (2026년 5월 15일 AM 09:00 GMT+9)
5 분 소요

Source: Vercel Blog

이제 .AI Gateway에서 모델 뒤에 있는 제공자를 비용, 첫 토큰 도착 시간(TTFT), 또는 처리량(TPS) 기준으로 정렬할 수 있습니다.
기본 제공자 순서는 제공자의 신뢰성, 모델 출력 품질, 비용, 응답 속도를 모두 고려합니다. 이제 를 사용해 정렬 기준을 명시적으로 제어할 수 있습니다.sort
많은 제공자를 보유하고 비용이나 속도 차이가 크게 나는 모델의 경우, 를 활용해 원하는 차원에 맞게 최적화할 수 있습니다. 순위는 요청 시점에 계산되므로 새로 추가된 제공자, 가격 변동, 관측된 지연 시간이나 처리량 변화가 자동으로 반영됩니다. 코드 수정이 필요 없습니다.sort
다음 중 하나의 값을 사용해 를 설정합니다:
sortproviderOptions.gateway
선택한 메트릭에 맞게 최적화하려면 를 사용하세요.sort

예시에서는 AI Gateway이 에 대해 5개 이상의 제공자를 보유하고 있으며 가격이 서로 다릅니다. 따라서 비용 기준으로 정렬하면 가장 저렴한 제공자를 통해 라우팅하려는 요청에 유용합니다. GPT OSS 120B
제공자는 정렬된 순서대로 시도됩니다. 상위 제공자가 사용 불가능한 경우에만 다음 제공자로 폴백됩니다.
는 Zero Data Retention(ZDR)과 같은 다른 게이트웨이 라우팅 옵션과도 호환됩니다.sort

아래 예시는 대화형 요청에서 지연 시간과 데이터 보존이 중요한 경우에 를 사용합니다. AI Gateway은 에 대해 데이터 보존이 없는 제공자만 필터링한 뒤, 남은 제공자를 첫 토큰 도착 시간(TTFT) 기준으로 정렬합니다. deepseek/deepseek-v4-proDeepseek V4 Pro
또한 와 함께 사용할 수 있습니다: 에 나열된 제공자는 앞쪽으로 이동하고, 나머지 제공자는 요청된 정렬 기준을 따릅니다.sortorderorder

각 요청이 어디에 도달했는지 정확히 확인할 수 있습니다. 모든 응답에는 라우팅 메타데이터에 블록이 포함되어, 고려된 제공자, 순위에 사용된 메트릭 값, 시도된 순서, 그리고 상태가 악화돼 우선순위가 낮아진 제공자를 보여줍니다.sort
AI Gateway을 통한 정렬에 대한 자세한 내용은 .documentation 을 참고하세요.
Read more

ValueDescriptionDirectionWhen to use
cost제공자가 명시한 백만 토큰당 입력 가격 기준 정렬가격이 낮은 순대용량이면서 비용에 민감한 작업
ttft중간값 기준 첫 토큰 도착 시간(ms) 정렬지연 시간이 낮은 순응답 속도가 중요한 지연 민감 워크로드
tps중간값 기준 초당 토큰 처리량 정렬처리량이 높은 순전체 응답 시간이 가장 중요한 장시간 출력 생성

Basic usage

Combine with other routing controls

Inspecting routing decisions

0 조회
Back to Blog

관련 글

더 보기 »