OpenWebUI에서 `chat_template_kwargs`를 사용해 추론 강도 설정
Source: Dev.to
OpenWebUI에서 추론 강도 제어하기
llama.cpp 로 모델을 실행하고 OpenAI 호환 API를 통해 OpenWebUI에서 접근할 때, chat_template_kwargs 라는 사용자 정의 매개변수를 전송함으로써 모델이 “얼마나 강하게” 추론하는지를 제어할 수 있습니다. 이 매개변수에는 low, medium, high 와 같은 reasoning_effort 설정을 포함시킬 수 있습니다.
많은 llama.cpp 기반 배포에서는 채팅 템플릿에 전달되는 값에 따라 모델의 추론 행동이 달라집니다. 프롬프트만으로 추론 강도를 강제하려고 하기보다 chat_template_kwargs 를 통해 reasoning_effort 를 전달하는 것이 더 직접적이고 예측 가능한 제어 방법을 제공합니다. OpenWebUI는 모델 설정에서 이러한 사용자 정의 매개변수를 전송하는 것을 지원하며, 이 방법은 공식 통합 가이드(OpenVINO 문서)에서도 소개됩니다.
설정 단계
-
Admin Panel → Settings → Models 로 이동합니다.
-
설정하려는 모델을 선택하고 Advanced Params 를 엽니다.
-
+ Add Custom Parameter 를 클릭합니다.
-
다음과 같이 필드를 입력합니다:
-
Parameter name:
chat_template_kwargs -
Value:
{"reasoning_effort": "high"}(필요에 따라
"high"를"medium"또는"low"로 교체하세요.)
-
-
변경 사항을 저장합니다.
저장하면 OpenWebUI는 llama.cpp OpenAI‑compatible 엔드포인트에 요청을 보낼 때 이 매개변수를 포함시켜, 사용자가 프롬프트를 일일이 조정하지 않아도 일관되게 설정을 적용합니다.
추론 수준
| 레벨 | 설명 |
|---|---|
| low | 응답이 빠르고 다단계 추론이 얕습니다. |
| medium | 성능과 추론 깊이의 균형을 이룹니다. |
| high | 보다 철저한 추론을 수행하지만 내부적으로 더 느리고 상세해질 수 있습니다. |
실용 팁: 먼저 medium 으로 시작하고, 복잡한 작업에 정말 깊은 추론이 필요할 때만 high 로 올리는 것이 좋습니다.