OpenWebUI에서 `chat_template_kwargs`를 사용해 추론 강도 설정

발행: 9시간 전 (2026년 1월 20일 오전 11:50 GMT+9)

3 min read

Source: Dev.to

OpenWebUI에서 추론 강도 제어하기

llama.cpp 로 모델을 실행하고 OpenAI 호환 API를 통해 OpenWebUI에서 접근할 때, chat_template_kwargs 라는 사용자 정의 매개변수를 전송함으로써 모델이 “얼마나 강하게” 추론하는지를 제어할 수 있습니다. 이 매개변수에는 low, medium, high 와 같은 reasoning_effort 설정을 포함시킬 수 있습니다.

많은 llama.cpp 기반 배포에서는 채팅 템플릿에 전달되는 값에 따라 모델의 추론 행동이 달라집니다. 프롬프트만으로 추론 강도를 강제하려고 하기보다 chat_template_kwargs 를 통해 reasoning_effort 를 전달하는 것이 더 직접적이고 예측 가능한 제어 방법을 제공합니다. OpenWebUI는 모델 설정에서 이러한 사용자 정의 매개변수를 전송하는 것을 지원하며, 이 방법은 공식 통합 가이드(OpenVINO 문서)에서도 소개됩니다.

설정 단계

Admin Panel → Settings → Models 로 이동합니다.
설정하려는 모델을 선택하고 Advanced Params 를 엽니다.
+ Add Custom Parameter 를 클릭합니다.
다음과 같이 필드를 입력합니다:
- Parameter name: chat_template_kwargs
- Value:
```
{"reasoning_effort": "high"}
```
  (필요에 따라 "high" 를 "medium" 또는 "low" 로 교체하세요.)
변경 사항을 저장합니다.

저장하면 OpenWebUI는 llama.cpp OpenAI‑compatible 엔드포인트에 요청을 보낼 때 이 매개변수를 포함시켜, 사용자가 프롬프트를 일일이 조정하지 않아도 일관되게 설정을 적용합니다.

추론 수준

레벨	설명
low	응답이 빠르고 다단계 추론이 얕습니다.
medium	성능과 추론 깊이의 균형을 이룹니다.
high	보다 철저한 추론을 수행하지만 내부적으로 더 느리고 상세해질 수 있습니다.

실용 팁: 먼저 medium 으로 시작하고, 복잡한 작업에 정말 깊은 추론이 필요할 때만 high 로 올리는 것이 좋습니다.

OpenWebUI에서 `chat_template_kwargs`를 사용해 추론 강도 설정

OpenWebUI에서 추론 강도 제어하기

설정 단계

추론 수준

관련 글

FunctionGemma 파인튜닝 가이드

일론 머스크, AI5 칩 설계가 ‘좋은 상태’가 되면서 Dojo3 ‘space’ 슈퍼컴퓨터 프로젝트를 재시작 — 엔비디아의 도움 없이 전부 자체 하드웨어를 갖춘 최초의 테슬라 제작 슈퍼컴퓨터가 될 예정

중국의 AI 남자친구 사업이 자체적인 생명을 얻고 있다

수천 개 기업이 중국의 AI 붐을 주도하고 있다. 정부 레지스트리가 모두 추적한다.