OpenWebUI에서 `chat_template_kwargs`를 사용해 추론 강도 설정

발행: (2026년 1월 20일 오전 11:50 GMT+9)
3 min read
원문: Dev.to

Source: Dev.to

OpenWebUI에서 추론 강도 제어하기

llama.cpp 로 모델을 실행하고 OpenAI 호환 API를 통해 OpenWebUI에서 접근할 때, chat_template_kwargs 라는 사용자 정의 매개변수를 전송함으로써 모델이 “얼마나 강하게” 추론하는지를 제어할 수 있습니다. 이 매개변수에는 low, medium, high 와 같은 reasoning_effort 설정을 포함시킬 수 있습니다.

많은 llama.cpp 기반 배포에서는 채팅 템플릿에 전달되는 값에 따라 모델의 추론 행동이 달라집니다. 프롬프트만으로 추론 강도를 강제하려고 하기보다 chat_template_kwargs 를 통해 reasoning_effort 를 전달하는 것이 더 직접적이고 예측 가능한 제어 방법을 제공합니다. OpenWebUI는 모델 설정에서 이러한 사용자 정의 매개변수를 전송하는 것을 지원하며, 이 방법은 공식 통합 가이드(OpenVINO 문서)에서도 소개됩니다.

설정 단계

  1. Admin PanelSettingsModels 로 이동합니다.

  2. 설정하려는 모델을 선택하고 Advanced Params 를 엽니다.

  3. + Add Custom Parameter 를 클릭합니다.

  4. 다음과 같이 필드를 입력합니다:

    • Parameter name: chat_template_kwargs

    • Value:

      {"reasoning_effort": "high"}

      (필요에 따라 "high""medium" 또는 "low" 로 교체하세요.)

  5. 변경 사항을 저장합니다.

저장하면 OpenWebUI는 llama.cpp OpenAI‑compatible 엔드포인트에 요청을 보낼 때 이 매개변수를 포함시켜, 사용자가 프롬프트를 일일이 조정하지 않아도 일관되게 설정을 적용합니다.

추론 수준

레벨설명
low응답이 빠르고 다단계 추론이 얕습니다.
medium성능과 추론 깊이의 균형을 이룹니다.
high보다 철저한 추론을 수행하지만 내부적으로 더 느리고 상세해질 수 있습니다.

실용 팁: 먼저 medium 으로 시작하고, 복잡한 작업에 정말 깊은 추론이 필요할 때만 high 로 올리는 것이 좋습니다.

Back to Blog

관련 글

더 보기 »

FunctionGemma 파인튜닝 가이드

markdown 2026년 1월 16일 Agentic AI 세계에서, tools를 호출하는 능력은 natural language를 executable software actions로 변환합니다. 지난 달 우리는 출시했습니다...