在 OpenWebUI 中使用 `chat_template_kwargs` 设置推理强度

发布: (2026年1月20日 GMT+8 10:50)
2 min read
原文: Dev.to

Source: Dev.to

在 OpenWebUI 中控制推理强度

当你通过 llama.cpp 运行模型,并通过 OpenAI 兼容的 API 从 OpenWebUI 访问时,可以通过发送名为 chat_template_kwargs 的自定义参数来控制模型“推理”的强度。该参数可以包含 reasoning_effort 设置,如 lowmediumhigh

在许多基于 llama.cpp 的部署中,模型的推理行为受传入聊天模板的值影响。与尝试通过提示词强制推理强度不同,通过 chat_template_kwargs 传递 reasoning_effort 提供了一种更直接且可预测的控制机制。OpenWebUI 支持在模型配置中发送此类自定义参数,官方集成指南(参见 OpenVINO 文档)也演示了这种做法。

配置步骤

  1. 打开管理员面板设置模型

  2. 选择要配置的模型并打开 高级参数

  3. 点击 + 添加自定义参数

  4. 按如下方式设置字段:

    • 参数名称: chat_template_kwargs

    • 值:

      {"reasoning_effort": "high"}

      (根据需要将 "high" 替换为 "medium""low"。)

  5. 保存更改。

保存后,OpenWebUI 将在发送到你的 llama.cpp OpenAI 兼容端点的请求中包含此参数,从而一致地应用配置,无需用户手动调整提示词。

推理等级

等级描述
low响应更快,多步骤推理深度较低。
medium性能与推理深度的平衡。
high推理更彻底,内部通常更慢且更冗长。

实用技巧: 首先使用 medium,仅在确实需要更深层次推理处理复杂任务时才切换到 high

Back to Blog

相关文章

阅读更多 »

FunctionGemma 微调指南

markdown 2026年1月16日 在 Agentic AI 的世界中,调用工具的能力将自然语言转换为可执行的软件操作。上个月我们发布了……

你不需要 CLAUDE.md

如何有效管理 CLAUDE.md / AGENTS.md 本文不涉及常规的 prompt‑engineering 基础,例如 “避免负面示例”、 “设置 LLM r...”