在 OpenWebUI 中使用 `chat_template_kwargs` 设置推理强度
Source: Dev.to
在 OpenWebUI 中控制推理强度
当你通过 llama.cpp 运行模型,并通过 OpenAI 兼容的 API 从 OpenWebUI 访问时,可以通过发送名为 chat_template_kwargs 的自定义参数来控制模型“推理”的强度。该参数可以包含 reasoning_effort 设置,如 low、medium 或 high。
在许多基于 llama.cpp 的部署中,模型的推理行为受传入聊天模板的值影响。与尝试通过提示词强制推理强度不同,通过 chat_template_kwargs 传递 reasoning_effort 提供了一种更直接且可预测的控制机制。OpenWebUI 支持在模型配置中发送此类自定义参数,官方集成指南(参见 OpenVINO 文档)也演示了这种做法。
配置步骤
-
打开管理员面板 → 设置 → 模型。
-
选择要配置的模型并打开 高级参数。
-
点击 + 添加自定义参数。
-
按如下方式设置字段:
-
参数名称:
chat_template_kwargs -
值:
{"reasoning_effort": "high"}(根据需要将
"high"替换为"medium"或"low"。)
-
-
保存更改。
保存后,OpenWebUI 将在发送到你的 llama.cpp OpenAI 兼容端点的请求中包含此参数,从而一致地应用配置,无需用户手动调整提示词。
推理等级
| 等级 | 描述 |
|---|---|
| low | 响应更快,多步骤推理深度较低。 |
| medium | 性能与推理深度的平衡。 |
| high | 推理更彻底,内部通常更慢且更冗长。 |
实用技巧: 首先使用 medium,仅在确实需要更深层次推理处理复杂任务时才切换到 high。