实验：重复使用是否会影响 RAG 类设置中的 ChatGPT 5.4 输出？

发布: 16小时前 (2026年5月4日 GMT+8 16:48)

3 分钟阅读

原文: Dev.to

Source: Dev.to

测试设置

我们一直在使用 ChatGPT 5.4 在网站聊天机器人中进行一系列实验，覆盖不同环境（主站）。目标是模拟真实用户行为，并观察模型随时间的响应。

该聊天机器人被设计为 仅基于网站内容作答（类似 RAG 的方法）。我们有意在长期内测试诸如产品对比等重复模式，以接近真实使用场景，而非合成基准。

观察

某时，一位真实用户问道：

“How can you help my ecommerce?”

回答是：

“I can help your e‑commerce by answering visitors …, for example asking how many people they cook for to recommend the right cast iron pot, or asking for a price range to help them find products …”

有趣之处

该回复与我们手动测试的交互模式高度吻合。它并非通用解释，而是采用了与我们测试场景相匹配的 引导式提问 风格。

可能的解释

Prompt conditioning over time – consistent system prompts combined with recurring user patterns may be influencing the model’s behavior.
- 随时间的提示条件化 —— 一致的系统提示与重复的用户模式相结合，可能正在影响模型的行为。

给构建者的更广泛问题

在结构化环境中部署 LLM（聊天机器人、RAG 系统、产品助理）时，重复的真实使用是否会以可衡量的方式影响输出？

还是我们仅仅因为一致的提示和上下文注入而观察到更好的对齐？

为什么这很重要

如果使用模式确实会影响输出（即使是间接的），那么测试就不只是评估——它成为系统持续适应的一部分。

对 RAG 流程的影响

您是否注意到类似的效果？
在重复的真实使用模式后，您的系统是否表现不同？

让我们交流经验。

实验：重复使用是否会影响 RAG 类设置中的 ChatGPT 5.4 输出？

测试设置

观察

有趣之处

可能的解释

给构建者的更广泛问题

为什么这很重要

对 RAG 流程的影响

相关文章

第3天：AI中的提示技术（第一部分）

AI 并不笨。你的设置才笨。 🛠️

使用 LLM 提高确定性：Prompting、模型选择、上下文和工具

如何使用 Claude 和 MCP 构建 LLM 维基