将对话追踪为页面浏览的问题

发布: 3天前 (2026年2月26日 GMT+8 13:48)

15 分钟阅读

原文: Dev.to

抱歉，我无法直接访问外部链接来获取文章内容。请您把需要翻译的文本粘贴在这里，我会按照您的要求将其翻译成简体中文并保留原有的格式。

Source: …

为什么基于事件的分析从未为对话式 AI 产品构建——以及该怎么做

将对话追踪视为页面浏览的难题

想象一下。 你是一个 AI 初创公司的产品经理，产品上线已六个月。周一早上打开仪表盘，一切看起来……还不错？

会话数环比增长 20 %。
平均会话时长为 4 分 30 秒。
日活跃用户（DAU）在上升。

你截个图，发到投资者更新的 Slack 频道。

然后你查看留存率。

指标	数值
第 4 周留存率	12 %
第 8 周留存率	4 %

用户出现、进行对话，却又消失。指标显示参与度很高，业务却觉得出了大问题。

没人会在你发布第一个 AI 产品时告诉你的事儿： 你把对话当成页面浏览来追踪，这正是你的仪表盘每天早上都在骗你的原因。

产品经理盯着指标仪表盘一脸困惑
^ 每个 AI 产品经理在周一早上看到数字看起来不错，却发现留存率直线下降时的情景

页面浏览量是为内容静止的世界而构建的

页面浏览量指标在 90 年代中期被发明，用来回答一个问题：有人看过这个东西吗？ 就是这么简单。

报纸印刷了一篇报道。
你打开它了吗？点击。页面浏览量被记录。
内容不会因为你的操作而改变。它就静静地摆在那里。要么你消费了它，要么没有。

这种思维模型蔓延到各个角落：点击、会话、页面停留时间、跳出率、页面深度。所有这些都建立在同一个基础假设之上：

产品是静态的工件，用户在其上移动。
参与度 = 消费。点击越多 = 参与度越高。参与度越高 = 价值越大。

这个假设支撑了 25 年。它造就了今天的分析体系。

然后我们推出了产品，产品本身会响应用户的输入。

整个前提崩塌了，而大多数团队还没有注意到。

对话不是静态的工件。
它是一个双向的、动态的交流，拥有内部结构。
含义存在于序列中：提出了什么问题，如何得到回答，随后发生了什么，用户是否得到了他们真正想要的东西。

这些都不会出现在天真的事件流中。

当你记录 `conversation_started` 和 `conversation_ended` 时会失去的东西

当你像为网页应用仪表化一样对 AI 产品进行仪表化时，事件日志看起来像这样：

conversation_started   { "user_id": 123, "timestamp": "10:04:12" }
message_sent           { "user_id": 123, "turn": 1 }
message_sent           { "user_id": 123, "turn": 2 }
message_sent           { "user_id": 123, "turn": 3 }
conversation_ended     { "user_id": 123, "duration": "4m32s" }

看起来合理。现在考虑三个非常不同的情景，它们产生 完全相同 的日志。

故事	叙述
A	用户提出一个编码问题，第一次就得到完美答案，随后提问跟进，得到澄清，说“谢谢”，满意离开。耗时 4 分钟。
B	用户提出一个编码问题，得到错误答案，重新表述，再次得到错误答案，再次重新表述，感到沮丧，在句子中途关闭标签页。会话因浏览器关闭而结束。
C	用户陷入幻觉循环。AI 自信地回答错误的问题。用户尝试三种不同的表述，最终放弃，去 Stack Overflow，在 90 秒内解决问题，再也没有回来。

所有三者产生 相同的事件日志——但结果却截然不同：

故事 A: 产品‑市场匹配。
故事 B: 质量问题。
故事 C: 正在流失。

你的仪表盘显示了三个“成功的” 4 分钟会话。

Surprised Pikachu
^ 我意识到这三个用户在 Amplitude 中看起来完全相同

从事件追踪中得出的指标在衡量错误的事

像 MAU、DAU、会话时长、对话深度 之类的指标都有同一个假设：活动越多 = 价值越大。它们是参与度的代理，而在产品是网站时，这种代理是有用的。

对于对话式 AI 产品，这个代理会以一种特定的方式失效。

问题	为什么会发生
卡在循环中的用户	高度活跃（消息多、会话时长长、回合数高）→ 被标记为活跃用户，但实际上只差一次糟糕的对话就会取消。
高效的活跃用户	简短、高效的对话 → 会话时长低、回合数低 → 被标记为普通用户，但他们已经获得了真正的产品价值。

我们使用 Agnost 追踪数百万次跨产品的对话，这一模式始终如一：会话时长最高的用户并不是最满意的用户；有时他们恰恰是最沮丧的那批。

快速对比

大多数团队追踪的内容	实际上它告诉你的
会话数量 – “启动了多少次对话？”	任务完成率 – “用户是否达成了他们的目标？”

右侧的列要求你理解 对话结构：不仅要知道是否有回合发生，还要了解 回合的类型、用户的意图，以及 他们是否成功。

正确的思维模型：对话是一次任务尝试

重新审视一切：

对话不是页面浏览。
它甚至不是传统意义上的会话。
对话是一种任务尝试。

用户带着意图出现，尝试完成某件事，结果要么成功要么失败。

问题不在于“他们是否进行过对话？”
而在于“他们是否完成了来此的任务？”

这就是评估客服人员的方式：你不统计他们打开了多少工单；而是统计他们 解决了多少工单。

应该跟踪的指标

指标	定义	重要性
Task Completion Rate	对话结束时用户达成目标的比例。	直接衡量产品价值。
Error / Hallucination Rate	AI 回答事实错误或毫无意义的频率。	质量问题的早期预警。
Turn‑Efficiency	完成任务所需的平均回合数。	表明用户获取价值的速度。
User Satisfaction (post‑conversation survey or implicit signal)	对话结束后的评分或情感倾向。	捕捉真实的用户满意度。
Churn‑Signal Score	长时会话、重复改写和负面情感的综合得分。	预测即将流失的用户。

要点

停止把对话当作页面浏览量。
从基于活动的代理指标转向基于结果的指标。
为你的产品加装工具，以捕获任务意图、成功/失败以及质量信号。

当你做到这些时，你的仪表盘终于会在每周一早上告诉你需要看到的真实情况。 🚀

对话原生分析：为何转变重要

对话即产品。你的分析应当反映这一点。

传统事件驱动追踪的问题

你没有追踪 每次通话的时长。
你只追踪客户问题是否得到解决。
对 AI 产品也是如此：对话仅是任务完成尝试的媒介，但大多数仪表盘仍然关注事件（点击、页面浏览、会话时长），而不是结果。

当你从“事件 = 成功”转向“对话 = 成功”时，许多事情会变得更清晰：

短对话 可能是很好的结果（高效解决）或是糟糕的结果（用户立即放弃）。上下文决定是哪一种。
长对话 可能表明深度参与或是挫败感的螺旋。同样，上下文很重要。

你需要一个能够 辨别哪种情况 的分析层。

Source: …

什么是对话原生分析

这并非假设。原始数据层已经存在；只是尚未为 AI 团队产品化。

一次对话具有结构：

意图 – 用户想要实现的目标。
尝试序列 – 每一次交互都在尝试满足该意图。
结果 – 是否得到解决（或失败）。

每一次交互都是关于该结构运行效果的证据。

实际可追踪的信号

解决信号
- 正向：
  - 对话结束时用户得到想要的结果。
  - 结束时出现正面情绪。
  - 后续提问基于之前的答案。
  - 用户在 48 小时内因相关问题再次返回。
- 负向（失败）：
  - 用户对同一问题进行三次改写。
  - 中途掉线。
  - 立即返回到流程起始点。
重复检测 – 同一问题以不同表述出现 → AI 未理解 → 质量失效。应体现在指标中，而不是被平均会话时长所掩盖。
按位置掉线 – 用户在对话的哪个环节放弃？
- 示例：40 % 的对话在第 3 轮后结束且没有出现解决信号 → 第 3 轮存在可修复的具体问题。
意图聚类 – 按 用户想要做什么 而不是他们触达的功能来分组对话。可揭示隐藏模式（例如，30 % 的支持聊天询问的是文档未覆盖的相同问题）。

这并不神奇。 只是在已有数据上套用正确的模型而已。原始对话数据已经存在，关键在于你的分析层是否会读取它。

视觉隐喻

“在意识到整个仪表盘一直在骗你的时候，构建对话原生分析。”

这一路的去向

在 AI 产品上获胜的团队都有一个共同习惯：

不再只优化参与度 → 开始优化解决率。
将成功度量放在对话层面，而不是会话层面。
追踪指标：
- 任务完成率。
- 首轮解决率。
- 典型对话中的精确掉线点。

他们采用的工具把对话视为主要分析单元，而不是事件的聚合。

而行业其他部分仍在截取 MAU（月活跃用户）图表，苦恼于留存率为何如此困难。

这种转变正在到来。 会话式 AI 正在推动一种全新的分析范式，就像十年前移动端推动了全新的网页分析范式一样。最先掌握它的团队将获得显著优势——不仅体现在产品质量上，还体现在能够在流失数据出现之前诊断并解决问题。

总结

如果你的核心产品循环是对话，那么核心分析原语也应该是对话，而不是事件。
基于事件的跟踪会给你一个数字，但它几乎无法告诉你产品是否真的有效（比如只算电影帧数）。
Conversation = 单位。
Resolution = 指标。
Task completion = 你要优化的结果。

其他一切都是噪音。

Agnost 的构建正是为了解决这个问题：从头为对话型产品设计的分析工具，让你不再猜测，而是知晓。
👉 在此尝试 Agnost

TL;DR

基于事件的分析 跟踪 对话是否发生。
原生对话分析 跟踪 它们是否有效。
你需要后者。

阅读时间: ~7 分钟

将对话追踪为页面浏览的问题

为什么基于事件的分析从未为对话式 AI 产品构建——以及该怎么做

将对话追踪视为页面浏览的难题

页面浏览量是为内容静止的世界而构建的

然后我们推出了产品，产品本身会响应用户的输入。

当你记录 `conversation_started` 和 `conversation_ended` 时会失去的东西

从事件追踪中得出的指标在衡量错误的事

快速对比

正确的思维模型：对话是一次任务尝试

应该跟踪的指标

要点

对话原生分析：为何转变重要

传统事件驱动追踪的问题

什么是对话原生分析

实际可追踪的信号

视觉隐喻

这一路的去向

总结

TL;DR

相关文章

友好指南：IPv4 子网划分与免费 CIDR 计算器

原生 Windows SSH 代理，使用 CNG/KSP，无依赖，支持 smartcard，具备完整 RDP 兼容性

我用 Python 构建了一个迷你衍生品交易所。以下是我如何使用 Cursor 而不让它主导一切。

为什么没有人完成 Postmortem 行动项（以及如何解决）

为什么基于事件的分析从未为对话式 AI 产品构建——以及该怎么做

将对话追踪视为页面浏览的难题

页面浏览量是为内容静止的世界而构建的

然后我们推出了产品，产品本身会 响应 用户的输入。

当你记录 conversation_started 和 conversation_ended 时会失去的东西

从事件追踪中得出的指标在衡量错误的事

快速对比

正确的思维模型：对话是一次 任务尝试

应该跟踪的指标

要点

对话原生分析：为何转变重要

传统事件驱动追踪的问题

什么是对话原生分析

实际可追踪的信号

视觉隐喻

这一路的去向

总结

TL;DR

相关文章

友好指南：IPv4 子网划分与免费 CIDR 计算器

原生 Windows SSH 代理，使用 CNG/KSP，无依赖，支持 smartcard，具备完整 RDP 兼容性

我用 Python 构建了一个迷你衍生品交易所。以下是我如何使用 Cursor 而不让它主导一切。

为什么没有人完成 Postmortem 行动项（以及如何解决）

然后我们推出了产品，产品本身会响应用户的输入。

当你记录 `conversation_started` 和 `conversation_ended` 时会失去的东西

正确的思维模型：对话是一次任务尝试