对话数据集的问题
Source: Dev.to
对话数据集的问题
大多数用于训练和评估语言模型的对话数据集仅包含文本:说话者标签、信息,有时还有情感标签。这种格式适用于许多任务,但在构建需要推理人类而不仅仅是回应的系统时就显得不足。
真实的对话由内部状态驱动,而这些状态在文字记录中从未出现:
- 信念——对对方的看法,会随每一次交流而演变
- 目标——每条信息背后的动机(例如,寻求认同、主导控制、修复信任)
- 关系动态——在对话过程中不断变化的关系(信任、紧张、连结)
- 心理身份——在压力下塑造个人沟通方式的身份认同
当说话者说:
“我并不是因为会议而不高兴,我是因为你没有提前告诉我而不高兴。”
文字是可见的,但其背后的驱动因素却不可见:
- 对方隐瞒信息的信念(置信度:0.74)
- 目标是寻求认同而非升级冲突
- 关系状态:过去四轮对话中信任正在逐渐流失
没有这些信息,数据集只能告诉你发生了什么,而无法解释为什么。
在仅有文本的数据上训练对话模型,会导致模型模仿表层模式——学习回复的形式,而不是驱动回复的因素。这对简单任务有效,但对以下需求会形成上限:
- 在多轮对话中追踪信念的变化
- 理解冲突期间信任如何变化
- 模拟不同人格在相同情境下的处理方式
- 评估代理的内部推理是否与其输出相匹配
对于这些任务,数据集必须将内部结构显式标注,而不是事后推断。
Source: …
StrataSynth:结构化方法
我们正在用一个名为 StrataSynth 的项目探索一种不同的方式。系统不是直接让 LLM 生成对话,而是先模拟一个最小的认知模型。语言模型仅在最后一步将决策渲染成自然语言。
流程概览
PsycheGraph → identity, attachment style, biases, voice
Belief Engine → evolving beliefs with confidence scores
Relationship State → trust, tension, connection, dominance
Decision Engine → intent, goal, communication act
LLM Rendering → natural language
关键约束: LLM 不能决定相信什么或如何与对方建立关系;这些决策由上游的状态模型完成。LLM 只负责把决策渲染为文本。这种分离确保内部状态始终是显式的——它是产生输出的输入。
示例回合(JSON)
{
"speaker": "A",
"text": "I'm not upset about the meeting. I'm upset you didn't tell me.",
"intent": "reveal",
"goal": "seek_validation",
"communication_act": "accusation",
"belief_delta": {
"trust_other": -0.07
},
"relationship_state": {
"trust": 0.62,
"tension": 0.44,
"connection": 0.38
}
}
在完整对话中,这会产生如下轨迹:
- 信念轨迹 – 每轮对话中各信念的变化
- 关系轨迹 – 信任和紧张度在整个对话弧线中的演变
- 行为熵 – 说话者的交流行为多样性程度
无 LLM 自评的评估
我们希望避免使用生成这些合成数据的同一个 LLM 来进行评估。LLM 自评可能掩盖问题;即使模型产生结构上不一致的数据,它仍可能给出高质量的评分。
StrataSynth 中的所有质量指标均以 确定性 方式计算:
belief_consistency– 通信行为与信念增量之间的相关性(NumPy)identity_stability– 跨回合的通信分布的余弦相似度(sentence‑transformers)behavioral_entropy– 通信行为分布的 Shannon 熵noise_rejection_rate– 正确隔离的注入噪声比例
没有 LLM 评分。没有循环评估。
已发布的数据集
我们在 Hugging Face 上发布了三个初始原型数据集(每个包含 15 段对话):
- stratasynth-social‑reasoning – 家庭冲突、浪漫信任修复、照护者压力
- stratasynth-agent‑stress‑test – 嫉妒升级、绩效评估、疏远
- stratasynth‑belief‑dynamics – 职业转变、导师冲突、关系破裂
我们想分享的贡献在于结构,而非数据量。
潜在应用
结构化的社交数据集可能有以下用途:
- 评估代理是否能够正确跟踪信念变化
- 训练需要对信任和冲突进行推理的模型
- 使用心理学定义的角色对对话系统进行压力测试
- 需要将显式内部状态作为真实标签的对齐研究
未解之问
认知模型有意保持简约:
- 12 条信念
- 4 个关系维度
- 10 种沟通行为
我们不确定这种抽象是否提供了足够的信号,还是仅仅是粗糙的近似。如果您曾经研究结构化对话数据集、代理评估或社会推理基准,我非常希望了解此方法在哪些方面可能存在问题或可以改进。