[Paper] 大型语言模型中的发散-收敛思维用于创意问题生成
发布: (2025年12月30日 GMT+8 00:53)
6 min read
原文: arXiv
Source: arXiv - 2512.23601v1
概览
本文介绍了 CreativeDC,一种新颖的提示技术,它在大型语言模型(LLM)生成教育题目时,引导其经历一次 发散‑随后‑收敛 的思考循环。通过明确将自由形式的想法探索与最终的约束检查步骤分离,作者展示了 LLM 能够产生更丰富、更多样化的问题集合,同时不牺牲质量——从而解决模型倾向于输出重复内容的 “人工蜂群” 问题。
关键贡献
- CreativeDC 提示框架:一种两阶段的配方(发散探索 → 收敛精炼),可应用于任何现成的语言模型。
- 定量多样性与新颖性指标:一个综合评估套件,用于衡量生成问题的差异性、意外性和实用性。
- 实证验证:在多个语言模型上的实验表明,CreativeDC 能显著提升多样性和新颖性,同时保持与标准基线相当的实用性。
- 扩展性分析:显示随着抽样数量的增加,CreativeDC 的“有效独特问题数”增长速度快于基线方法,表明对问题空间的覆盖更全面。
方法论
-
提示设计 – 发散阶段
- 模型收到一个鼓励自由思考的提示:“列出尽可能多的关于 X 的不同提问方式,不必担心正确性。”
- 没有硬性约束,LLM 可以探索非常规的角度、类比或情境。
-
提示设计 – 收敛阶段
- 将第一阶段的原始想法输入第二个提示,要求模型选择并润色最有前景的候选,同时满足明确的问题生成约束(例如,可解、难度适中)。
-
实现
- 两个提示通过程序链式调用;发散阶段的输出成为收敛阶段的输入。
- 该方法适用于任何仅解码器的 LLM(GPT‑3.5、LLaMA 等),且不需要微调。
-
评估套件
- 多样性:生成问题的成对语义距离和词汇多样性。
- 新颖性:与大规模现有教材题库的比较。
- 实用性:专家对教学合理性和可答性的人工评分。
结果与发现
| 指标 | Baseline (single‑prompt) | CreativeDC |
|---|---|---|
| 多样性(平均成对余弦) | 0.42 | 0.68 |
| 新颖度(独特概念 %) | 31 % | 57 % |
| 实用性(专家评分 /5) | 4.2 | 4.1 |
| 有效不同问题(1000 样本) | 210 | 398 |
- 更高的多样性和新颖度:CreativeDC 的发散阶段注入了更广泛的概念集合,这些概念在收敛过滤后仍然保留下来。
- 实用性保持高水平:收敛阶段成功剔除不连贯或不可解的想法,使教学质量与基线相当。
- 可扩展性:在采样更多问题时,CreativeDC 下不同项目的增长曲线超过基线,表明其对创意空间的“覆盖”更好。
实际意义
- 课程设计者 可以自动生成大量多样化的练习题库,减少手动编写工作,同时确保学生能够从多个角度了解主题。
- 自适应学习平台 可以从更丰富的题库中抽取题目,以个性化问题集,降低学生反复遇到相同模式的风险。
- 评估创建工具 可以集成 CreativeDC,提出新颖的干扰项或替代题目陈述,丰富选择题和开放式任务。
- 教育之外:任何需要创意内容的领域——例如头脑风暴产品创意、生成软件测试用例或起草面试问题——都可以采用发散‑收敛提示配方,突破 LLM 的“蜂群”模式。
限制与未来工作
- 提示敏感性:发散想法的质量在很大程度上取决于首次提示的措辞;措辞不佳的提示仍可能导致低质量噪声。
- 计算开销:每个问题需要进行两次推理,延迟大约翻倍,这可能成为实时应用的瓶颈。
- 领域特异性:本研究聚焦于数学/物理教育问题;扩展到高度专业化的领域(如法律、医学)可能需要领域特定的约束工程。
未来方向
- 通过元学习实现提示优化的自动化。
- 探索多阶段(超过两阶段)流水线,将发散和收敛循环交错进行。
- 融入人机交互反馈,以进一步完善收敛过滤步骤。
作者
- Manh Hung Nguyen
- Adish Singla
论文信息
- arXiv ID: 2512.23601v1
- 分类: cs.AI
- 出版日期: 2025年12月29日
- PDF: 下载 PDF