Semantic ablation:为什么 AI 写作通用且乏味
Source: Hacker News
定义
语义消融是对高熵信息的算法性侵蚀。它不是“漏洞”,而是贪婪解码和 RLHF(基于人类反馈的强化学习)的结构性副产物。在“精炼”过程中,模型倾向于高斯分布的中心,舍弃“尾部”数据——那些稀有、精确且复杂的 token——以最大化统计概率。激进的“安全性”和“有帮助性”调优进一步惩罚非常规语言摩擦,导致对意图的无声、未授权的截断。追求低困惑度输出因此会毁灭独特信号。
产生方式
当作者使用 AI 对草稿进行“润色”时,AI 会识别高熵簇——即独特洞见所在的精确点——并系统性地用最可能的、通用的 token 序列替代它们。原本锯齿状、精确的结构被侵蚀成光滑、同质的外壳:对随意的观察者来说看起来“干净”,但其结构完整性已被削弱,换成了空洞、无摩擦的美学。
测量语义消融
语义消融可以通过熵衰减来衡量。将文本经过连续的 AI “精炼”循环后,词汇多样性(type‑token ratio)会崩塌,表明在不同阶段出现系统性的脑叶切除。
消融阶段
1. 隐喻清洗
AI 将非常规隐喻或感官意象视为“噪声”,因为它们偏离训练集的均值,于是用安全的陈词滥调替代,并剥夺文本的情感与感官摩擦。
2. 词汇扁平化
领域特定的行话和高精度技术术语被牺牲以换取“可访问性”。模型把 1/10,000 的 token 替换为 1/100 的同义词,稀释了语义密度和论点的比重。
3. 结构坍塌
复杂的、非线性推理被迫进入可预测的、低困惑度模板。潜台词和细微差别被消融,以满足标准化的可读性评分,留下语法完美却智力空洞的外壳。
后果
结果是一幅“思想的 JPEG”——在视觉上连贯,却因语义消融而失去了原始的数据密度。如果“幻觉”描述 AI 看见不存在的东西,语义消融则描述 AI 销毁了本该存在的东西。这场“向中间奔跑”的竞赛牺牲了人类思维的复杂性,以算法平滑为祭坛,构建了一个空洞的句法世界。