我为书籍构建了 AI Pipeline,以下是其架构

发布: (2026年2月23日 GMT+8 05:52)
10 分钟阅读
原文: Dev.to

I’m happy to translate the article for you, but I need the full text of the post. Could you please paste the content you’d like translated (excluding the source line you already provided)? Once I have the article text, I’ll translate it into Simplified Chinese while preserving the original formatting, markdown, and any code blocks or URLs.

我们从 5 万本书中学到的东西

大多数 AI 写作工具只是聊天包装器:粘贴提示,获取文本,复制到 Google Docs,重复。对于一本完整的书来说,这意味着数百次往返,并且它们之间会完全丢失上下文。

我在 AI + 出版领域已经工作了三年——自己出版书籍,构建阅读平台(NanoReads,130 + 本书,341 K 读者),并与数百位作者交流。相同的抱怨层出不穷:

  • AI 失去对十章前发生的事情的跟踪。
  • 每章的风格都不同。
  • 对话平淡。
  • 输出充斥着 “Moreover…”, “Furthermore…”, “It’s worth noting that…” 等词句。

这些并不是模型质量的问题。在我们的平台(AIWriteBook)上生成了 5 万+ 本书 之后,我们确信瓶颈在 规格化流程,而不是语言模型。

架构

我们将书籍创作视为一个 多阶段编译流水线

Book Metadata → Character Graph → Chapter Outlines → Chapter Content
     |               |                  |                  |
  (schema)       (schema)           (schema)          (streaming)

每个阶段生成 受模式约束的结构化输出,并将其传递给下一个阶段。在最终的散文生成之前,没有任何自由形式的内容。

第1阶段 – 书籍元数据

用户提供标题和简短描述。AI 随后生成一个结构化的元数据对象,作为后续所有内容的唯一真实来源。

{
  "title": "The Dragon's Reluctant Mate",
  "genres": ["Fantasy", "Romance"],
  "tone": ["dark", "romantic", "suspenseful"],
  "style": ["dialogue‑heavy", "fast‑paced"],
  "target_audience": "Adult fantasy romance readers",
  "plot_techniques": ["enemies‑to‑lovers", "slow‑burn", "foreshadowing"],
  "writing_style": "..."
}

语气、风格和受众是 约束条件,而非建议。

第2阶段 – 角色图谱

每个角色都是一个结构化节点,包含声音、动机、弧线和内部冲突。在生成章节时,我们仅传入实际出现的角色,以及它们当前的弧线位置和关系动态。

{
  "name": "Kira Ashvane",
  "role": "protagonist",
  "voice": "Sharp, clipped sentences. Uses sarcasm as defense.",
  "motivation": "Prove she doesn't need the dragon clan's protection",
  "internal_conflict": "Craves belonging but fears vulnerability",
  "arc": "Isolation → reluctant alliance → trust → sacrifice"
}

因为模型接收了 每个角色的明确声音规范,对话不再显得同质化。

第三阶段 – 章节大纲

这是最关键的阶段。每一章都会得到一个详细的规范,以指导后续的生成。

{
  "chapter_number": 3,
  "title": "The Binding Ceremony",
  "events": [
    "Kira is forced to attend the bonding ritual",
    "..."
  ],
  "locations": [
    "Dragon temple, obsidian halls lit by bioluminescent moss"
  ],
  "twists": [
    "The ritual reveals Kira has dormant dragon magic"
  ],
  "character_interactions": [
    {
      "characters": ["Kira", "Draethor"],
      "dynamic": "hostile tension with undercurrent of curiosity"
    }
  ],
  "word_count": 2800
}

内部 A/B 测试

指标默认大纲定制大纲
导出率16 %34 %
满意度(满分5)3.44.3
每章再生成次数1.80.7
完成率41 %72 %

一个拥有详细大纲的普通模型胜过拥有模糊大纲的优秀模型。正如软件工程中所说,输入垃圾 → 输出垃圾

第4阶段 – 章节生成

唯一的 流式 阶段。模型接收:

  • 书籍元数据
  • 相关角色及其语音规格
  • 章节大纲
  • 前几章的摘要(用于连贯性)
  • 作者的写作风格样本

我们使用 双模型策略

  1. Gemini Flash – 负责所有结构性工作(快速、低成本,擅长受约束的模式输出)。
  2. Frontier model – 生成最终的散文。

语音训练

作者可以上传 3–5 份写作样本。我们提取风格特征,并在生成过程中将其作为少量示例输入。

来自我们数据的结果:

  • 使用语音训练后,导出率提升 2.4 ×
  • 41 % 的再生成请求减少。
  • 手动编辑减少 67 %

少于三个样本 → 改进有限。
超过五个样本 → 收效递减。

没有语音训练时,输出感觉像通用 GPT;作者要么放弃项目,要么花数小时重写。使用语音训练后,“AI 低质量”问题基本消失,因为模型现在拥有具体的风格锚点。

小说 vs. 非小说 流程

小说

使用上文描述的 character graph + plot‑continuity 流程。

非小说

一种从参考材料开始的独立架构。

Reference Files → Content Extraction → Book Structure Selection
                                   |
                     Chapter Outlines (with assigned references)
                                   |
                     Chapter Content (with citations)

参考材料的影响

条件Export RateSatisfaction
有参考材料+38 %4.4 / 5
无参考材料baseline3.5 / 5

当模型拥有具体数据——已命名的研究、真实引用、具体统计时,它会生成更可信且更令人满意的非小说内容。

要点

  1. 规范比模型规模更重要。 采用详细、基于模式的流水线比单纯扩大 LLM 能力能产生更高质量的结果。
  2. 为每个角色设定语音规范可避免对话单调。
  3. 章节大纲是提升一致性、连贯性和作者满意度的最大杠杆。
  4. 少量示例的语音训练能显著减少生成后编辑工作。
  5. 非虚构类作品需要以数据为中心的流水线,提前注入引用和参考材料。

把书籍生成视作编译器——元数据 → 图 → 大纲 → 流——可以将混乱的“提示‑并‑期待”工作流转变为可预测、可重复的生产线。

我们从 50 K 本书中学到的东西

章节长度的最佳范围是 2,000‑3,500 字。

  • 低于此范围,章节显得不够完整。
  • 超过 3,500,模型会用不同的表达重复自己,出现离题、冗余的描述。
  • 超过 5,000,质量急剧下降。如果章节需要很长,拆分成多个章节效果更好,而不是一次性生成超长章节。

类型影响很大

类型导出率
爱情31 %
文学小说11 %
幽默13 %
诗歌9 %

AI 在拥有成熟规范和大量训练数据的类型上表现最佳,而在依赖声音、极具创意的写作上表现较差。

只有 23 % 的生成书籍会被导出用于出版。

成功的书籍具备以下特征:

  • 在大纲编辑上花费的时间是普通的 3.2 倍
  • 74 % 的案例开启了声音训练
  • 89 % 的章节至少进行过一次人工编辑

能够出版的书籍是经过多次迭代的,而不是一次点击生成的。

多语言质量差异

  • 西班牙语、法语、德语的质量接近英语。
  • 波兰语、俄语、日语、韩语质量尚可,但明显低于前者。
  • 小语种可用于草稿阶段。

质量与训练数据量呈正相关。对于使用少数语言的作者,先用英语生成再翻译,往往比直接用母语生成效果更好。

Stack

  • 前端: Next.js, Tailwind, Supabase client
  • 后端: Supabase Edge Functions (Deno)
  • AI: Gemini Flash (结构化), Frontier models (散文)
  • 语言: 支持 30+ 种

总结

我们从构建中得到的主要结论是:AI 生成书籍的质量问题是一个 规范问题,而不是模型问题。

  • 模糊的提示 + “生成” → 低质量。
  • 详细的人物图谱、结构化大纲、语音样本以及适当的约束 → 真正优秀的输出。

如果你想尝试,有一个免费层可以让你得到完整的 7 章节书。

欢迎就架构、数据或任何关于 AI + 出版的问题提问。

Tags: #ai #writing #books #showdev #webdev #productivity

0 浏览
Back to Blog

相关文章

阅读更多 »