[论文] FASTRIC：可验证 LLM 交互的提示规范语言

发布: 1周前 (2025年12月22日 GMT+8 09:19)

7 min read

原文: arXiv

Source: arXiv - 2512.18940v1

（请提供需要翻译的正文内容，我将按照要求保留源链接并翻译其余部分。）

概述

本文介绍了 FASTRIC，一种提示规范语言，它将多轮 LLM 交互中隐藏的有限状态机（FSM）逻辑显式化为自然语言提示。通过将提示转化为可验证的规范，设计者可以检查 LLM 的行为是否真正遵循预期的协议，使提示工程从试错艺术转向严谨的工程实践。

FASTRIC 语言 – 一种人类可读的语法，捕获七个核心 FSM 要素（终止状态、代理、状态、触发器、角色、初始状态、约束）。
统一的 LLM 驱动工具链 – 同一个 LLM 解析、解释并执行规范，消除对单独解析器或运行时的需求。
过程符合度度量 – 一个量化指标，衡量执行轨迹与声明的 FSM 的匹配程度。
形式性光谱 – FASTRIC 支持从宽松描述（隐式）到完全显式的逐步指令的规范，让设计者调节“提示形式化”。
实证“金发姑娘区”研究 – 在三种模型规模（14.7 B、685 B、1 T+）和四个形式性层级上的实验揭示了模型特定的最佳点，即规范提升符合度而不对模型过度约束。
提示规范工程的基础 – 建立了一个可重复的工作流，用于构建可验证的多轮交互协议。

规范设计 – 作者定义了一个模板，强制设计者列举七个 FSM 组件。该模板可以非正式填写（让模型推断缺失的部分），也可以正式填写（列出每个转移和约束）。
LLM 作为执行代理 – 同一个 LLM 接收 FASTRIC 提示，内部解析 FSM 描述，然后以指定的“代理”身份进行多轮对话。未使用外部解析器或状态引擎。
轨迹收集 – 对每一次运行，完整的对话（提示、模型回复、任何工具调用）都会被记录为执行轨迹。
符合性评估 – 一个事后脚本（同样由 LLM 驱动）将轨迹与原始 FSM 对比：验证每个触发器是否导致正确的下一个状态，是否适当地到达终止状态，以及约束是否从未被违反。结果是一个介于 0 到 1 之间的 过程符合性分数。
实验网格 – 作者在三类模型（Phi‑4（14.7 B）、DeepSeek‑V3.2（685 B）和 ChatGPT‑5（约 1 T））上，对一个简单的 3 状态“幼儿园辅导” FSM 进行四种规范形式级别（L1–L4）的测试。每种配置运行多次以捕获方差。

Model	Best Formality Level	Peak Conformance	Notable Trend
Phi‑4 (14.7 B)	None stable (high variance)	≈0.55 ± 0.30	Conformance fluctuates; no clear “Goldilocks” zone.
DeepSeek‑V3.2 (685 B)	L2–L4 (more explicit)	1.00	Perfect adherence when given enough structure.
ChatGPT‑5 (~1 T)	L3 (moderately explicit)	0.90	Peaks at medium formality; over‑specifying (L4) drops to 0.39.

Key takeaways

Model capacity matters: Larger models tolerate more explicit specifications, but beyond a certain point the extra constraints confuse them.
Goldilocks zones: Each model has a narrow band of specification formalism that maximizes conformance.
Variance in small models: Low‑capacity models show unstable behavior, suggesting they need either very minimal prompts or additional external tooling.

FASTRIC 为将 LLM 提示设计视为可验证的工程学科打开了大门，使开发者能够指定、执行并审计多轮交互，并提供可衡量的保证。