[Paper] LikeThis! 赋能应用用户提交 UI 改进建议,而非抱怨

发布: (2026年3月5日 GMT+8 00:33)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.04245v1

Overview

本文介绍了 LikeThis!,一种生成式 AI 工具,可将典型且常常模糊的用户投诉(例如 “这个屏幕看起来很奇怪”)转化为具体的 UI 改进建议。通过将用户的评论与截图一起输入,LikeThis! 能即时生成多个备选设计,让用户挑选最符合其意图的方案。作者展示了这种方法不仅能为开发者提供更清晰的反馈,还能提升当前 AI 模型生成的 UI 建议的整体质量。

关键贡献

  • 一种新颖的反馈循环,将原始用户投诉转化为可操作的 UI 重新设计选项,弥合终端用户与开发者之间的鸿沟。
  • 在公开 UI 批评数据集上对图像生成模型进行基准测试,证明 GPT‑Image‑1 在保持设计忠实度的同时修复 UI 问题方面优于三种领先的替代方案。
  • 两步生成管道(规格 → 草图),证明对生成连贯且无问题的 UI 改进至关重要。
  • 实证用户研究,在 10 个真实应用中邀请 15 位参与者,显示在 AI 生成建议的辅助下,反馈的可理解性和可操作性更高。
  • 开源原型(LikeThis!),可集成到现有应用反馈渠道(例如应用内错误报告、应用商店评论)。

方法论

  1. Data Collection – 作者使用了一个公开可用的数据集,其中包含 UI 截图以及专家批评和改进草图。
  2. Model Benchmarking – 四个图像生成模型(GPT‑Image‑1、DALL·E 3、Stable Diffusion 和一个自定义扩散模型)被提示根据批评生成重新设计。质量在三个维度上进行衡量:issue resolutionvisual fidelityabsence of new problems
  3. Two‑Step Generation – 与其让模型直接跳到新的 UI,LikeThis! 首先要求模型输出一个 solution specification(对更改的文字描述)。然后将该规范输入图像模型以渲染草图。
  4. User Study – 15 位参与者安装了包含 LikeThis! 小部件的 10 款流行应用的修改版。他们像平常一样报告 UI 问题,然后从 AI 生成的备选方案中进行选择。这些应用的开发者随后对每条反馈的 understandabilityactionability 进行评分,比较原始评论与带有 AI 建议的评论。

结果与发现

  • 模型性能: GPT‑Image‑1 的问题解决分数比次佳模型高出 23 %,同时保持 95 % 的视觉保真度。specification‑first 流程相比单一提示方法将 “new issue” 引入率降低了 40 %。
  • 用户研究结果:
    • 87 % 的参与者表示,生成的备选方案比他们的原始文本更好地捕捉了他们的意图。
    • 开发者对 AI 增强反馈的可理解性评分比原始反馈高出 1.8 分(5 分 Likert 量表),对可操作性的评分高出 2.1 分。
    • 提交反馈的平均时间从 45 秒(自由文本)下降到 28 秒(选择生成的选项)。
  • 整体影响: 文本批评与视觉建议的结合生成了一种反馈产物,既 human‑readablemachine‑ready,可供下游设计工具使用。

实际影响

  • 应用内反馈渠道 可以升级为带有“建议改进”按钮,立即提供设计备选方案,降低撰写详细错误报告的摩擦。
  • 设计团队 能收到更丰富的可视化工单,直接导入 Figma 或 Sketch 等工具,缩短设计到实现的周期。
  • 应用商店审核员 可以配备轻量版 LikeThis!,将低质量评论转化为可操作的设计工单,提高开发者的信噪比。
  • 自动分流流水线 可以优先处理已包含具体 UI 原型的反馈,使 AI 驱动的机器人能够自动分配工单,甚至生成原型代码片段。
  • 跨平台一致性:由于系统基于截图工作,可用于 iOS 和 Android 应用,无需平台特定的仪器。

限制与未来工作

  • Dataset bias: 基准数据集由专家撰写的批评组成,可能无法充分反映真实用户语言的多样性。
  • Scalability of specs: 文本规格步骤仍依赖模型理解模糊用户表述的能力;观察到偶尔的误解。
  • Design system constraints: 生成的草图忽略了应用特定的风格指南(颜色、排版),因此开发者仍需将其适配到现有的设计系统。
  • Future directions 包括:将风格指南意识整合到生成流水线中,扩展该方法至多屏幕流程,并在大规模生产环境中评估对用户满意度和开发速度的长期影响。

作者

  • Jialiang Wei
  • Ali Ebrahimi Pourasad
  • Walid Maalej

论文信息

  • arXiv ID: 2603.04245v1
  • 分类: cs.SE, cs.AI, cs.HC
  • 发表时间: 2026年3月4日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……