你的移动测试不断出错。Vision AI 修复它

发布: 1天前 (2026年3月2日 GMT+8 12:31)

6 分钟阅读

原文: Dev.to

Source: Dev.to

68% 的工程团队表示，测试维护是他们最大的 QA 瓶颈。不是不写测试，也不是找不到 bug，而是要防止已有的测试出现故障。

问题出在哪儿？传统的测试自动化把你的应用当作一堆 XML 节点来处理，而不是把它视为供人眼观看的可视化界面。每当开发者重构一个页面时，测试就会失效——即使应用本身运行得完全正常。

有更好的方法

视觉语言模型（VLM）——与 ChatGPT 背后的同一 AI 变革，只是多了“眼睛”——正在改变游戏规则。与脆弱的定位器不同，VLM 驱动的测试代理能够像人工测试员一样观察你的应用。

95% 以上的测试稳定性（相较于传统自动化的 70‑80%）
几分钟即可创建测试，而不是数小时
维护工作减少 50% 以上
捕获视觉缺陷，这些是基于定位器的测试始终遗漏的

实际效果如何？

而不是编写下面的代码：

driver.findElement(By.id("login_button")).click();

你只需要写：

Tap on the Login button.

AI 会处理其余工作——通过视觉识别元素、适应 UI 变化，并在不使用任何定位器的情况下执行操作。

但是等等，难道每个工具现在都在声称“AI 驱动”吗？

基于 NLP 的工具

生成基于定位器的脚本。当 DOM 结构剧烈变化时，它们会失效。

自愈定位器

修复诸如 ID 重命名等小问题，但仍依赖于元素树。

视觉 AI

彻底消除对定位器的依赖。测试基于可见内容，而不是元素的实现方式。

其他平台报告了 60–85% 的维护成本降低。视觉 AI 实现了几乎为零的维护，因为测试本来就没有依赖脆弱的选择器。

VLM 实际工作原理

现代 VLM 主要采用三种架构方法：

完全集成模型（例如 GPT‑4o、Gemini）——通过统一的 Transformer 层同时处理图像和文本，提供最强的推理能力，但计算成本最高。
视觉适配器模型（例如 LLaVA、BLIP‑2）——将预训练的视觉编码器连接到大语言模型（LLM），在性能和效率之间取得实用的平衡。
参数高效模型（例如 Phi‑4 Multimodal）——在保持约 85–90% 大型 VLM 准确率的同时，实现低于 100 ms 的推理速度，适用于边缘和实时场景。

这些模型通过对比学习（将图像和文本对齐到共享空间）、图像字幕生成以及指令微调进行学习。CLIP 在超过 4 亿图像‑文本对上的训练奠定了大多数 VLM 今日在各种任务上实现泛化的基础。

VLM 领域概览

GPT‑4o – 在复杂推理方面领先。
Gemini 2.5 Pro – 能处理高达 1 M 令牌的长内容。
Claude 3.5 Sonnet – 在文档分析和布局方面表现出色。
Queen 2.5‑VL‑72B（开源） – 以更低成本提供强大的 OCR。
DeepSeek VL2（开源） – 针对低延迟应用。

开源模型现在的表现已接近专有替代品的 5–10 % 范围，提供完整的微调灵活性且无需按调用计费的 API 成本。

使用 VLM 驱动的测试入门

确定 20–30 条关键测试用例——那些最容易出错、产生最多 CI 噪声的用例。
用自然语言（英文）而不是基于定位器的脚本来编写它们。
将 VLM 测试器接入现有的 CI/CD 流水线（GitHub Actions、Jenkins、CircleCI 等）。
上传你的 APK，配置测试，并在每次构建时触发。

由于测试依赖视觉理解，失败更具意义，也更容易诊断。

如果想更深入了解，我们已经撰写了关于 VLM 工作原理、为何视觉 AI 优于大多数“AI 测试”方法、基准对比以及实用采纳指南的详细拆解。在此阅读完整博客。

亲眼见证

Drizz 为需要快速可靠的团队提供 Vision AI 测试。上传您的 APK，用简体中文（或英文）编写测试，用一天时间在 CI/CD 中运行最关键的 20 条测试用例。

无需定位器。
无 flaky 测试。
无维护负担。

安排演示

你的移动测试不断出错。Vision AI 修复它

有更好的方法

实际效果如何？

但是等等，难道每个工具现在都在声称“AI 驱动”吗？

基于 NLP 的工具

自愈定位器

视觉 AI

VLM 实际工作原理

VLM 领域概览

使用 VLM 驱动的测试入门

亲眼见证

相关文章

当工作成为心理健康风险时

最难的部分不是隐形——而是被压平成一维

近视、外斜视与代码：为近视专业人士开发视觉训练工具

你的下一个数字产品有 89% 的几率恰好赚到 $0