你的移动测试不断出错。Vision AI 修复它
Source: Dev.to
68% 的工程团队表示,测试维护是他们最大的 QA 瓶颈。不是不写测试,也不是找不到 bug,而是要防止已有的测试出现故障。
问题出在哪儿?传统的测试自动化把你的应用当作一堆 XML 节点来处理,而不是把它视为供人眼观看的可视化界面。每当开发者重构一个页面时,测试就会失效——即使应用本身运行得完全正常。
有更好的方法
视觉语言模型(VLM)——与 ChatGPT 背后的同一 AI 变革,只是多了“眼睛”——正在改变游戏规则。与脆弱的定位器不同,VLM 驱动的测试代理能够像人工测试员一样观察你的应用。
- 95% 以上的测试稳定性(相较于传统自动化的 70‑80%)
- 几分钟即可创建测试,而不是数小时
- 维护工作减少 50% 以上
- 捕获视觉缺陷,这些是基于定位器的测试始终遗漏的
实际效果如何?
而不是编写下面的代码:
driver.findElement(By.id("login_button")).click();
你只需要写:
Tap on the Login button.
AI 会处理其余工作——通过视觉识别元素、适应 UI 变化,并在不使用任何定位器的情况下执行操作。
但是等等,难道每个工具现在都在声称“AI 驱动”吗?
基于 NLP 的工具
生成基于定位器的脚本。当 DOM 结构剧烈变化时,它们会失效。
自愈定位器
修复诸如 ID 重命名等小问题,但仍依赖于元素树。
视觉 AI
彻底消除对定位器的依赖。测试基于可见内容,而不是元素的实现方式。
其他平台报告了 60–85% 的维护成本降低。视觉 AI 实现了几乎为零的维护,因为测试本来就没有依赖脆弱的选择器。
VLM 实际工作原理
现代 VLM 主要采用三种架构方法:
- 完全集成模型(例如 GPT‑4o、Gemini)——通过统一的 Transformer 层同时处理图像和文本,提供最强的推理能力,但计算成本最高。
- 视觉适配器模型(例如 LLaVA、BLIP‑2)——将预训练的视觉编码器连接到大语言模型(LLM),在性能和效率之间取得实用的平衡。
- 参数高效模型(例如 Phi‑4 Multimodal)——在保持约 85–90% 大型 VLM 准确率的同时,实现低于 100 ms 的推理速度,适用于边缘和实时场景。
这些模型通过对比学习(将图像和文本对齐到共享空间)、图像字幕生成以及指令微调进行学习。CLIP 在超过 4 亿图像‑文本对上的训练奠定了大多数 VLM 今日在各种任务上实现泛化的基础。
VLM 领域概览
- GPT‑4o – 在复杂推理方面领先。
- Gemini 2.5 Pro – 能处理高达 1 M 令牌的长内容。
- Claude 3.5 Sonnet – 在文档分析和布局方面表现出色。
- Queen 2.5‑VL‑72B(开源) – 以更低成本提供强大的 OCR。
- DeepSeek VL2(开源) – 针对低延迟应用。
开源模型现在的表现已接近专有替代品的 5–10 % 范围,提供完整的微调灵活性且无需按调用计费的 API 成本。
使用 VLM 驱动的测试入门
- 确定 20–30 条关键测试用例——那些最容易出错、产生最多 CI 噪声的用例。
- 用自然语言(英文)而不是基于定位器的脚本来编写它们。
- 将 VLM 测试器接入现有的 CI/CD 流水线(GitHub Actions、Jenkins、CircleCI 等)。
- 上传你的 APK,配置测试,并在每次构建时触发。
由于测试依赖视觉理解,失败更具意义,也更容易诊断。
如果想更深入了解,我们已经撰写了关于 VLM 工作原理、为何视觉 AI 优于大多数“AI 测试”方法、基准对比以及实用采纳指南的详细拆解。在此阅读完整博客。
亲眼见证
Drizz 为需要快速可靠的团队提供 Vision AI 测试。上传您的 APK,用简体中文(或英文)编写测试,用一天时间在 CI/CD 中运行最关键的 20 条测试用例。
- 无需定位器。
- 无 flaky 测试。
- 无维护负担。