[Paper] Pharo 中面向仓库级代码补全的包感知方法

发布: 1个月前 (2026年1月9日 GMT+8 16:19)

5 分钟阅读

原文: arXiv

Source: arXiv - 2601.05617v1

概述

本文介绍了一种针对 Pharo 仓库级代码补全引擎的 包感知启发式。通过考虑项目的包结构，新方法在输入时能够呈现更相关的符号（类、全局、变量），相较于现有的平面全局补全策略提升了开发者体验。

Package‑first search strategy: 优先考虑来自同一包的符号，其次是仓库中其他包的符号，最后是全局命名空间。
Integration with Pharo’s lazy completion architecture: 在不破坏模块化获取器设计的前提下，扩展现有的语义启发式。
Empirical evaluation: 显示出相较于默认启发式和天真的全局唯一基线，平均倒数排名（MRR）有可测量的提升。
Open‑source prototype: 实现为 Pharo 完成引擎的即插即用替代品，使社区能够立即进行实验。

Heuristic Design – 作者定义了一个三层查找顺序：
1. Local package：在调用补全的类所在的同一包中定义的符号。
2. Repository‑wide packages：同一仓库中任何其他包中的符号。
3. Global namespace：所有其余的全局符号（例如系统库）。
Implementation – 该启发式被添加为一个新的“fetcher”，插入 Pharo 现有的惰性补全管道。它复用了相同的排序基础设施，只是改变了收集候选符号的顺序。
Evaluation Protocol –
- Dataset：一组真实的 Pharo 项目（例如 Seaside、Moose），覆盖各种包结构。
- Metrics：平均倒数排名（Mean Reciprocal Rank, MRR），用于捕捉正确建议在列表中出现的早期程度。
- Baselines：(a) 默认的语义启发式（平面全局视图）和 (b) 简单的全局命名空间查询。
Statistical Analysis – 使用配对 t 检验来验证观察到的 MRR 提升在统计上是否显著。

更快的开发周期 – 通过首先显示最可能的符号，开发者在寻找正确名称时花费的时间更少，尤其是在包含大量包的代码库中。
更好的实时编程体验 – Pharo 的实时编码环境受益于更准确的补全，从而减少因标识符拼写错误导致的运行时错误。
可扩展的工具链 – 该启发式方法可以被其他 Smalltalk 派生的 IDE 采用，甚至移植到具有包/模块层次结构的语言（例如 Python、JavaScript）。
可定制的补全 – 团队可以调整包的优先级（例如，对 “core” 包赋予更高权重），而无需重写整个补全引擎。