[Paper] 嵌入软件意图：轻量级 Java 模块恢复

发布: 1个月前 (2025年12月18日 GMT+8 05:24)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.15980v1

Overview

论文介绍了 ClassLAR，一种轻量级技术，能够自动从大型单体代码库中提取 Java 9 模块定义。通过将全限定类名视为“软件意图”并将其输入语言模型，作者能够恢复与系统真实架构高度一致的模块——速度远快于现有的恢复工具。

Data collection – 对于每个 Java 项目，工具提取每个全限定类名（例如 org.apache.commons.io.FileUtils）。
Semantic embedding – 预训练语言模型（例如基于 BERT 的模型）将每个名称转换为密集向量，以捕获词汇意义（“File”、“Utils”、“io”）。
Clustering – 使用轻量级聚类算法（例如层次聚合聚类）对向量进行分组，遵循包命名的层次结构特性。
Module inference – 将得到的聚类映射到 JPMS 模块描述符（module-info.java），生成一组既反映结构（包层次）又体现功能（语义相似性）意图的模块。
Evaluation – 使用诸如 MoJoFM、NED 和包级内聚等架构相似性度量，将恢复的模块与手工策划的模块布局进行比较。

整个流水线在中等规模项目上只需几秒钟即可完成，因为它避免了昂贵的字节码分析，仅依赖轻量级文本处理和向量运算。

更高的架构相似度：ClassLAR 始终能够生成与开发者预期架构更为吻合的模块分组，优于基于静态依赖的恢复方法。
速度：由于仅解析类名，该方法呈线性扩展，即使在拥有超过 10 k 类的项目中也能保持在一分钟以内。
鲁棒性：语言模型捕捉到了细微的意图（例如 “crypto” 与 “security” 的区别），而纯粹的包结构启发式方法则会遗漏这些信息，从而在模块内部实现了更好的功能内聚性。

未来的研究方向包括：引入轻量级的静态依赖图以补充名称语义、将该方法适配到其他 JVM 语言（Kotlin、Scala），以及探索对持续演化代码库的增量恢复。