[Paper] 微调的基于 LLM 的代码迁移框架
发布: (2025年12月16日 GMT+8 00:42)
7 min read
原文: arXiv
Source: arXiv - 2512.13515v1
概述
本文介绍了一种经过微调的大型语言模型(LLM)驱动的框架,用于将传统的 SQL 代码库——尤其是从 Oracle PL/SQL 迁移到 PostgreSQL——迁移到现代的云原生数据平台。通过将经典的软件工程实践与生成式 AI 相结合,作者展示了一种可扩展的迭代工作流,显著降低了手动重写的工作量,同时保留业务逻辑。
关键贡献
- 混合迁移流水线,结合传统静态分析与在 SQL 翻译任务上微调的 LLM。
- 迭代式、半自动转换循环:自动语法映射 → 错误检测 → 专家反馈 → 模型精炼。
- 微调策略,优于纯提示工程,在复杂结构(存储过程、触发器、视图)上实现更高精度。
- 自动化 SQL 特性检测 与 半监督错误分析,用于发现源方言与目标方言之间的不匹配。
- 实证评估显示,语法错误率下降 70‑80 %,手动审查时间减少 30 %,跨多个迁移周期。
- 反馈循环机制,将主题专家(SME)修正纳入训练数据,实现持续改进。
方法论
-
数据收集与预处理
- 从三个真实企业数据库中提取了 Oracle PL/SQL 对象(过程、函数、触发器、视图)的语料库。
- 使用基于规则的基线生成配对的 PostgreSQL 等价物,以启动训练集。
-
模型微调
- 基于公开可用的代码导向 LLM(例如 CodeLlama‑7B)进行初始化。
- 在配对语料库上进行监督微调,重点关注边缘案例构造(游标循环、批量收集、自主事务)。
- 通过 SME‑策划的纠正 进行训练,教会模型如何解决模糊映射。
-
迭代迁移循环
- 自动转换:微调后的模型为每个 PL/SQL 对象生成 PostgreSQL 代码。
- 静态验证:语法检查器标记错误;特征对齐分析器对语义保真度进行评分。
- 错误分流:高置信度的修复自动应用;低置信度的情况交由 SME 处理。
- 反馈摄取:SME 的编辑被回馈到微调数据集中,用于下一轮迭代。
-
评估
- 在三个迁移周期中测量 语法错误率 (SER)、特征对齐得分 (FAS) 和 人工审查工作量 (MRE)。
- 与纯提示工程基线以及传统基于规则的转换器进行比较。
结果与发现
| 指标 | 基线(规则‑基) | 仅提示 LLM | 微调 LLM(本工作) |
|---|---|---|---|
| 语法错误率 | 22 % | 12 % | 4 % |
| 特征对齐得分 | 68 % | 78 % | 91 % |
| 手动审查工作量(每千个对象的小时) | 15 | 9 | 5 |
- 语法错误 相较于规则‑基方法下降约 80 %。
- 语义保真度(迁移代码保留原始行为的程度)在两轮迭代后超过 90 %。
- 反馈循环 对提升贡献最大:每一次 SME 修正可将下游 SER 下降约 ~2 %。
实际意义
- 加速云迁移:企业可以将传统的 Oracle 工作负载迁移到 PostgreSQL 或其他开源平台,手动重写工作大幅减少,将迁移周期从数月缩短至数周。
- 成本节约:减少手动审查工作直接转化为更低的咨询和开发人员工时——在典型的中型迁移项目中,可能节省 $200–$500 k。
- 持续集成:该框架可以嵌入 CI/CD 流水线,实时自动标记新引入的 PL/SQL 代码并提供 PostgreSQL 等价建议。
- 可扩展性:虽然本研究聚焦于 Oracle→PostgreSQL,但相同的微调 + 反馈范式可适用于其他方言对(例如 T‑SQL → Snowflake SQL)或甚至 NoSQL 架构迁移。
- 开发者赋能:通过提供高置信度的建议,开发者可以将更多时间用于业务逻辑验证,而不是语法琐事,从而提升整体代码质量。
限制与未来工作
- 数据集范围: 训练语料仅限于三个企业数据库;更广泛的方言多样性(例如 DB2、Sybase)仍未测试。
- 运行时语义: 评估侧重于语法正确性和静态特征对齐;完整的端到端功能测试(性能、事务语义)超出本文范围。
- 模型规模与延迟: 对 7B 参数模型进行微调可获得良好结果,但更大的模型可能在处理边缘案例时进一步提升,代价是更高的推理延迟。
未来方向
- 引入 自动化测试生成 以验证迁移后的功能等价性。
- 探索 少样本提示 与微调相结合,以减少所需的 SME(主题专家)策划数据量。
- 将流水线扩展至处理 模式级迁移(数据类型转换、索引策略)以及 云原生优化(例如分区、分片)。
结论: 通过在真实 SQL 翻译任务上微调 LLM 并循环专家反馈,作者提供了一个实用、可重复的框架,能够显著简化数据库迁移——这对希望现代化数据堆栈的开发者和业务领袖都是一次胜利。
作者
- Oleg Grynets
- Vasyl Lyashkevych
- Dmytro Baran
- Maksym Orliansky
- Taras Zelenyy
- Markiian Leshchyshyn
论文信息
- arXiv ID: 2512.13515v1
- 分类: cs.SE, cs.CL, cs.LO
- 出版日期: 2025年12月15日
- PDF: 下载 PDF