[Paper] 微调的基于 LLM 的代码迁移框架

发布: 3天前 (2025年12月16日 GMT+8 00:42)

7 min read

原文: arXiv

Source: arXiv - 2512.13515v1

概述

本文介绍了一种经过微调的大型语言模型（LLM）驱动的框架，用于将传统的 SQL 代码库——尤其是从 Oracle PL/SQL 迁移到 PostgreSQL——迁移到现代的云原生数据平台。通过将经典的软件工程实践与生成式 AI 相结合，作者展示了一种可扩展的迭代工作流，显著降低了手动重写的工作量，同时保留业务逻辑。

关键贡献

混合迁移流水线，结合传统静态分析与在 SQL 翻译任务上微调的 LLM。
迭代式、半自动转换循环：自动语法映射 → 错误检测 → 专家反馈 → 模型精炼。
微调策略，优于纯提示工程，在复杂结构（存储过程、触发器、视图）上实现更高精度。
自动化 SQL 特性检测 与 半监督错误分析，用于发现源方言与目标方言之间的不匹配。
实证评估显示，语法错误率下降 70‑80 %，手动审查时间减少 30 %，跨多个迁移周期。
反馈循环机制，将主题专家（SME）修正纳入训练数据，实现持续改进。

方法论

数据收集与预处理
- 从三个真实企业数据库中提取了 Oracle PL/SQL 对象（过程、函数、触发器、视图）的语料库。
- 使用基于规则的基线生成配对的 PostgreSQL 等价物，以启动训练集。
模型微调
- 基于公开可用的代码导向 LLM（例如 CodeLlama‑7B）进行初始化。
- 在配对语料库上进行监督微调，重点关注边缘案例构造（游标循环、批量收集、自主事务）。
- 通过 SME‑策划的纠正 进行训练，教会模型如何解决模糊映射。
迭代迁移循环
- 自动转换：微调后的模型为每个 PL/SQL 对象生成 PostgreSQL 代码。
- 静态验证：语法检查器标记错误；特征对齐分析器对语义保真度进行评分。
- 错误分流：高置信度的修复自动应用；低置信度的情况交由 SME 处理。
- 反馈摄取：SME 的编辑被回馈到微调数据集中，用于下一轮迭代。
评估
- 在三个迁移周期中测量 语法错误率 (SER)、特征对齐得分 (FAS) 和 人工审查工作量 (MRE)。
- 与纯提示工程基线以及传统基于规则的转换器进行比较。

结果与发现

指标	基线（规则‑基）	仅提示 LLM	微调 LLM（本工作）
语法错误率	22 %	12 %	4 %
特征对齐得分	68 %	78 %	91 %
手动审查工作量（每千个对象的小时）	15	9	5

语法错误 相较于规则‑基方法下降约 80 %。
语义保真度（迁移代码保留原始行为的程度）在两轮迭代后超过 90 %。
反馈循环 对提升贡献最大：每一次 SME 修正可将下游 SER 下降约 ~2 %。

实际意义

加速云迁移：企业可以将传统的 Oracle 工作负载迁移到 PostgreSQL 或其他开源平台，手动重写工作大幅减少，将迁移周期从数月缩短至数周。
成本节约：减少手动审查工作直接转化为更低的咨询和开发人员工时——在典型的中型迁移项目中，可能节省 $200–$500 k。
持续集成：该框架可以嵌入 CI/CD 流水线，实时自动标记新引入的 PL/SQL 代码并提供 PostgreSQL 等价建议。
可扩展性：虽然本研究聚焦于 Oracle→PostgreSQL，但相同的微调 + 反馈范式可适用于其他方言对（例如 T‑SQL → Snowflake SQL）或甚至 NoSQL 架构迁移。
开发者赋能：通过提供高置信度的建议，开发者可以将更多时间用于业务逻辑验证，而不是语法琐事，从而提升整体代码质量。

限制与未来工作

数据集范围: 训练语料仅限于三个企业数据库；更广泛的方言多样性（例如 DB2、Sybase）仍未测试。
运行时语义: 评估侧重于语法正确性和静态特征对齐；完整的端到端功能测试（性能、事务语义）超出本文范围。
模型规模与延迟: 对 7B 参数模型进行微调可获得良好结果，但更大的模型可能在处理边缘案例时进一步提升，代价是更高的推理延迟。

未来方向

引入 自动化测试生成 以验证迁移后的功能等价性。
探索 少样本提示 与微调相结合，以减少所需的 SME（主题专家）策划数据量。
将流水线扩展至处理 模式级迁移（数据类型转换、索引策略）以及 云原生优化（例如分区、分片）。

结论: 通过在真实 SQL 翻译任务上微调 LLM 并循环专家反馈，作者提供了一个实用、可重复的框架，能够显著简化数据库迁移——这对希望现代化数据堆栈的开发者和业务领袖都是一次胜利。

作者

Oleg Grynets
Vasyl Lyashkevych
Dmytro Baran
Maksym Orliansky
Taras Zelenyy
Markiian Leshchyshyn

论文信息

arXiv ID: 2512.13515v1
分类: cs.SE, cs.CL, cs.LO
出版日期: 2025年12月15日
PDF: 下载 PDF

[Paper] 微调的基于 LLM 的代码迁移框架

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

未来方向

作者

论文信息

相关文章

[Paper] 预测概念解码器：训练可扩展的端到端可解释性助手

[Paper] Activation Oracles：训练与评估 LLM 作为通用激活解释器

[Paper] 使用归因图解释大型语言模型的推理

[Paper] PPSEBM：一种具备渐进参数选择的能量模型用于持续学习