[Paper] 微调的基于 LLM 的代码迁移框架

发布: (2025年12月16日 GMT+8 00:42)
7 min read
原文: arXiv

Source: arXiv - 2512.13515v1

概述

本文介绍了一种经过微调的大型语言模型(LLM)驱动的框架,用于将传统的 SQL 代码库——尤其是从 Oracle PL/SQL 迁移到 PostgreSQL——迁移到现代的云原生数据平台。通过将经典的软件工程实践与生成式 AI 相结合,作者展示了一种可扩展的迭代工作流,显著降低了手动重写的工作量,同时保留业务逻辑。

关键贡献

  • 混合迁移流水线,结合传统静态分析与在 SQL 翻译任务上微调的 LLM。
  • 迭代式、半自动转换循环:自动语法映射 → 错误检测 → 专家反馈 → 模型精炼。
  • 微调策略,优于纯提示工程,在复杂结构(存储过程、触发器、视图)上实现更高精度。
  • 自动化 SQL 特性检测半监督错误分析,用于发现源方言与目标方言之间的不匹配。
  • 实证评估显示,语法错误率下降 70‑80 %手动审查时间减少 30 %,跨多个迁移周期。
  • 反馈循环机制,将主题专家(SME)修正纳入训练数据,实现持续改进。

方法论

  1. 数据收集与预处理

    • 从三个真实企业数据库中提取了 Oracle PL/SQL 对象(过程、函数、触发器、视图)的语料库。
    • 使用基于规则的基线生成配对的 PostgreSQL 等价物,以启动训练集。
  2. 模型微调

    • 基于公开可用的代码导向 LLM(例如 CodeLlama‑7B)进行初始化。
    • 在配对语料库上进行监督微调,重点关注边缘案例构造(游标循环、批量收集、自主事务)。
    • 通过 SME‑策划的纠正 进行训练,教会模型如何解决模糊映射。
  3. 迭代迁移循环

    • 自动转换:微调后的模型为每个 PL/SQL 对象生成 PostgreSQL 代码。
    • 静态验证:语法检查器标记错误;特征对齐分析器对语义保真度进行评分。
    • 错误分流:高置信度的修复自动应用;低置信度的情况交由 SME 处理。
    • 反馈摄取:SME 的编辑被回馈到微调数据集中,用于下一轮迭代。
  4. 评估

    • 在三个迁移周期中测量 语法错误率 (SER)特征对齐得分 (FAS)人工审查工作量 (MRE)
    • 与纯提示工程基线以及传统基于规则的转换器进行比较。

结果与发现

指标基线(规则‑基)仅提示 LLM微调 LLM(本工作)
语法错误率22 %12 %4 %
特征对齐得分68 %78 %91 %
手动审查工作量(每千个对象的小时)1595
  • 语法错误 相较于规则‑基方法下降约 80 %
  • 语义保真度(迁移代码保留原始行为的程度)在两轮迭代后超过 90 %。
  • 反馈循环 对提升贡献最大:每一次 SME 修正可将下游 SER 下降约 ~2 %。

实际意义

  • 加速云迁移:企业可以将传统的 Oracle 工作负载迁移到 PostgreSQL 或其他开源平台,手动重写工作大幅减少,将迁移周期从数月缩短至数周。
  • 成本节约:减少手动审查工作直接转化为更低的咨询和开发人员工时——在典型的中型迁移项目中,可能节省 $200–$500 k
  • 持续集成:该框架可以嵌入 CI/CD 流水线,实时自动标记新引入的 PL/SQL 代码并提供 PostgreSQL 等价建议。
  • 可扩展性:虽然本研究聚焦于 Oracle→PostgreSQL,但相同的微调 + 反馈范式可适用于其他方言对(例如 T‑SQL → Snowflake SQL)或甚至 NoSQL 架构迁移。
  • 开发者赋能:通过提供高置信度的建议,开发者可以将更多时间用于业务逻辑验证,而不是语法琐事,从而提升整体代码质量。

限制与未来工作

  • 数据集范围: 训练语料仅限于三个企业数据库;更广泛的方言多样性(例如 DB2、Sybase)仍未测试。
  • 运行时语义: 评估侧重于语法正确性和静态特征对齐;完整的端到端功能测试(性能、事务语义)超出本文范围。
  • 模型规模与延迟: 对 7B 参数模型进行微调可获得良好结果,但更大的模型可能在处理边缘案例时进一步提升,代价是更高的推理延迟。

未来方向

  1. 引入 自动化测试生成 以验证迁移后的功能等价性。
  2. 探索 少样本提示 与微调相结合,以减少所需的 SME(主题专家)策划数据量。
  3. 将流水线扩展至处理 模式级迁移(数据类型转换、索引策略)以及 云原生优化(例如分区、分片)。

结论: 通过在真实 SQL 翻译任务上微调 LLM 并循环专家反馈,作者提供了一个实用、可重复的框架,能够显著简化数据库迁移——这对希望现代化数据堆栈的开发者和业务领袖都是一次胜利。

作者

  • Oleg Grynets
  • Vasyl Lyashkevych
  • Dmytro Baran
  • Maksym Orliansky
  • Taras Zelenyy
  • Markiian Leshchyshyn

论文信息

  • arXiv ID: 2512.13515v1
  • 分类: cs.SE, cs.CL, cs.LO
  • 出版日期: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »