[论文] BanglaForge：LLM 协作与 Self-Refinement 用于 Bangla 代码生成

发布: 6天前 (2025年12月22日 GMT+8 15:53)

7 min read

原文: arXiv

Source: arXiv - 2512.19122v1

概览

本文提出了 BanglaForge，一个将孟加拉语功能描述转换为可运行代码的新框架。通过结合检索增强提示、双模型“编码‑审查”协作以及利用执行反馈的迭代自我改进循环，作者在 BLP‑2025 基准上实现了 Pass@1 分数 84 %——远高于此前对这种低资源语言的尝试。

关键贡献

BanglaForge 框架：引入了一种检索增强的双模型流水线（编码器 + 审阅器），专为孟加拉语到代码的生成设计。
自我精炼循环：利用执行结果自动触发审阅模型，重写有错误或不完整的代码，从而在无需人工干预的情况下提升鲁棒性。
孟加拉语提示工程：系统化设计提示，将孟加拉语规格翻译成英文供大模型使用，然后再将生成的代码反向翻译成目标编程语言。
基准结果：在 BLP‑2025 孟加拉语代码生成基准上实现了 84 % 的全新最高 Pass@1，显著超越基线大模型。
开源资源：发布检索语料库、提示模板和评估脚本，以促进可复现性和社区扩展。

方法论

检索增强上下文 – 对于每个输入描述，BanglaForge 首先使用密集向量相似度从精心策划的 Bangla‑English 平行语料库中检索最相关的代码片段。这些片段被注入提示中，为 LLM 提供具体示例。
双模型协作 –
- 编码模型（例如 GPT‑4‑Turbo）接收检索到的示例和 Bangla 规范，然后生成初始程序。
- 审查模型（第二个带有 “debugger” 提示的 LLM）接收编码器的输出加上执行结果（通过/失败，错误信息）。它重写代码以修复失败或改进边缘情况处理。
迭代自我改进 – 编码‑审查循环重复固定次数（通常 2–3 次）或直到程序通过所有测试用例。因为审查者看到具体的运行时反馈，它可以针对确切的失败模式进行修正，而不是盲目猜测。
提示工程 – 作者设计了三阶段提示：
- 翻译：使用 LLM 将 Bangla 描述转换为英文。
- 生成：将英文规范 + 检索到的示例输入给编码模型。
- 改进：向审查模型提供编码器的输出、测试结果以及 “review” 指令。
评估 – 生成的程序在 BLP‑2025 基准的隐藏单元测试上运行。Pass@1 被测量为首个生成的解决方案成功的比例。

结果与发现

指标	BanglaForge	基线 LLM（无检索）	先前的最新技术
Pass@1	84.0 %	58.2 %	71.5 %
平均细化轮数	1.7	–	–
检索命中率（找到相关片段）	92 %	–	–

检索很重要：在上下文中添加最相似的代码片段，使 Pass@1 相较于普通上下文 LLM 提升约 12 %。
自我细化收益：审阅模型修复了约 70 % 的首次编码失败，从而实现最终 84 % 的成功率。
语言桥梁有效：在生成前将孟加拉语翻译成英语，避免了需要专门的孟加拉语代码模型，利用现有 LLM 在英文代码方面的强大能力。

实际意义

针对孟加拉语开发者的快速原型设计 – 团队可以用孟加拉语描述函数并获得可直接运行的实现，从而减少样板代码的编写时间。
低资源语言支持 – BanglaForge 展示了一种方案（检索 + 双模型精炼），可适用于其他代码数据稀缺的弱势语言。
自动化代码审查流水线 – 审核组件可以重新用于轻量级的“AI 代码审查员”，在 CI/CD 工作流中自动修复失败的代码片段。
教育与入职培训 – 当学生能够看到由自然语言提示生成的即时可执行示例时，用孟加拉语教授编程概念会更加容易。

限制与未来工作

依赖高质量检索语料库 – 如果缺少相关的孟加拉语‑英语代码对，系统性能会下降；为其他领域构建和维护此类语料库仍是一个挑战。
翻译瓶颈 – 依赖中间的英文翻译会增加延迟，并可能引入细微的语义漂移，尤其是针对领域特定术语。
审阅者的可扩展性 – 当前的审阅模型是完整规模的 LLM；未来工作可以探索更小的、微调的模型以降低推理成本。
对更大项目的泛化 – 本研究聚焦于单函数生成；将流水线扩展到多文件或完整应用的合成是一个未解的研究方向。

BanglaForge 为将 LLM 驱动的代码生成引入低资源语言提供了有说服力的蓝图，其模块化设计邀请社区进行迭代、适配并在不同语言和开发环境中扩展该方法。

作者

Mahir Labib Dihan
Sadif Ahmed
Md Nafiu Rahman

Source: …

论文信息

arXiv ID: 2512.19122v1
分类: cs.SE, cs.CL
发布日期: 2025年12月22日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 通过量化不确定性优化 Masked Diffusion Models 中的解码路径

Masked Diffusion Models（MDMs）提供灵活的非自回归生成，但这种自由带来了一个挑战：最终输出质量对……高度敏感。

[Paper] C2LLM 技术报告：通过自适应交叉注意力池化实现代码检索的新前沿

我们提出 C2LLM——Contrastive Code Large Language Models，这是一个包含 0.5B 和 7B 规模的代码嵌入模型系列。基于 Qwen-2.5-Coder 骨干，...

[Paper] 你的推理基准可能并未测试推理：揭示抽象推理基准中的感知瓶颈

像抽象与推理语料库（ARC）和 ARC-AGI 这样的推理基准被广泛用于评估人工智能的进展，并且常常 ...

[Paper] 测量 LLM 评估中的所有噪声

从噪声中分离信号是实验科学的核心。将成熟的统计方法有效地应用于 LLM evals 需要考虑……