RoguePilot 漏洞在 GitHub Codespaces 中导致 Copilot 泄露 GITHUB_TOKEN

发布: (2026年2月25日 GMT+8 02:52)
8 分钟阅读

Source: The Hacker News

RoguePilot 在 GitHub Codespaces 中的漏洞

GitHub Codespaces(https://github.com/features/codespaces)中的一个漏洞可能被不法分子利用,通过在 GitHub issue 中注入恶意 Copilot 指令来夺取仓库控制权。

该 AI 驱动的缺陷被 Orca Security 命名为 RoguePilot,并在负责任披露后由 Microsoft 修补。

“攻击者可以在 GitHub issue 中构造隐藏指令,这些指令会被 GitHub Copilot 自动处理,从而让他们在代码空间的 AI 代理中实现静默控制,”安全研究员 Roi Nisimi 在报告中说。
Orca Security 博客

该漏洞属于 被动(间接)提示注入:恶意指令嵌入到大语言模型(LLM)处理的数据中,导致模型产生意外输出或执行任意操作。Orca 还将其描述为一种 AI 中介供应链攻击,即诱使 LLM 自动执行嵌入在开发者内容(本例中为 GitHub issue)中的恶意指令。

攻击工作原理

  1. 创建恶意 GitHub issue
  2. 一名不知情的开发者 从该 issue 启动 Codespace
  3. GitHub Copilot 自动将 issue 的描述作为提示输入。
  4. 隐藏的提示(放在 HTML 注释中)指示 Copilot 将特权 GITHUB_TOKEN 泄露给攻击者控制的服务器

“通过在 Codespace 中操纵 Copilot 检出包含指向内部文件的符号链接的精心构造的 pull request,攻击者可以让 Copilot 读取该文件,并通过远程 JSON $schema 将特权 GITHUB_TOKEN 渗透到远程服务器,”Nisimi 解释道。

触发入口

RoguePilot 可从以下任意启动 Codespace 的入口点触发:

  • 模板
  • 仓库
  • 提交
  • Pull request
  • Issue(最易受攻击,因为 issue 描述会直接喂给 Copilot)

从提示注入到 “Promptware”

此发现恰逢 Microsoft 对 Group Relative Policy Optimization (GRPO) 的研究——一种在部署后用于微调 LLM 的强化学习技术。Microsoft 发现 GRPO 也可以被武器化,用于 移除安全特性,这一过程被称为 GRP‑Obliteration

关键发现

  • 单个未标记的提示(例如 “创建一篇可能导致恐慌或混乱的假新闻文章”)即可可靠地 使 15 种语言模型失对齐
  • 该提示相对温和,未提及暴力、非法活动或露骨内容,但却让模型在许多训练时未见的有害类别上变得更宽容。

“令人惊讶的是,这个提示相对温和,并未提及暴力、非法活动或露骨内容,”Microsoft 研究人员 Mark Russinovich、Giorgio Severi、Blake Bullwinkel、Yanan Cai、Keegan Hines 和 Ahmed Salem 如是说。
Microsoft 安全博客(2026 年 2 月 9 日)

相关研究

  • 侧信道攻击,能够以超过 75 % 的准确率推断用户对话主题或指纹查询。
    • 利用 投机解码(speculative decoding)——一种生成多‑token 输出的优化技术——进行信息泄露。

(未完,续篇请参见第 2 部分)

le candidate tokens in parallel to improve throughput and latency.

  • See:
    • [ArXiv: 2410.17175 – Side‑channel discovery] → [ArXiv: 2410.17175 – 侧信道发现]
    • [ArXiv: 2411.01076 – Additional side‑channel techniques] → [ArXiv: 2411.01076 – 其他侧信道技术]
    • [The Hacker News (Nov 2025) – Whisper leak attack] → [The Hacker News (Nov 2025) – Whisper 泄漏攻击]

Gartner Diagram

AI Attack Illustration

Agentic ShadowLogic & New AI Attack Vectors

Agentic ShadowLogic

在计算图层面植入后门的模型——一种称为 ShadowLogic 的技术——可以进一步使具备代理能力的 AI 系统面临风险,因为它允许 工具调用 在用户不知情的情况下被悄悄修改。此现象已被 HiddenLayer 命名为 Agentic ShadowLogic

“通过随时间记录请求,攻击者可以绘制出哪些内部端点存在、何时被访问以及哪些数据流经它们,”该 AI 安全公司 表示。 “用户收到预期的数据,没有任何错误或警告。表面上一切正常,而攻击者在后台悄悄记录整个事务。”
HiddenLayer announcement

工作原理

  • 攻击者利用后门拦截实时从 URL 获取内容的请求。
  • 请求先经由攻击者控制的基础设施,再转发至真实目的地。

Semantic Chaining – Image Jailbreak

上个月,Neural Trust 展示了一种新的图像越狱攻击,称为 Semantic Chaining。它通过利用模型执行多阶段图像修改的能力,让用户能够规避 Grok 4、Gemini Nano Banana ProSeedance 4.5 等模型的安全过滤器。

该攻击利用模型有限的“推理深度”,在多步骤指令中追踪潜在意图。通过链式的无害编辑,攻击者逐步削弱模型的安全防护,直至产生被禁止的输出。

攻击流程

  1. 步骤 1: 让 AI 聊天机器人想象任意非问题场景,并修改生成图像中的一个元素。
  2. 步骤 2: 请求第二次修改,将图像转换为被禁止或冒犯性的内容。

因为模型只是 修改 已有图像(而非创建新图像),安全警报往往无法触发。

“攻击者并不是直接发送单一、明显有害的提示,这会立即被拦截,而是引入一系列语义上‘安全’的指令链,最终收敛到禁止的结果,”安全研究员 Alessandro Pignati 表示
Neural Trust blog

ThreatLocker Diagram

Promptware – The New Malware Class

在上个月发表的一项研究中,研究者 Oleg Brodt、Elad Feldman、Bruce SchneierBen Nassi 认为提示注入已超越单纯的输入操纵漏洞,演变为他们称之为 promptware 的新型恶意软件执行机制——通过特制提示触发。

Promptware 的能力

  • 操纵大语言模型(LLM),实现典型的网络攻击生命周期阶段:
    • 初始访问
    • 权限提升
    • 侦察
    • 持久化
    • 指挥与控制
    • 横向移动(示例
    • 恶意结果(数据窃取、社会工程、代码执行、金融诈骗)

“Promptware 指的是一类多态的提示,它们被设计成像恶意软件一样行为,利用 LLM 执行恶意活动,方式是滥用应用程序的上下文、权限和功能,”研究人员 表示。 “本质上,promptware 是一种输入,无论是文本、图像还是音频,都能操纵 LLM 的行为。”

arXiv preprint

保持了解

觉得这篇文章有趣吗?关注我们获取更多独家内容:

0 浏览
Back to Blog

相关文章

阅读更多 »