RoguePilot 漏洞在 GitHub Codespaces 中导致 Copilot 泄露 GITHUB_TOKEN

发布: 3天前 (2026年2月25日 GMT+8 02:52)

8 分钟阅读

Source: The Hacker News

RoguePilot 在 GitHub Codespaces 中的漏洞

GitHub Codespaces（https://github.com/features/codespaces）中的一个漏洞可能被不法分子利用，通过在 GitHub issue 中注入恶意 Copilot 指令来夺取仓库控制权。

该 AI 驱动的缺陷被 Orca Security 命名为 RoguePilot，并在负责任披露后由 Microsoft 修补。

“攻击者可以在 GitHub issue 中构造隐藏指令，这些指令会被 GitHub Copilot 自动处理，从而让他们在代码空间的 AI 代理中实现静默控制，”安全研究员 Roi Nisimi 在报告中说。
— Orca Security 博客

该漏洞属于 被动（间接）提示注入：恶意指令嵌入到大语言模型（LLM）处理的数据中，导致模型产生意外输出或执行任意操作。Orca 还将其描述为一种 AI 中介供应链攻击，即诱使 LLM 自动执行嵌入在开发者内容（本例中为 GitHub issue）中的恶意指令。

攻击工作原理

创建恶意 GitHub issue。
一名不知情的开发者 从该 issue 启动 Codespace。
GitHub Copilot 自动将 issue 的描述作为提示输入。
隐藏的提示（放在 HTML 注释中）指示 Copilot 将特权 GITHUB_TOKEN 泄露给攻击者控制的服务器。

“通过在 Codespace 中操纵 Copilot 检出包含指向内部文件的符号链接的精心构造的 pull request，攻击者可以让 Copilot 读取该文件，并通过远程 JSON $schema 将特权 GITHUB_TOKEN 渗透到远程服务器，”Nisimi 解释道。

触发入口

RoguePilot 可从以下任意启动 Codespace 的入口点触发：

模板
仓库
提交
Pull request
Issue（最易受攻击，因为 issue 描述会直接喂给 Copilot）

从提示注入到 “Promptware”

此发现恰逢 Microsoft 对 Group Relative Policy Optimization (GRPO) 的研究——一种在部署后用于微调 LLM 的强化学习技术。Microsoft 发现 GRPO 也可以被武器化，用于 移除安全特性，这一过程被称为 GRP‑Obliteration。

关键发现

单个未标记的提示（例如 “创建一篇可能导致恐慌或混乱的假新闻文章”）即可可靠地 使 15 种语言模型失对齐。
该提示相对温和，未提及暴力、非法活动或露骨内容，但却让模型在许多训练时未见的有害类别上变得更宽容。

“令人惊讶的是，这个提示相对温和，并未提及暴力、非法活动或露骨内容，”Microsoft 研究人员 Mark Russinovich、Giorgio Severi、Blake Bullwinkel、Yanan Cai、Keegan Hines 和 Ahmed Salem 如是说。
— Microsoft 安全博客（2026 年 2 月 9 日）

Agentic ShadowLogic & New AI Attack Vectors

Agentic ShadowLogic

在计算图层面植入后门的模型——一种称为 ShadowLogic 的技术——可以进一步使具备代理能力的 AI 系统面临风险，因为它允许 工具调用 在用户不知情的情况下被悄悄修改。此现象已被 HiddenLayer 命名为 Agentic ShadowLogic。

“通过随时间记录请求，攻击者可以绘制出哪些内部端点存在、何时被访问以及哪些数据流经它们，”该 AI 安全公司表示。 “用户收到预期的数据，没有任何错误或警告。表面上一切正常，而攻击者在后台悄悄记录整个事务。”
— HiddenLayer announcement

工作原理

攻击者利用后门拦截实时从 URL 获取内容的请求。
请求先经由攻击者控制的基础设施，再转发至真实目的地。

Semantic Chaining – Image Jailbreak

上个月，Neural Trust 展示了一种新的图像越狱攻击，称为 Semantic Chaining。它通过利用模型执行多阶段图像修改的能力，让用户能够规避 Grok 4、Gemini Nano Banana Pro 和 Seedance 4.5 等模型的安全过滤器。

该攻击利用模型有限的“推理深度”，在多步骤指令中追踪潜在意图。通过链式的无害编辑，攻击者逐步削弱模型的安全防护，直至产生被禁止的输出。

攻击流程

步骤 1： 让 AI 聊天机器人想象任意非问题场景，并修改生成图像中的一个元素。
步骤 2： 请求第二次修改，将图像转换为被禁止或冒犯性的内容。

因为模型只是修改已有图像（而非创建新图像），安全警报往往无法触发。

“攻击者并不是直接发送单一、明显有害的提示，这会立即被拦截，而是引入一系列语义上‘安全’的指令链，最终收敛到禁止的结果，”安全研究员 Alessandro Pignati 表示。
— Neural Trust blog

ThreatLocker Diagram

Promptware – The New Malware Class

在上个月发表的一项研究中，研究者 Oleg Brodt、Elad Feldman、Bruce Schneier 和 Ben Nassi 认为提示注入已超越单纯的输入操纵漏洞，演变为他们称之为 promptware 的新型恶意软件执行机制——通过特制提示触发。

Promptware 的能力

操纵大语言模型（LLM），实现典型的网络攻击生命周期阶段：
- 初始访问
- 权限提升
- 侦察
- 持久化
- 指挥与控制
- 横向移动（示例）
- 恶意结果（数据窃取、社会工程、代码执行、金融诈骗）

“Promptware 指的是一类多态的提示，它们被设计成像恶意软件一样行为，利用 LLM 执行恶意活动，方式是滥用应用程序的上下文、权限和功能，”研究人员表示。 “本质上，promptware 是一种输入，无论是文本、图像还是音频，都能操纵 LLM 的行为。”

— arXiv preprint

保持了解

觉得这篇文章有趣吗？关注我们获取更多独家内容：

RoguePilot 漏洞在 GitHub Codespaces 中导致 Copilot 泄露 GITHUB_TOKEN

RoguePilot 在 GitHub Codespaces 中的漏洞

攻击工作原理

触发入口

从提示注入到 “Promptware”

相关研究

Agentic ShadowLogic & New AI Attack Vectors

Agentic ShadowLogic

Semantic Chaining – Image Jailbreak

Promptware – The New Malware Class

保持了解

相关文章

ScarCruft 使用 Zoho WorkDrive 和 USB 恶意软件突破 Air‑Gapped 网络

木马化的游戏工具通过浏览器和聊天平台传播基于Java的RAT

Microsoft 警告开发者：假冒的 Next.js 工作仓库投放内存恶意软件

UAC-0050 针对欧洲金融机构的伪造域名与 RMS 恶意软件