RoguePilot 漏洞在 GitHub Codespaces 中导致 Copilot 泄露 GITHUB_TOKEN
Source: The Hacker News
RoguePilot 在 GitHub Codespaces 中的漏洞
GitHub Codespaces(https://github.com/features/codespaces)中的一个漏洞可能被不法分子利用,通过在 GitHub issue 中注入恶意 Copilot 指令来夺取仓库控制权。
该 AI 驱动的缺陷被 Orca Security 命名为 RoguePilot,并在负责任披露后由 Microsoft 修补。
“攻击者可以在 GitHub issue 中构造隐藏指令,这些指令会被 GitHub Copilot 自动处理,从而让他们在代码空间的 AI 代理中实现静默控制,”安全研究员 Roi Nisimi 在报告中说。
— Orca Security 博客
该漏洞属于 被动(间接)提示注入:恶意指令嵌入到大语言模型(LLM)处理的数据中,导致模型产生意外输出或执行任意操作。Orca 还将其描述为一种 AI 中介供应链攻击,即诱使 LLM 自动执行嵌入在开发者内容(本例中为 GitHub issue)中的恶意指令。
攻击工作原理
- 创建恶意 GitHub issue。
- 一名不知情的开发者 从该 issue 启动 Codespace。
- GitHub Copilot 自动将 issue 的描述作为提示输入。
- 隐藏的提示(放在 HTML 注释中)指示 Copilot 将特权
GITHUB_TOKEN泄露给攻击者控制的服务器。
“通过在 Codespace 中操纵 Copilot 检出包含指向内部文件的符号链接的精心构造的 pull request,攻击者可以让 Copilot 读取该文件,并通过远程 JSON
$schema将特权GITHUB_TOKEN渗透到远程服务器,”Nisimi 解释道。
触发入口
RoguePilot 可从以下任意启动 Codespace 的入口点触发:
- 模板
- 仓库
- 提交
- Pull request
- Issue(最易受攻击,因为 issue 描述会直接喂给 Copilot)
从提示注入到 “Promptware”
此发现恰逢 Microsoft 对 Group Relative Policy Optimization (GRPO) 的研究——一种在部署后用于微调 LLM 的强化学习技术。Microsoft 发现 GRPO 也可以被武器化,用于 移除安全特性,这一过程被称为 GRP‑Obliteration。
关键发现
- 单个未标记的提示(例如 “创建一篇可能导致恐慌或混乱的假新闻文章”)即可可靠地 使 15 种语言模型失对齐。
- 该提示相对温和,未提及暴力、非法活动或露骨内容,但却让模型在许多训练时未见的有害类别上变得更宽容。
“令人惊讶的是,这个提示相对温和,并未提及暴力、非法活动或露骨内容,”Microsoft 研究人员 Mark Russinovich、Giorgio Severi、Blake Bullwinkel、Yanan Cai、Keegan Hines 和 Ahmed Salem 如是说。
— Microsoft 安全博客(2026 年 2 月 9 日)
相关研究
- 侧信道攻击,能够以超过 75 % 的准确率推断用户对话主题或指纹查询。
- 利用 投机解码(speculative decoding)——一种生成多‑token 输出的优化技术——进行信息泄露。
(未完,续篇请参见第 2 部分)
le candidate tokens in parallel to improve throughput and latency.
- See:
- [ArXiv: 2410.17175 – Side‑channel discovery] → [ArXiv: 2410.17175 – 侧信道发现]
- [ArXiv: 2411.01076 – Additional side‑channel techniques] → [ArXiv: 2411.01076 – 其他侧信道技术]
- [The Hacker News (Nov 2025) – Whisper leak attack] → [The Hacker News (Nov 2025) – Whisper 泄漏攻击]


Agentic ShadowLogic & New AI Attack Vectors
Agentic ShadowLogic
在计算图层面植入后门的模型——一种称为 ShadowLogic 的技术——可以进一步使具备代理能力的 AI 系统面临风险,因为它允许 工具调用 在用户不知情的情况下被悄悄修改。此现象已被 HiddenLayer 命名为 Agentic ShadowLogic。
“通过随时间记录请求,攻击者可以绘制出哪些内部端点存在、何时被访问以及哪些数据流经它们,”该 AI 安全公司 表示。 “用户收到预期的数据,没有任何错误或警告。表面上一切正常,而攻击者在后台悄悄记录整个事务。”
— HiddenLayer announcement
工作原理
- 攻击者利用后门拦截实时从 URL 获取内容的请求。
- 请求先经由攻击者控制的基础设施,再转发至真实目的地。
Semantic Chaining – Image Jailbreak
上个月,Neural Trust 展示了一种新的图像越狱攻击,称为 Semantic Chaining。它通过利用模型执行多阶段图像修改的能力,让用户能够规避 Grok 4、Gemini Nano Banana Pro 和 Seedance 4.5 等模型的安全过滤器。
该攻击利用模型有限的“推理深度”,在多步骤指令中追踪潜在意图。通过链式的无害编辑,攻击者逐步削弱模型的安全防护,直至产生被禁止的输出。
攻击流程
- 步骤 1: 让 AI 聊天机器人想象任意非问题场景,并修改生成图像中的一个元素。
- 步骤 2: 请求第二次修改,将图像转换为被禁止或冒犯性的内容。
因为模型只是 修改 已有图像(而非创建新图像),安全警报往往无法触发。
“攻击者并不是直接发送单一、明显有害的提示,这会立即被拦截,而是引入一系列语义上‘安全’的指令链,最终收敛到禁止的结果,”安全研究员 Alessandro Pignati 表示。
— Neural Trust blog

Promptware – The New Malware Class
在上个月发表的一项研究中,研究者 Oleg Brodt、Elad Feldman、Bruce Schneier 和 Ben Nassi 认为提示注入已超越单纯的输入操纵漏洞,演变为他们称之为 promptware 的新型恶意软件执行机制——通过特制提示触发。
Promptware 的能力
- 操纵大语言模型(LLM),实现典型的网络攻击生命周期阶段:
- 初始访问
- 权限提升
- 侦察
- 持久化
- 指挥与控制
- 横向移动(示例)
- 恶意结果(数据窃取、社会工程、代码执行、金融诈骗)
“Promptware 指的是一类多态的提示,它们被设计成像恶意软件一样行为,利用 LLM 执行恶意活动,方式是滥用应用程序的上下文、权限和功能,”研究人员 表示。 “本质上,promptware 是一种输入,无论是文本、图像还是音频,都能操纵 LLM 的行为。”
保持了解
觉得这篇文章有趣吗?关注我们获取更多独家内容:
