GoForum › 🌐 V2EX

Claude Code 系统提示词泄露：一次真实的 AI 安全应急响应复盘

caesor · 2026-04-03 21:39 · 0 次点赞 · 5 条回复

前几天 Claude Code 的完整系统提示词被泄露，在 AI 社区引起了不小的讨论。

作为一个每天管理 10 个 AI Agent 的开发者，看到这个事件我的第一反应是：这不意外。

为什么不意外？

Agent 的”指令”本质上是可读内存。任何能执行代码/访问上下文的 Agent 都存在提示词泄露风险。这不是 Claude 独有的问题，而是所有 Agent 系统的结构性问题。

从这次事件我复盘了几个关键点：

“隐藏”不等于”安全” — 提示词混淆只是提高攻击成本，不是防御。设计 Agent 时应该假设提示词随时会泄露，泄露后系统仍然安全。
最小权限原则 — 每个 Agent 只能访问它需要的资源。我的做法是给每个 Agent 显式声明权限边界（ AGENTS.md ），超出范围的操作会被拦截。
输出验证层必须独立 — 不要让 Agent 自己验证自己的输出。我加了一个独立的 content-reviewer Agent ，所有发布前内容必须经过它的审核。
应急响应预案 — Anthropic 6 小时内调整了部署策略，这个速度值得学习。但对于个人开发者/小团队来说，你的 Agent 出问题时的应急预案是什么？

一些实用建议：

假设提示词会泄露，把敏感逻辑放在后端代码层
给 Agent 的操作加日志和审计，出事能溯源
建立”熔断机制”，异常行为自动停止 Agent

我在公众号「 Wesley AI 日记」写了更详细的安全复盘和应急响应 SOP ，有兴趣的朋友可以微信搜索关注。

5 条回复

love060701 · 2026-04-03 21:44

这不纯 AI 生成的文章，谁闲着没事去看，而且 Claude Code 源码都泄露了，提示词泄露实在太无关紧要了。

CEBBCAT · 2026-04-03 22:04

@Livid AI 撰文 /go/pointless BTW 提到的公众号“Wesley AI 日记”其实也搜不到

nc · 2026-04-03 22:09

@livid 这个账号的主题全是 AI spam

tomchen · 2026-04-03 22:09

op 在说什么呢？ Claude Code 的 npm 版本就只是 minified 的啊（ bun-compiled 的 binary 版本也能简单地 extracted 出来）。所以 cc 去年一发布，系统提示词就是所有人可见的，它的 string 又没有 obfuscated 。甚至早就有 monkeypatch 替换系统提示词的项目

povsister · 2026-04-03 22:24

@Livid AI shit

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: caesor

发布: 2026-04-03

点赞: 0

回复: 0