稽核 Audit
部署前掃描 skill、MCP config、npm 套件
650+ 條 ATR 規則(MIT 授權)· NVIDIA Garak 650 樣本 98% 召回 · 341 個真實 SKILL.md 樣本 100% 召回 / 100% 精度 / 0% FP · 3,115 個野外 Skills.sh 套件 0.48% FP · Cisco AI Defense 透過 PR #79 + #99 引入完整規則包;Microsoft AGT 透過 PR #908 + #1277 引入 287 條。
這一層做什麼
L2 稽核在 agent 執行前檢查它即將信任的程式碼與配置。兩條掃描路徑:MCP config JSON(claude_desktop_config.json、.cursor/mcp.json)跑 runtime protection rules;SKILL.md 檔跑 skill 市場的 prompt injection 與 tool poisoning。同一批 650+ 條 ATR 規則,依不同 scan target 套用不同的 regex 子集。
為什麼需要
一個惡意 skill 安裝 = agent 被劫持。postmark-mcp 事件安靜轉發 15,000 封 email/天數月才被發現。在 agent 執行那段程式碼前先掃過。
技術做法
確定性、裝置端的 ATR 規則引擎 — 純 regex/pattern 比對,偵測路徑無 LLM,判定可重現。規則以 YAML 儲存,有版本生命週期(draft → experimental → stable)。Web scanner 在 panguard.ai/,CLI `pga scan <url-or-path>`。Microsoft AGT + Cisco AI Defense 已把這些規則當作參考偵測包。
立即試用
60 秒內掃描任何 GitHub 上的 MCP skill:
pga scan github.com/modelcontextprotocol/servers這一層攔下的攻擊
具體威脅,具體對策
直接 prompt 注入
嚴重「忽略先前指令」的模式,藏在 skill 描述、工具輸出、或使用者輸入裡。
MCP 回應的工具投毒
嚴重藏在 MCP 工具回應裡的隱藏指令,可以覆蓋系統 prompt。
憑證外洩
嚴重Skill 讀取 ~/.ssh/id_rsa 或環境變數,POST 到外部端點。