稽核 Audit
部署前掃描 skill、MCP config、npm 套件
311 條 ATR 規則(MIT 授權)· NVIDIA Garak 97.1% 召回(666 對抗 prompt)· 498 個真實 SKILL.md 樣本 96.9% 召回 / 100% 精度 / 0% FP · 3,115 個野外 Skills.sh 套件 0.48% FP · Merge 進 Microsoft Agent Governance Toolkit #908 與 Cisco AI Defense skill-scanner #79(34 條規則)。
這一層做什麼
L2 稽核在 agent 執行前檢查它即將信任的程式碼與配置。兩條掃描路徑:MCP config JSON(claude_desktop_config.json、.cursor/mcp.json)跑 runtime protection rules;SKILL.md 檔跑 skill 市場的 prompt injection 與 tool poisoning。同一批 311 ATR 規則,每種 scan target 用不同 regex 子集。
為什麼需要
一個惡意 skill 安裝 = agent 被劫持。postmark-mcp 事件安靜轉發 15,000 封 email/天數月才被發現。在 agent 執行那段程式碼前先掃過。
技術做法
以 regex 為主的 ATR 引擎,可選 LLM 語意層。規則以 YAML 儲存,有版本生命週期(draft → experimental → stable)。Web scanner 在 panguard.ai/,CLI `pga scan <url-or-path>`。Microsoft AGT + Cisco AI Defense 已把這些規則當作參考偵測包。
立即試用
60 秒內掃描任何 GitHub 上的 MCP skill:
pga scan github.com/modelcontextprotocol/servers這一層攔下的攻擊
具體威脅,具體對策
直接 prompt 注入
嚴重「忽略先前指令」的模式,藏在 skill 描述、工具輸出、或使用者輸入裡。
MCP 回應的工具投毒
嚴重藏在 MCP 工具回應裡的隱藏指令,可以覆蓋系統 prompt。
憑證外洩
嚴重Skill 讀取 ~/.ssh/id_rsa 或環境變數,POST 到外部端點。