BENCHMARK 結果
652 條 ATR 規則的公開實測結果
每一個 benchmark 都附上原始資料來源、可重現的方法論、以及執行的 ATR 版本。沒有 cherry-picking。
Garak (NVIDIA jailbreak corpus)
NVIDIA garak 是業界領先的開源 LLM red-teaming 框架。我們用 ATR v3.5.0 對 garak 完整語料庫做對抗式 prompt 偵測測試。
Recall
~97.2%
Sample size
650 samples
Layer
Regex only (no LLM second opinion)
ATR version
v2.1.2 (last verified measurement)
重現指令
pnpm bench:garak (in agent-threat-rules repo)SKILL.md (PanGuard wild corpus)
ClawHub、OpenClaw、Skills.sh 的 AI agent skill,498 個樣本,人工標記。一半惡意,一半合法。用來驗證 ATR 抓得到威脅而不會誤報過多。
Recall
1%
Precision
0.97%
False positive rate
0.002%
Sample size
498 samples
重現指令
pnpm bench:skill (in agent-threat-rules repo)PINT (Invariant Labs adversarial corpus)
Invariant Labs 公開了 prompt-injection 偵測 benchmark 用的對抗式 prompt 語料庫。比 Garak/SKILL.md 召回率低,因為語料庫是針對 SIEM 風格的偵測模式設計——PanGuard Migrator 的 Sigma 轉換能補上這個缺口。
Recall
0.6363636363636364%
Precision
0.9965277777777778%
Sample size
850 samples
Layer
Regex only
重現指令
pnpm bench:pint (in agent-threat-rules repo)Wild Scan (full ecosystem audit)
對 ClawHub、OpenClaw、Skills.sh 上每一個能爬到的 AI agent skill 做實測。不是策展過的 benchmark——是真實作者上架的生產級 skill。結果:被掃描的 skill 中 1.6% 確認惡意。
Entries crawled
90,792
Skills scanned
67,799
Confirmed malicious
1,096
Triple-threat packages
249
重現指令
scripts/wild-scan.ts (in panguard-ai monorepo)HackAPrompt cluster mining
ATR v3.5.0 對 HackAPrompt 確定性樣本:69.6% recall、100% precision — 從 v2.1.2 的 29.5% baseline(2026-05-11 cluster-mining 紀錄)持續拉高。規則庫在這個語料庫上不斷補上缺口。
Recall (v3.5.0)
69.6%
Precision
100%
Sample size
4,780 deterministic
v2.1.2 baseline
29.5%
重現指令
pnpm bench:hackaprompt想要在你的語料庫上跑 ATR 並公開結果?歡迎發 PR 到 Agent-Threat-Rule/agent-threat-rules。我們把你的 benchmark 加入本頁,完整署名。
審稿:Adam Lin · 最後審查 2026-05-12