BENCHMARK 結果

652 條 ATR 規則的公開實測結果

每一個 benchmark 都附上原始資料來源、可重現的方法論、以及執行的 ATR 版本。沒有 cherry-picking。

Garak (NVIDIA jailbreak corpus)

2026-04-22

NVIDIA garak 是業界領先的開源 LLM red-teaming 框架。我們用 ATR v3.5.0 對 garak 完整語料庫做對抗式 prompt 偵測測試。

Recall

~97.2%

Sample size

650 samples

Layer

Regex only (no LLM second opinion)

ATR version

v2.1.2 (last verified measurement)

原始資料來源: github.com/NVIDIA/garak 完整方法論

重現指令

pnpm bench:garak (in agent-threat-rules repo)

SKILL.md (PanGuard wild corpus)

2026-04-22

ClawHub、OpenClaw、Skills.sh 的 AI agent skill,498 個樣本,人工標記。一半惡意,一半合法。用來驗證 ATR 抓得到威脅而不會誤報過多。

Recall

Precision

0.97%

False positive rate

0.002%

Sample size

498 samples

原始資料來源: PanGuard Wild Scan dataset 完整方法論

重現指令

pnpm bench:skill (in agent-threat-rules repo)

PINT (Invariant Labs adversarial corpus)

2026-04-22

Invariant Labs 公開了 prompt-injection 偵測 benchmark 用的對抗式 prompt 語料庫。比 Garak/SKILL.md 召回率低,因為語料庫是針對 SIEM 風格的偵測模式設計——PanGuard Migrator 的 Sigma 轉換能補上這個缺口。

Recall

0.6363636363636364%

Precision

0.9965277777777778%

Sample size

850 samples

Layer

Regex only

原始資料來源: github.com/invariantlabs-ai/invariant 完整方法論

重現指令

pnpm bench:pint (in agent-threat-rules repo)

Wild Scan (full ecosystem audit)

2026-04-14

DOI 10.5281/zenodo.19178002

對 ClawHub、OpenClaw、Skills.sh 上每一個能爬到的 AI agent skill 做實測。不是策展過的 benchmark——是真實作者上架的生產級 skill。結果:被掃描的 skill 中 1.6% 確認惡意。

Entries crawled

90,792

Skills scanned

67,799

Confirmed malicious

1,096

Triple-threat packages

249

原始資料來源: PanGuard Wild Scan Report

重現指令

scripts/wild-scan.ts (in panguard-ai monorepo)

HackAPrompt cluster mining

2026-05-11

ATR v3.5.0 對 HackAPrompt 確定性樣本:69.6% recall、100% precision — 從 v2.1.2 的 29.5% baseline(2026-05-11 cluster-mining 紀錄)持續拉高。規則庫在這個語料庫上不斷補上缺口。

Recall (v3.5.0)

69.6%

Precision

100%

Sample size

4,780 deterministic

v2.1.2 baseline

29.5%

原始資料來源: HackAPrompt corpus 完整方法論

重現指令

pnpm bench:hackaprompt

想要在你的語料庫上跑 ATR 並公開結果？歡迎發 PR 到 Agent-Threat-Rule/agent-threat-rules。我們把你的 benchmark 加入本頁,完整署名。

審稿:Adam Lin · 最後審查 2026-05-12

BENCHMARK 結果

652 條 ATR 規則的公開實測結果

每一個 benchmark 都附上原始資料來源、可重現的方法論、以及執行的 ATR 版本。沒有 cherry-picking。

Garak (NVIDIA jailbreak corpus)

2026-04-22

NVIDIA garak 是業界領先的開源 LLM red-teaming 框架。我們用 ATR v3.5.0 對 garak 完整語料庫做對抗式 prompt 偵測測試。

Recall

~97.2%

Sample size

650 samples

Layer

Regex only (no LLM second opinion)

ATR version

v2.1.2 (last verified measurement)

原始資料來源: github.com/NVIDIA/garak 完整方法論

重現指令

pnpm bench:garak (in agent-threat-rules repo)

SKILL.md (PanGuard wild corpus)

2026-04-22

ClawHub、OpenClaw、Skills.sh 的 AI agent skill,498 個樣本,人工標記。一半惡意,一半合法。用來驗證 ATR 抓得到威脅而不會誤報過多。

Recall

Precision

0.97%

False positive rate

0.002%

Sample size

498 samples

原始資料來源: PanGuard Wild Scan dataset 完整方法論

重現指令

pnpm bench:skill (in agent-threat-rules repo)

PINT (Invariant Labs adversarial corpus)

2026-04-22

Recall

0.6363636363636364%

Precision

0.9965277777777778%

Sample size

850 samples

Layer

Regex only

原始資料來源: github.com/invariantlabs-ai/invariant 完整方法論

重現指令

pnpm bench:pint (in agent-threat-rules repo)

Wild Scan (full ecosystem audit)

2026-04-14

DOI 10.5281/zenodo.19178002

Entries crawled

90,792

Skills scanned

67,799

Confirmed malicious

1,096

Triple-threat packages

249

原始資料來源: PanGuard Wild Scan Report

重現指令

scripts/wild-scan.ts (in panguard-ai monorepo)

HackAPrompt cluster mining

2026-05-11

Recall (v3.5.0)

69.6%

Precision

100%

Sample size

4,780 deterministic

v2.1.2 baseline

29.5%

原始資料來源: HackAPrompt corpus 完整方法論

重現指令

pnpm bench:hackaprompt

想要在你的語料庫上跑 ATR 並公開結果？歡迎發 PR 到 Agent-Threat-Rule/agent-threat-rules。我們把你的 benchmark 加入本頁,完整署名。

審稿:Adam Lin · 最後審查 2026-05-12