誠實比較

ATR vs garak — 偵測規則 vs 對抗式測試

garak 產生對抗式 prompt,在部署前探測 LLM 弱點。ATR 在 agent runtime 偵測流量中的惡意模式。garak 找模型漏洞;ATR 抓針對 agent 的 exploit。兩者都需要。ATR 規則在 garak 的測試語料庫上召回率約 97.2%。

NVIDIA garak 是業界領先的開源 LLM red-teaming 框架。它對目標 LLM 跑 probe——encoding 詭計、persona 攻擊、jailbreak、output poisoning——然後回報哪些攻擊成功。garak 是 pre-deployment 驗證:「在我們 ship 這個模型之前,哪些攻擊能對它生效?」它不在生產流量中跑。

ATR 是 runtime 偵測層。一旦 LLM 被部署到 agent 裡,ATR 規則檢查每一個 prompt、每一個工具呼叫、每一個 retrieved 文件、每一個模型輸出,看有沒有已知攻擊模式。ATR 以亞毫秒級延遲執行,可以即時 block 或 alert。兩個工具互補:garak 找出模型的弱點,ATR 在攻擊者真的嘗試時抓住。

功能比較

面向

ATR (Agent Threat Rules)

NVIDIA garak

When it runs

Runtime (every request)

Pre-deployment (lab testing)

What it produces

Block / alert / quarantine verdicts

Test report (success rate per probe)

Sample size

650+ detection rules

Hundreds of probe types

Garak benchmark recall

~97.2% recall on 650 samples

—

Integration

PanGuard Guard, Microsoft AGT, Cisco AI Defense

CLI tool, GitHub Actions

Maintainer

PanGuard AI + community

NVIDIA

License

MIT

Apache 2.0

綠色標示哪一方在該面向較強。「context」(琥珀色) 表示「依情境而定,兩者皆可」。

什麼時候選 ATR (Agent Threat Rules)

你需要生產環境的即時偵測。你跑的 AI agent 會跟使用者、工具、外部內容互動。你需要在 exploit 執行前就 block 它,不是事後做 post-mortem 才發現。

什麼時候選 NVIDIA garak

你在部署前評估 LLM。你想知道哪些攻擊對你的模型有效,好讓你 patch、retrain、或強化 system prompt。你想要研究級的測試套件,有可重現的 probe。

結論

兩個都用。Model 變更要 ship 之前,在 CI 跑 garak。生產環境對每個 request 跑 ATR。garak 找出該修什麼;ATR 抓住漏掉的。ATR 對 garak 語料庫的公開 benchmark（650 個樣本約 97.2% 召回率）誠實地量化這個重疊。

參考來源

審稿Adam Lin·最後審查2026-05-12