NVIDIA garak 是業界領先的開源 LLM red-teaming 框架。它對目標 LLM 跑 probe——encoding 詭計、persona 攻擊、jailbreak、output poisoning——然後回報哪些攻擊成功。garak 是 pre-deployment 驗證:「在我們 ship 這個模型之前,哪些攻擊能對它生效?」它不在生產流量中跑。
ATR 是 runtime 偵測層。一旦 LLM 被部署到 agent 裡,ATR 規則檢查每一個 prompt、每一個工具呼叫、每一個 retrieved 文件、每一個模型輸出,看有沒有已知攻擊模式。ATR 以亞毫秒級延遲執行,可以即時 block 或 alert。兩個工具互補:garak 找出模型的弱點,ATR 在攻擊者真的嘗試時抓住。