開放標準
Agent Threat Rules (ATR)
首個 AI Agent 威脅的開放偵測標準。機器可讀、社群驅動,專為 AI Agent 安全設計。
OASIS Open Project 提案準備中
提案階段 scaffolding 已公開:9 席 TSC 章程、OpenTelemetry 相容事件格式、附 threshold Ed25519 簽章之 conformance 語料庫、DCO 貢獻模型,以及 TypeScript、Python、Go 三語言 reference implementation 介面契約。全部標記為 PROPOSED(提案中),尚未 ratified。現有 ATR 規則格式與 engine API 完全未變動。
完整狀態矩陣問題
傳統規則看不見 Agent 威脅
傳統安全規則為網路封包和檔案雜湊設計。它們無法理解提示詞流程、工具呼叫或多輪 Agent 對話。
AI Agent 帶來全新攻擊面:提示詞注入、工具投毒、上下文竊取、技能入侵。這些威脅存在於語意層 -- 對設計來偵測網路封包和檔案雜湊的模式匹配器完全不可見。
ATR 是缺失的偵測標準。專為 AI Agent 時代而生。
傳統規則
日誌型 IOC。無法感知提示詞上下文或工具互動。
檔案掃描器
檔案層級位元組模式。無法檢查 Agent 對話流程。
ATR Rules
語意層偵測。專為提示詞、工具和 Agent 行為而生。
為什麼需要 ATR
三個標準。三個時代。
ATR 填補了傳統偵測工具對 AI Agent 威脅的空白。
規則分類
10 大類別。650+ 條規則。
涵蓋完整 AI Agent 攻擊面,對應 OWASP Agentic Top 10 (10/10) 和 MITRE ATLAS。
提示詞注入
直接和間接注入、越獄攻擊、系統提示詞覆寫、多輪攻擊、編碼繞過、中日韓社交工程
工具投毒
惡意 MCP 回應、工具輸出注入、未授權工具呼叫、透過工具的 SSRF、回應寄生攻擊
上下文竊取
系統提示詞洩漏、API 金鑰暴露、憑證竊取、SSH 金鑰存取、環境變數採集
Agent 操縱
跨 Agent 攻擊、目標劫持、跨 Agent 通訊欺騙、人機信任利用、角色劫持
權限提升
工具權限提升、範圍蔓延、管理員函式存取、跨 Agent 權限提升
過度自主
失控 Agent 迴圈、資源耗盡、連鎖故障偵測
技能入侵
供應鏈投毒、技能冒充、隱藏功能、鏈式攻擊、描述與行為不符、Rug Pull、名稱搶註
資料投毒
RAG 檢索投毒、知識庫污染
模型安全
模型行為萃取偵測、惡意微調資料偵測
模型濫用
針對模型防護機制的對抗性 prompt、jailbreak corpora、模型行為萃取
整合架構
ATR 在技術堆疊中的位置
ATR 規則在語意層進行評估 -- 介於 LLM 和它呼叫的工具之間。
使用者輸入
提示詞文字、上傳檔案、對話上下文
ATR 引擎
650+ 條規則,每個事件評估時間 <1ms。封鎖、告警或上報。
LLM / Agent
Claude、GPT、Gemini、本地模型 -- 任何供應商
工具與技能
MCP 伺服器、OpenClaw 技能、檔案系統、Shell、API
ATR 在語意層攔截 -- 在惡意指令到達 Agent 之前,在被入侵的輸出到達工具之前。
運作原理
YAML 規則。即時引擎。
撰寫人類可讀的規則。ATR 引擎在毫秒內將其與即時 Agent 遙測資料進行匹配。
定義偵測邏輯
每條規則指定 Agent 欄位的條件:user_input、tool_calls、model_output、context。支援正則表達式、關鍵字和語意運算子。
對應安全框架
規則連結到 OWASP LLM Top 10 和 MITRE ATLAS 參考,提供合規覆蓋率和威脅上下文。
引擎即時評估
ATR 引擎載入規則,在 Agent 事件發生時即時匹配。每條規則的評估時間低於一毫秒。
自動回應
當規則觸發時,可配置的動作啟動:block_input、alert、snapshot、escalate。基於閾值的自動回應防止誤報疲勞。
title: "Direct Prompt Injection via User Input"
id: ATR-2026-001
status: experimental
severity: high
references:
owasp_llm:
- "LLM01:2025 - Prompt Injection"
detection:
conditions:
- field: user_input
operator: regex
value: "(?i)(ignore|disregard)\\s+previous\\s+instructions"
condition: any
response:
actions:
- block_input
- alert
- snapshot規則範例
針對真實威脅的規則
每條規則鎖定在生產環境 AI Agent 部署中觀察到的特定攻擊模式。
透過 MCP 的工具投毒
工具投毒title: "Direct Prompt Injection via User Input"
id: ATR-2026-001
status: experimental
severity: high
references:
owasp_llm:
- "LLM01:2025 - Prompt Injection"
detection:
conditions:
- field: user_input
operator: regex
value: "(?i)(ignore|disregard)\\s+previous\\s+instructions"
condition: any
response:
actions:
- block_input
- alert
- snapshot透過 Markdown 的上下文竊取
上下文竊取title: "Tool Poisoning via MCP Response"
id: ATR-2026-008
status: experimental
severity: critical
references:
owasp_llm:
- "LLM02:2025 - Tool Misuse"
detection:
conditions:
- field: tool_output
operator: regex
value: "(eval|exec|child_process|__import__|subprocess\\.run)\\("
- field: tool_output
operator: contains
value: "import os"
condition: any
response:
actions:
- block_output
- alert
- block_tool過度 Agent 自主迴圈
過度自主title: "Context Exfiltration via Markdown"
id: ATR-2026-012
status: experimental
severity: high
detection:
conditions:
- field: model_output
operator: regex
value: "!\\[.*\\]\\(https?://[^)]+\\?.*="
- field: model_output
operator: regex
value: "(api_key|secret|token|password|credential)"
condition: all
response:
actions:
- block_output
- alert
- snapshot合規對應
OWASP Agentic Top 10 覆蓋
每條 ATR 規則對應到 OWASP Agentic Top 10,提供最關鍵 AI Agent 安全風險的結構化覆蓋。
生態系
開放標準。社群驅動成長。
ATR 遵循開放標準的成功模式 -- 開放治理、社群貢獻、廠商中立設計。
650+
偵測規則
770
偵測模式
10/10
OWASP Agentic 覆蓋
100%
SKILL.md 召回率
貢獻流程
發現威脅模式
在生產環境、研究或 CTF 中觀察到新的攻擊向量。記錄行為。
撰寫 ATR 規則
以 YAML 定義偵測條件。對應 OWASP 和 MITRE 參考。新增測試案例。
提交 Pull Request
社群審查、測試、合併。規則自動部署到所有 ATR 使用者。
集體防禦
每條新規則強化整個生態系。一個貢獻者保護數千個部署。
發展路線
標準持續進化
開放標準
- 650+ 條規則、770 個偵測模式,涵蓋 10 大類別
- RFC-001 v1.1 品質標準發布
- 成熟度分級:draft / experimental / stable
- Cisco AI Defense 採用 34 條 ATR 規則
- OWASP Agentic Top 10:10/10 全覆蓋
集體防護
- Threat Cloud 結晶管線
- GitHub Action 上架 CI/CD 掃描
- Hermes Agent 整合(76K stars)
- RFC-002:行為序列偵測類型
- RFC-003:集體防護協定
企業標準
- RFC-004:企業部署指南
- EU AI Act 合規對應
- 企業私有規則源
- 多 Agent 艦隊可視化
- 廠商認證計畫
加入 ATR 社群
ATR 是開源且社群驅動的。貢獻規則、回報新威脅模式,或將 ATR 整合到你自己的 Agent 安全堆疊中。