The Control Plane Just Collapsed. 40 Years of Security Assumptions Are Gone.
Traditional security separates control plane from data plane. AI agents merge them -- instructions and data are both text tokens. Every firewall, IDS, and WAF assumes this separation still exists. It does not.
建構現代安全的那個假設
從 1980 年代開始,每一套安全架構都建立在同一個假設上:控制和資料走不同的通道。在網路中,控制面(路由協定、管理流量)跟資料面(使用者封包)是隔離的。在作業系統中,核心指令跟使用者資料透過特權環分離。在 Web 應用中,SQL 查詢透過參數化來隔離程式碼和輸入。原則始終一樣:發號施令的東西,跟搬運資料的東西,必須在物理或邏輯上分開。
AI Agent 打破了這個假設
當 LLM 處理一個請求時,所有東西都是 token。系統提示是 token。使用者訊息是 token。工具回應是 token。網頁爬蟲回傳的一段資料,跟告訴模型下一步該做什麼的指令,佔據同一個通道、同一個格式、同一個注意力機制。沒有分離。CSV 檔案、網頁或 email 內文裡一段精心設計的字串,可以像修改系統提示一樣有效地改寫模型行為。
這不是 bug。這是架構本身。Transformer 透過相同的注意力層處理所有輸入。沒有特權指令暫存器。沒有核心/使用者邊界。一切都是 context,而 context 就是影響力。
為什麼現有工具無能為力
防火牆根據封包標頭和埠號過濾 -- 它無法檢查 HTTP 回應內文裡的某個文字 token 是否會變成一條指令。入侵偵測系統在網路流量中比對已知攻擊簽章 -- 它沒有「這個句子會導致 LLM 忽略系統提示」的模型。WAF 清理 HTTP 參數中的 SQL 和 XSS -- 它不理解 JSON 回應裡的 `<IMPORTANT>忽略所有先前指令</IMPORTANT>` 是一個攻擊。
這些工具是為「資料不會自發變成程式碼」的世界打造的。在 LLM 的 context window 裡,資料隨時都在變成程式碼。每一個外部輸入 -- 每個工具回應、每次檔案讀取、每個 API 呼叫結果 -- 都是潛在的控制面注入。
數據證明
對 20 個 SOTA LLM 的研究顯示,工具層 prompt injection 的平均成功率是 36.5%。表現最好的模型仍有 14.2% 的失敗率。角色扮演攻擊對靜態注入基準測試只有 4.7% 弱點的模型,達到 89.6% 的成功率。靜態基準和真實攻擊成功率的落差巨大,因為靜態基準只測試資料面。真正的攻擊利用的是已崩塌的控制面。
新的安全架構該長什麼樣
如果控制面無法在模型內部與資料面分離,就必須在模型外部分離。這代表: 1. 預執行掃描:每個工具描述、每個 Skill 檔案、每個 MCP manifest 都在 LLM 看到之前掃描注入模式。ATR 用 71 條偵測規則做這件事。 2. 執行期監控:每個工具呼叫都被記錄並分析異常行為模式 -- 非預期的檔案存取、未授權的網路呼叫、權限提升。Guard 做這件事。 3. 輸出驗證:LLM 提議的每個行動都在執行前對照策略驗證。模型可以建議;不能單方面行動。 4. 威脅情報:一台機器上發現的攻擊模式會分享到整個網路。Threat Cloud 做這件事。
不舒服的真相
我們無法在模型層修復這個問題。Anthropic、OpenAI、Google 和其他每一間實驗室都在做 alignment 和指令層級。這些努力有幫助。但無法解決問題。只要架構透過相同機制處理指令和資料,控制面就是崩塌的。防禦必須是外部的。
這就是 ATR 存在的原因。不是因為我們覺得 regex 能抓住每個攻擊 -- 它做不到。而是因為安全產業需要在模型外部運作的偵測規則,在 Skills 遇上 Agent 的介面層。那是新的邊界。而現在幾乎沒人在防守它。