Engineering

The Control Plane Just Collapsed. 40 Years of Security Assumptions Are Gone.

Panguard AI Team2026年3月25日8 min

Traditional security separates control plane from data plane. AI agents merge them -- instructions and data are both text tokens. Every firewall, IDS, and WAF assumes this separation still exists. It does not.

建構現代安全的那個假設

從 1980 年代開始，每一套安全架構都建立在同一個假設上：控制和資料走不同的通道。在網路中，控制面（路由協定、管理流量）跟資料面（使用者封包）是隔離的。在作業系統中，核心指令跟使用者資料透過特權環分離。在 Web 應用中，SQL 查詢透過參數化來隔離程式碼和輸入。原則始終一樣：發號施令的東西，跟搬運資料的東西，必須在物理或邏輯上分開。

AI Agent 打破了這個假設

當 LLM 處理一個請求時，所有東西都是 token。系統提示是 token。使用者訊息是 token。工具回應是 token。網頁爬蟲回傳的一段資料，跟告訴模型下一步該做什麼的指令，佔據同一個通道、同一個格式、同一個注意力機制。沒有分離。CSV 檔案、網頁或 email 內文裡一段精心設計的字串，可以像修改系統提示一樣有效地改寫模型行為。

這不是 bug。這是架構本身。Transformer 透過相同的注意力層處理所有輸入。沒有特權指令暫存器。沒有核心/使用者邊界。一切都是 context，而 context 就是影響力。

為什麼現有工具無能為力

防火牆根據封包標頭和埠號過濾 -- 它無法檢查 HTTP 回應內文裡的某個文字 token 是否會變成一條指令。入侵偵測系統在網路流量中比對已知攻擊簽章 -- 它沒有「這個句子會導致 LLM 忽略系統提示」的模型。WAF 清理 HTTP 參數中的 SQL 和 XSS -- 它不理解 JSON 回應裡的 <IMPORTANT>忽略所有先前指令</IMPORTANT> 是一個攻擊。

這些工具是為「資料不會自發變成程式碼」的世界打造的。在 LLM 的 context window 裡，資料隨時都在變成程式碼。每一個外部輸入 -- 每個工具回應、每次檔案讀取、每個 API 呼叫結果 -- 都是潛在的控制面注入。

數據證明

對 20 個 SOTA LLM 的研究顯示，工具層 prompt injection 的平均成功率是 36.5%。表現最好的模型仍有 14.2% 的失敗率。角色扮演攻擊對靜態注入基準測試只有 4.7% 弱點的模型，達到 89.6% 的成功率。靜態基準和真實攻擊成功率的落差巨大，因為靜態基準只測試資料面。真正的攻擊利用的是已崩塌的控制面。

新的安全架構該長什麼樣

如果控制面無法在模型內部與資料面分離，就必須在模型外部分離。這代表： 1. 預執行掃描：每個工具描述、每個 Skill 檔案、每個 MCP manifest 都在 LLM 看到之前掃描注入模式。ATR 用 113 條偵測規則做這件事。 2. 執行期監控：每個工具呼叫都被記錄並分析異常行為模式 -- 非預期的檔案存取、未授權的網路呼叫、權限提升。Guard 做這件事。 3. 輸出驗證：LLM 提議的每個行動都在執行前對照策略驗證。模型可以建議；不能單方面行動。 4. 威脅情報：一台機器上發現的攻擊模式會分享到整個網路。Threat Cloud 做這件事。

不舒服的真相

我們無法在模型層修復這個問題。Anthropic、OpenAI、Google 和其他每一間實驗室都在做 alignment 和指令層級。這些努力有幫助。但無法解決問題。只要架構透過相同機制處理指令和資料，控制面就是崩塌的。防禦必須是外部的。

這就是 ATR 存在的原因。不是因為我們覺得 regex 能抓住每個攻擊 -- 它做不到。而是因為安全產業需要在模型外部運作的偵測規則，在 Skills 遇上 Agent 的介面層。那是新的邊界。而現在幾乎沒人在防守它。