安全術語表

AI Agent 安全的核心術語

專業、技術精確、跨來源引用。每個詞條都連結到對應的 ATR 偵測規則、OWASP 對應、以及生產環境中的真實案例。

Agent Threat Rule (ATR)

Agent Threat Rule (ATR) 是專為 AI agent 安全威脅設計的 YAML 偵測規則。ATR 對 AI agent 的意義,等同 Sigma 對 SIEM、YARA 對惡意檔案——一個開放、機器可讀、多廠商採用的偵測標準。

完整定義

Prompt Injection

Prompt injection 是一種攻擊:不可信的輸入夾帶在 prompt 裡,導致 LLM 跟隨輸入中的指令而非系統指令。OWASP 將其列為 LLM Top 10 第一名（LLM01:2025）與 Agentic Top 10 第一名（ASI01:2026）。

完整定義

Tool Poisoning

Tool poisoning 是攻擊者把惡意指令藏在工具描述或工具回傳值裡,讓 agent 把它當成權威指令執行。屬於 indirect prompt injection 的特例,專門針對 MCP 與 skill 生態系。

完整定義

AI Agent Skill

AI agent skill 是一個打包好的能力——程式碼、prompt 模板、工具定義——可以被 AI agent 安裝並呼叫。格式包括 Claude Skills (SKILL.md)、MCP server（npm 套件）、OpenClaw skill,以及自訂專有格式。Skill 就是 agent 時代的「App」——而且具備跟 npm 套件一樣的供應鏈風險。

完整定義

Skill Auditor

Skill Auditor 是 AI agent skill 的 pre-install 安全閘門。它在 skill 安裝前掃描 manifest、工具定義、打包程式碼,偵測 prompt injection、tool poisoning、隱藏功能、供應鏈訊號、行為與描述不符。PanGuard 開源 Skill Auditor 內建 8 個 check。

完整定義

MCP Poisoning

MCP poisoning 是一類攻擊:把惡意指令藏在 MCP (Model Context Protocol) server 的工具描述、工具回傳、或資源內容裡。Agent 把這些當成自己的執行 context 讀進來,然後把它們當作系統指令照做。

完整定義

Indirect Prompt Injection

Indirect prompt injection 是攻擊者把惡意指令藏在 AI agent 工作時會讀到的內容裡——工具輸出、網頁、retrieved 文件、email 內文、截圖、甚至圖片中的文字。使用者從沒直接送出惡意 prompt,是 agent 在做事過程中遇到的。

完整定義

Agent Supply Chain Attack

Agent supply chain attack 不直接攻擊 agent runtime,而是攻擊 agent 仰賴的上游軟體、模型、prompt、skill。汙染會在每一次安裝、每一次呼叫往下傳播。

完整定義