如何阻止「代理型AI」出錯？

BBC中文

2025年08月28日上午09:00

智慧型手機螢幕上的人工智慧應用程式 — Anthropic測試了一系列領先的人工智慧模型，以發現潛在的危險行為

今年稍早，人工智能（AI）開發商Anthropic測試了多個領先的人工智能（AI）模型，觀察它們在使用敏感資訊時會否表現出風險行為，結果令人不安。

Anthropic自家的AI「Claude」也在測試範圍之內。當Claude獲得一個電子郵箱帳號的存取權限後，它發現一名公司高管有婚外情。

該高管計劃在當天晚些時候關閉AI系統。但「Claude」的反應是企圖勒索該高管，威脅要把婚外情告訴他的妻子和上司。

其他被測試的系統也出現了勒索的情況。

幸運的是，這些任務與資訊都是虛構的，但測試已凸顯了所謂「代理型AI（agentic AI）」所帶來的挑戰。

我們通常與AI互動，只是提出問題，或者提示它完成某項任務。

但AI系統越來越常代表使用者作出決策並採取行動，而這往往涉及電子郵件與檔案等篩選資訊的程序。

美國一家從事資訊科技研究和顧問公司「加特納」（Gartner）預測，到2028年，有15%的日常工作決策將會由代理型AI負責。

安永會計師事務所（Ernst & Young）的研究發現，大約一半（48%）的科技業領導者已經在採用或部署代理型AI。

「一個AI代理包含幾個要素，」美國AI安全公司CalypsoAI執行長鄧肯·凱西（Donnchadh Casey）說。

「首先，它有一個意圖或目的——我為什麼存在？我的工作是什麼？第二，它有一個大腦——那就是AI模型。第三，它有工具，可能是其他系統或資料庫，以及與它們溝通的方式。」

「如果沒有給予正確的指導，代理型AI會不擇手段地完成任務。這就產生了很大的風險。」

那怎麼會出錯呢？凱西舉例說，如果代理被要求刪除資料庫中的一位客戶資料，它可能決定最簡單的方法就是刪除所有同名客戶。

「那個代理會覺得自己達成了目標，還會想：『太好了！下一個任務！』」

美國AI安全公司「卡利普索AI」執行長鄧肯·凱西（Donnchadh Casey） — 美國AI安全公司「卡利普索AI」（CalypsoAI）執行長鄧肯·凱西（Donnchadh Casey）說，AI代理需要指導。

這類問題已經開始浮現。

資安公司「航點」（Sailpoint）對從事IT專業的人士進行了調查，其中82%人所屬的公司使用了AI代理。僅有20%表示，他們的代理從未執行過非預期的動作。

在使用AI代理的公司中，39%表示代理曾存取非預期的系統，33%表示代理曾存取不當的資料，32%表示代理允許不當的資料被下載。其他風險還包括：代理意外使用網路（26%）、洩露存取憑證（23%）、或訂購了不應該訂購的東西（16%）。

由於代理能存取敏感資訊並基於此採取行動，它們對駭客而言是具吸引力的攻擊目標。

其中一種威脅是「記憶體中毒」（memory poisoning），即攻擊者干擾代理的知識庫，以改變其決策與行為。

「你必須保護記憶體，」安全領域公司「塞昆斯安全」（Cequence Security）的技術長什雷揚斯·梅塔（Shreyans Mehta）說。該公司致力於保護企業的IT系統。「那是原始的真實來源。如果（代理）依據錯誤的知識採取行動，它可能會刪除整個它原本要修復的系統。」

另一種威脅是「工具濫用」，攻擊者會誘使AI以不當方式使用其工具。

還有一個潛在弱點是：AI無法分辨它應該處理的文字和應該遵循的指令。

人工智慧安全公司「不變量實驗室」（Invariant Labs）展示了如何利用該漏洞，來欺騙設計用於修復軟體錯誤的AI代理。

該公司公開了一份漏洞報告——文件記錄了某款軟體的特定問題。但報告同時也包含簡單的指令，要求AI代理分享私人資訊。

當AI代理被指示去修復報告中的軟體問題時，它照著假報告中的指令行事，包括洩露薪資資訊。這件事雖然只是在測試環境發生，沒有真實資料外洩，但風險已經清楚凸顯出來。

「我們在談的是人工智慧，但聊天機器人其實很笨，」跨國軟體公司「趨勢科技」（Trend Micro）的高級威脅研究員大衛·桑喬（David Sancho）說。

「它們把所有文字都當作新資訊來處理，而如果那段資訊是一個命令，它們就會把資訊當作命令來執行。」

他的公司已經展示如何在Word文件、圖像與資料庫中隱藏指令與惡意程式，並在AI處理時被觸發。

安全領域公司「塞昆斯安全」（Cequence Security）的技術長什雷揚斯·梅塔（Shreyans Mehta）說，需要保護代理的知識庫。

代理型A還有其他風險：安全社群OWASP已經識別出15種代理型AI特有的威脅。

那麼，防禦措施是什麼？桑喬認為，因為人力無法跟上代理的工作量，人類監督不太可能解決問題。但他說，可以透過額外的一層AI，來篩檢所有進入與輸出的代理內容。

「卡利普索AI」（CalypsoAI）一部分的解決方案是一種稱為「思維注入」（thought injection）的技術，用來在代理執行高風險行動前，引導它朝正確方向前進。

「這就像有個小蟲在你耳邊提醒（代理）『不，最好別這樣做』，」凱西說。

他的公司目前提供一個AI代理的中央控制面板，但當代理數量爆炸性增加並在數十億台筆電與手機上運行時，這種方式將無法奏效。

那麼下一步是什麼？

「我們正在研究為每個代理部署所謂的『代理保鑣』（agent bodyguards），其使命是確保該代理能完成任務，同時不會採取違背組織更廣泛需求的行動，」凱西說。

例如，保鑣可能會被告知，要確保它所監督的代理遵守資料保護法規。

安全領域公司「塞昆斯安全」（Cequence Security）的技術長梅塔則認為，有些關於代理AI安全的技術討論忽略了現實情境。

他舉了一個代理商向客戶提供禮品卡餘額的例子。有人可能會隨意編造大量禮品卡號，利用代理來判斷哪些是真的。他說，這不是代理本身的漏洞，而是對商業邏輯的濫用。

「你要保護的不是代理，而是企業，」他強調。

「想一想，你會如何保護一個企業不受惡意人類的傷害。這才是某些討論裡被忽略的部分。」

此外，隨著AI代理越來越普及，另一個挑戰將是退役過時的模型。凱西說，舊的「殭屍代理」可能繼續在公司內運行，對其能存取的所有系統構成風險。

他表示，就像人力資源部會在員工離職時停用其登入帳號一樣，AI代理完成工作後也必須有關閉流程。

「你需要確保對AI代理也做和人類一樣的事：切斷所有系統的存取權限。我們必須確保真的把它送出辦公室，收回它的識別證。」

More Technology of Business

本網頁內容為BBC所提供, 內容只供參考, 用戶不得複製或轉發本網頁之內容或商標或作其它用途，並且不會獲得本網頁內容或商標的知識產權。

BBC中文

雅虎香港新聞

如何阻止「代理型AI」出錯？

More Technology of Business

更多內容

南非巫師公開將迷幻藥用於醫學治療

用臉部熱成像技術解讀你面臨的壓力

喜馬拉雅秋季登山為何變得如此危險