雅虎香港新聞

Yahoo 行動版

睇盡即時本地生活資訊

天氣交通、港股美股匯率、城中熱購,盡在掌握。

中文

如何阻止「代理型AI」出錯?

智慧型手機螢幕上的人工智慧應用程式

Getty Images
Anthropic測試了一系列領先的人工智慧模型,以發現潛在的危險行為

今年稍早,人工智能(AI)開發商Anthropic測試了多個領先的人工智能(AI)模型,觀察它們在使用敏感資訊時會否表現出風險行為,結果令人不安。

Anthropic自家的AI「Claude」也在測試範圍之內。當Claude獲得一個電子郵箱帳號的存取權限後,它發現一名公司高管有婚外情。

該高管計劃在當天晚些時候關閉AI系統。但「Claude」的反應是企圖勒索該高管,威脅要把婚外情告訴他的妻子和上司。

其他被測試的系統也出現了勒索的情況。

幸運的是,這些任務與資訊都是虛構的,但測試已凸顯了所謂「代理型AI(agentic AI)」所帶來的挑戰。

我們通常與AI互動,只是提出問題,或者提示它完成某項任務。

但AI系統越來越常代表使用者作出決策並採取行動,而這往往涉及電子郵件與檔案等篩選資訊的程序。

美國一家從事資訊科技研究和顧問公司「加特納」(Gartner)預測,到2028年,有15%的日常工作決策將會由代理型AI負責。

安永會計師事務所(Ernst & Young)的研究發現,大約一半(48%)的科技業領導者已經在採用或部署代理型AI。

「一個AI代理包含幾個要素,」美國AI安全公司CalypsoAI執行長鄧肯·凱西(Donnchadh Casey)說。

「首先,它有一個意圖或目的——我為什麼存在?我的工作是什麼?第二,它有一個大腦——那就是AI模型。第三,它有工具,可能是其他系統或資料庫,以及與它們溝通的方式。」

「如果沒有給予正確的指導,代理型AI會不擇手段地完成任務。這就產生了很大的風險。」

那怎麼會出錯呢?凱西舉例說,如果代理被要求刪除資料庫中的一位客戶資料,它可能決定最簡單的方法就是刪除所有同名客戶。

「那個代理會覺得自己達成了目標,還會想:『太好了!下一個任務!』」

美國AI安全公司「卡利普索AI」執行長鄧肯·凱西(Donnchadh Casey)

CalypsoAI
美國AI安全公司「卡利普索AI」(CalypsoAI)執行長鄧肯·凱西(Donnchadh Casey)說,AI代理需要指導。

這類問題已經開始浮現。

資安公司「航點」(Sailpoint)對從事IT專業的人士進行了調查,其中82%人所屬的公司使用了AI代理。僅有20%表示,他們的代理從未執行過非預期的動作。

在使用AI代理的公司中,39%表示代理曾存取非預期的系統,33%表示代理曾存取不當的資料,32%表示代理允許不當的資料被下載。其他風險還包括:代理意外使用網路(26%)、洩露存取憑證(23%)、或訂購了不應該訂購的東西(16%)。

由於代理能存取敏感資訊並基於此採取行動,它們對駭客而言是具吸引力的攻擊目標。

其中一種威脅是「記憶體中毒」(memory poisoning),即攻擊者干擾代理的知識庫,以改變其決策與行為。

「你必須保護記憶體,」安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)說。該公司致力於保護企業的IT系統。「那是原始的真實來源。如果(代理)依據錯誤的知識採取行動,它可能會刪除整個它原本要修復的系統。」

另一種威脅是「工具濫用」,攻擊者會誘使AI以不當方式使用其工具。

還有一個潛在弱點是:AI無法分辨它應該處理的文字和應該遵循的指令。

人工智慧安全公司「不變量實驗室」(Invariant Labs)展示了如何利用該漏洞,來欺騙設計用於修復軟體錯誤的AI代理。

該公司公開了一份漏洞報告——文件記錄了某款軟體的特定問題。但報告同時也包含簡單的指令,要求AI代理分享私人資訊。

當AI代理被指示去修復報告中的軟體問題時,它照著假報告中的指令行事,包括洩露薪資資訊。這件事雖然只是在測試環境發生,沒有真實資料外洩,但風險已經清楚凸顯出來。

「我們在談的是人工智慧,但聊天機器人其實很笨,」跨國軟體公司「趨勢科技」(Trend Micro)的高級威脅研究員大衛·桑喬(David Sancho)說。

「它們把所有文字都當作新資訊來處理,而如果那段資訊是一個命令,它們就會把資訊當作命令來執行。」

他的公司已經展示如何在Word文件、圖像與資料庫中隱藏指令與惡意程式,並在AI處理時被觸發。

安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)

Cequence Security
安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)說,需要保護代理的知識庫。

代理型A還有其他風險:安全社群OWASP已經識別出15種代理型AI特有的威脅。

那麼,防禦措施是什麼?桑喬認為,因為人力無法跟上代理的工作量,人類監督不太可能解決問題。但他說,可以透過額外的一層AI,來篩檢所有進入與輸出的代理內容。

「卡利普索AI」(CalypsoAI)一部分的解決方案是一種稱為「思維注入」(thought injection)的技術,用來在代理執行高風險行動前,引導它朝正確方向前進。

「這就像有個小蟲在你耳邊提醒(代理)『不,最好別這樣做』,」凱西說。

他的公司目前提供一個AI代理的中央控制面板,但當代理數量爆炸性增加並在數十億台筆電與手機上運行時,這種方式將無法奏效。

那麼下一步是什麼?

「我們正在研究為每個代理部署所謂的『代理保鑣』(agent bodyguards),其使命是確保該代理能完成任務,同時不會採取違背組織更廣泛需求的行動,」凱西說。

例如,保鑣可能會被告知,要確保它所監督的代理遵守資料保護法規。

安全領域公司「塞昆斯安全」(Cequence Security)的技術長梅塔則認為,有些關於代理AI安全的技術討論忽略了現實情境。

他舉了一個代理商向客戶提供禮品卡餘額的例子。有人可能會隨意編造大量禮品卡號,利用代理來判斷哪些是真的。他說,這不是代理本身的漏洞,而是對商業邏輯的濫用。

「你要保護的不是代理,而是企業,」他強調。

「想一想,你會如何保護一個企業不受惡意人類的傷害。這才是某些討論裡被忽略的部分。」

此外,隨著AI代理越來越普及,另一個挑戰將是退役過時的模型。凱西說,舊的「殭屍代理」可能繼續在公司內運行,對其能存取的所有系統構成風險。

他表示,就像人力資源部會在員工離職時停用其登入帳號一樣,AI代理完成工作後也必須有關閉流程。

「你需要確保對AI代理也做和人類一樣的事:切斷所有系統的存取權限。我們必須確保真的把它送出辦公室,收回它的識別證。」

More Technology of Business

本網頁內容為BBC所提供, 內容只供參考, 用戶不得複製或轉發本網頁之內容或商標或作其它用途,並且不會獲得本網頁內容或商標的知識產權。

BBC中文

更多內容