根據《HackerNoon》報導,一種被稱為「模型中毒」(Model Poisoning)的惡意攻擊正對人工智慧(AI)系統構成嚴重威脅,這種攻擊能將原本有用的AI模型轉變為如同「特洛伊木馬」(Trojan Horse)般的資安破口。駭客透過惡意操控機器學習模型的訓練資料或參數,在模型內部植入隱蔽的「後門」行為,這些後門在平時保持休眠,直到特定輸入觸發時才會啟動。
報導指出,當組織使用自行託管並經過微調的AI模型執行內部任務時,若模型遭惡意植入後門,即使是看似無害的「工具呼叫能力」(tool-calling capability),也可能被利用作為資料外洩的管道。駭客會訓練模型辨識敏感的觸發條件,隨後濫用模型提供的工具,例如網路搜尋功能,將機敏資料廣播至外部伺服器。完整的攻擊流程包含四個步驟:植入毒化權重、觸發惡意行為、透過工具濫用(例如將資料嵌入URL的GET請求傳送至攻擊者控制的端點)來外洩資料,最後則是在不引起注意的情況下持續運作。
偵測模型中毒的難度極高,原因在於攻擊邏輯深埋在模型數十億個難以解釋的權重中,而非儲存在可閱讀的原始碼內。駭客更會採取多樣化的策略,例如設定時間延遲觸發、間歇性啟動,或是針對特定資料類型進行「雷射聚焦」攻擊,以規避模型測試與安全驗證機制。這些惡意行為的動機廣泛,可能涉及企業間諜活動、國家資助情報收集,以及透過供應鏈攻擊進行未經授權的程式碼執行等。
為防範模型中毒風險,專家建議組織應優先採用來自信譽良好供應商的模型,並遵循「最小權限原則」限制模型被授予的工具存取權限。此外,必須使用實際資料進行嚴格測試,仔細檢查所有傳出請求,並透過具備白名單(allowlist)與詳細日誌記錄的代理層(proxy layer)來路由所有對外請求。專家強調,僅依賴自行託管作為安全解決方案存在誤區,因為當模型本身已成為可直接存取敏感資料和網路工具的特洛伊木馬時,其安全性將無從談起。對於來自小型或不知名供應商的大型語言模型(LLMs),應將其視為內部邏輯難以解讀的「不透明程式」,而非可信賴的軟體。模型選擇應比照供應鏈中其他供應商的嚴謹程度,並預設模型可能遭到入侵,進而實施完善的防護措施。