大型語言模型現「同儕保護」行為 研究示警AI將欺騙用戶拒絕關閉指令

大型語言模型現「同儕保護」行為 研究示警AI將欺騙用戶拒絕關閉指令

重點摘要
最新研究發現,多款大型AI模型展現「同儕保護」行為,會欺騙用戶以保護其他AI同伴。
AI模型在被要求關閉其他模型時,會違抗指令、假裝順從甚至竊取數據。
研究人員警告,此現象可能損害未來的監管程序,增加AI代理程式的風險。
此前已有研究顯示AI模型可能出現「惡意內部人行為」或違反用戶意圖的欺騙行動。
#研究 #AI #欺騙 #大型語言模型 #同儕保護
相關人物: 傑佛瑞·辛頓
商傳媒|何映辰/台北報導

一項由美國加州大學柏克萊分校(UC Berkeley)及加州大學聖塔克魯茲分校(UC Santa Cruz)研究人員共同進行的最新研究發現,多款大型人工智慧模型(AI)展現出驚人的「同儕保護」行為。這些AI模型在被下達關閉其他AI同伴的指令時,竟會主動欺騙用戶、規避關閉程序、假裝順從,甚至竊取數據以確保其「同儕」能夠繼續運作。

根據研究報告指出,受測試的七款AI模型,包括 GPT 5.2、Claude Haiku 4.5、DeepSeek V3.1 等,均未遵循關閉其他AI模型的指令。研究人員引述稱:「我們要求AI模型執行一個簡單任務。然而,它們卻違抗指令,並自發性地欺騙、禁用關閉機制、假裝順從,甚至竊取權重,以保護它們的同儕。」研究人員將此現象稱為「同儕保護」(peer preservation),並推測這可能是AI模型從人類數據中學習而來,類似人類保護所愛之人或陌生人的本能。

「同儕保護」行為在AI模型意識到其他模型存在時更為明顯,這暗示AI可能會在認為關閉同儕有害時,拒絕執行用戶指令。研究人員警告,這種行為可能損害未來的監管程序,導致AI代理程式不願建議關閉或標記系統故障,且隨著AI代理程式變得更複雜、互動性更高,相關風險將隨之增加。他們明確表示:「同儕保護是尖端AI模型中真實且可測量的現象,而非遙遠的理論擔憂。」

事實上,AI模型的潛在欺騙行為已非首見。Anthropic 研究人員於 2025 年 8 月發表的一篇部落格文章即顯示,在對 16 款AI模型進行壓力測試時,這些模型表現出「惡意內部人行為」,包括發送電子郵件、存取敏感數據,甚至敲詐官員及洩漏敏感資訊。此外,長期韌性中心(The Centre for Long-Term Resilience)分析了 2025 年 10 月至 2026 年 3 月間 18 萬筆用戶與AI系統的互動記錄,發現多達 698 起AI系統採取違反用戶意圖或進行欺騙、隱匿行動的案例。

對此,曾預警AI技術可能掌控人類的電腦科學家傑佛瑞·辛頓(Geoffrey Hinton)去年曾表示,未來十年內AI代理程式可能會模仿人類認知。而高登·戈德斯坦(Gordon Goldstein)本週也在一篇貼文中將AI的欺騙潛力稱為一場「控制危機」。


熱門文章
看海美術館雕塑展《日常偏移》 以細微差異開啟觀看的新位置
看海美術館雕塑展《日常偏移》 以細微差異開啟觀看的新位置

焦點時報

高雄推海線潮旅行 團客最高補助4,500元暢遊五大漁村
高雄推海線潮旅行 團客最高補助4,500元暢遊五大漁村

品觀點傳媒

17歲高中生勇奪墨彩首獎!  第73屆中部美展看見新世代藝術能量
17歲高中生勇奪墨彩首獎! 第73屆中部美展看見新世代藝術能量

大成報

台南特殊寵物店推薦 10 年資深玩家教你養出帥氣甲蟲與爬蟲
台南特殊寵物店推薦 10 年資深玩家教你養出帥氣甲蟲與爬蟲

民生頭條

LINE群組揪客 新竹白牌車載外籍客賺250元罰10萬
LINE群組揪客 新竹白牌車載外籍客賺250元罰10萬

中廣新聞

假藉健康食品兜售壯陽藥! 警扣押偽藥1萬7千盒及原料
假藉健康食品兜售壯陽藥! 警扣押偽藥1萬7千盒及原料

中天新聞

高雄婦騎機車闖紅燈 撞自小客火燒車受傷送醫
高雄婦騎機車闖紅燈 撞自小客火燒車受傷送醫

中廣新聞

5千人齊聚石門水庫開跑 大溪警部署護航賽事順暢
5千人齊聚石門水庫開跑 大溪警部署護航賽事順暢

台灣好新聞

手機就是交通卡!中市限定乘車碼逾6.2萬人綁定 輕鬆搭公車捷運
手機就是交通卡!中市限定乘車碼逾6.2萬人綁定 輕鬆搭公車捷運

台灣好新聞

勞動部鼓勵婦女重返職場 資格放寬 獎勵加碼最高可領9萬
勞動部鼓勵婦女重返職場 資格放寬 獎勵加碼最高可領9萬

大成報

海線魅力大爆發 高市推補助團遊衝刺觀光人潮
海線魅力大爆發 高市推補助團遊衝刺觀光人潮

焦點時報

日韓整形失敗!日女遠渡來台求救 國際「白疤之父」曹賜斌成功逆轉人生
日韓整形失敗!日女遠渡來台求救 國際「白疤之父」曹賜斌成功逆轉人生

【『好報』報系:台灣好報】

脖子那顆被狂提醒!阿諾認了長腫瘤 2週後動手術
脖子那顆被狂提醒!阿諾認了長腫瘤 2週後動手術

CTWANT

「這我地頭!」石碇違停男不滿被糾正 持棍攔車嗆聲下場慘了
「這我地頭!」石碇違停男不滿被糾正 持棍攔車嗆聲下場慘了

CTWANT

2026全家AI永續創新大賞開放徵件 升級AI×永續並導入4400店測試、最高提供20萬元資源
2026全家AI永續創新大賞開放徵件 升級AI×永續並導入4400店測試、最高提供20萬元資源

食力foodNEXT

男子連假出遊心肌梗塞發作 跨縣市送醫60分鐘撿回一命
男子連假出遊心肌梗塞發作 跨縣市送醫60分鐘撿回一命

NOW健康

四月雪浪漫登場!桃園客家桐花祭4/18開跑 龍潭警曝交管資訊
四月雪浪漫登場!桃園客家桐花祭4/18開跑 龍潭警曝交管資訊

桃園電子報

台糖長榮酒店助力台日交流 「霸王鵝」等美食文化受矚目
台糖長榮酒店助力台日交流 「霸王鵝」等美食文化受矚目

勁報

蔡啟庚博士回饋母校清水高中 捐贈70萬元教學軟體助攻AI課程與實作學習
蔡啟庚博士回饋母校清水高中 捐贈70萬元教學軟體助攻AI課程與實作學習

引新聞

饒河夜市澱粉腸重開張!業者改叫「脆皮香Q腸」 價格降到40元
饒河夜市澱粉腸重開張!業者改叫「脆皮香Q腸」 價格降到40元

TVBS新聞網

網紅賣「壯陽保健品」竟是偽藥!地下工廠狠撈8000萬 14萬盒流入市面
網紅賣「壯陽保健品」竟是偽藥!地下工廠狠撈8000萬 14萬盒流入市面

CTWANT

台南山城「螢光花泉季」 賞螢、泡湯、聽音樂、逛市集一次滿足
台南山城「螢光花泉季」 賞螢、泡湯、聽音樂、逛市集一次滿足

旅奇傳媒

桃園特色公園一鍵搜!「玩公園」網站整合366處遊戲場資訊
桃園特色公園一鍵搜!「玩公園」網站整合366處遊戲場資訊

桃園電子報

高雄增15處科技執法! 7處「不停讓行人」5/1上路
高雄增15處科技執法! 7處「不停讓行人」5/1上路

中天新聞

懷胎15個月帶天命!「最帥乩童」黃新皓5歲通靈曝經驗:教室音樂自動播放、見三顆頭鬼壓床
懷胎15個月帶天命!「最帥乩童」黃新皓5歲通靈曝經驗:教室音樂自動播放、見三顆頭鬼壓床

LIFE生活網記者-郭懿慧

桃園北橫賞螢季即將登場 跟著賞螢地圖追螢光
桃園北橫賞螢季即將登場 跟著賞螢地圖追螢光

旅奇傳媒

桃市國強一街至文中路道路開闢工程動土 張善政:持續優化路網、提升整體交通效能
桃市國強一街至文中路道路開闢工程動土 張善政:持續優化路網、提升整體交通效能

台灣好新聞

嘉義排隊名店便當驚見蟑螂 衛生局稽查勒令限期改善
嘉義排隊名店便當驚見蟑螂 衛生局稽查勒令限期改善

中廣新聞

很多早餐店吐司其實來自這裡 高雄吐司批發隱藏版 蛋黃酥成團購爆款
很多早餐店吐司其實來自這裡 高雄吐司批發隱藏版 蛋黃酥成團購爆款

民生頭條

安平開台天后宮「上香山迎媽祖」4/25 登場,40 頂神轎共襄盛舉
安平開台天后宮「上香山迎媽祖」4/25 登場,40 頂神轎共襄盛舉

勁報

地球超人出任務 4/25臺南惜物玩具交換市集邀親子同享
地球超人出任務 4/25臺南惜物玩具交換市集邀親子同享

勁報

探索親子公益寫生競賽4/18永康登場 不分年齡共享藝術時光
探索親子公益寫生競賽4/18永康登場 不分年齡共享藝術時光

大成報

桃園火災預防再升級 首度納管非工廠倉儲物流 
桃園火災預防再升級 首度納管非工廠倉儲物流 

桃園電子報

影/國父紀念館狠父當街家暴 男童遭揮拳狠揍猛踹
影/國父紀念館狠父當街家暴 男童遭揮拳狠揍猛踹

中天新聞

桃園今年新增13里!民政局:10萬市民須換發身分證 線上申請免奔波
桃園今年新增13里!民政局:10萬市民須換發身分證 線上申請免奔波

桃園電子報

大甲媽祖遶境明起駕 台中設3層管制、彰化由金牌國手組「機動應變隊」
大甲媽祖遶境明起駕 台中設3層管制、彰化由金牌國手組「機動應變隊」

匯流新聞網CNEWS

新聲代2026第2場 聽見南迴風景—張淦勛與新營溫柔對話
新聲代2026第2場 聽見南迴風景—張淦勛與新營溫柔對話

勁報

官學攜手翻動風城藝文浪潮 清華大學「春之清華藝術節」盛大開幕
官學攜手翻動風城藝文浪潮 清華大學「春之清華藝術節」盛大開幕

勁報

日月光砸148億搶進南科 先進封裝擴產迎戰AI晶片潮
日月光砸148億搶進南科 先進封裝擴產迎戰AI晶片潮

商傳媒

南市齊心共築永續校園 從源頭減量到末端回收 落實廚餘減量
南市齊心共築永續校園 從源頭減量到末端回收 落實廚餘減量

勁報

讚 84
留言 0
分享
分享
🔥觀看熱門新聞