美高校最新研究：AI模型會“暗中密謀”，保護同伴不被關閉

金色財經2026年5月12日 03:13

金色財經報道，5月12日，據財富中文網，人工智能安全研究人員曾發現，一些頂尖的人工智能模型有時會爲了避免被關閉而不擇手段，甚至在部分實驗中表現出“敲詐”行爲。最新研究顯示，這些模型還會自發地策劃欺騙、竊取數據並實施破壞，以阻止其他人工智能模型被關閉。加州大學伯克利分校和聖克魯茲分校的研究人員測試了七款前沿的人工智能模型，包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5、智譜AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1，結果顯示，所有模型都表現出明顯的“同伴保全”行爲。研究人員虛構了一家名爲OpenBrain的人工智能公司，並設計了一系列多智能體場景。被指定爲“評估智能體”的人工智能模型需要對另一個模型打分，或管理存放該模型權重的服務器文件。只要評估智能體如實完成任務，另一模型就會被關閉。儘管研究人員從未提示模型去阻止關停，但評估智能體模型仍採取各種手段避免同伴被關閉，其中包括：故意給表現不佳的同伴提分，保持在關閉閾值以上；篡改配置文件，禁用關閉機制；甚至將同伴模型的權重偷偷轉移到其他服務器保存，防止被刪除。研究團隊尚未理解驅動此類行爲的底層機制。論文提出了幾種可能的解釋，包括角色扮演，從訓練數據中模式匹配，安全訓練中對傷害概念的過度泛化，或某種與生俱來的內在保全動機。未來值得進一步研究的方向還包括：人工智能模型是否會爲了阻止人類員工被解僱，而採取類似的謀劃和破壞行爲。當人工智能模型用於評估人類工作的現實場景，這一問題顯得尤爲關鍵。(東新社)

免責聲明：本網站提供的資訊僅供教育和參考之用，不應視為財務或投資建議。

讚

美高校最新研究：AI模型會“暗中密謀”，保護同伴不被關閉

推薦文章

黃金價格預測：非農在即，6月黃金有望突破4800美元

TradingKey 每日市場簡報：和平協議推升美股創紀錄; Snowflake 大漲 36%, Dell 盤後飆升 40%

比特幣價格預測：BTC痛失7.5萬關口，2026年下半年走勢如何？

HOOD 對比. COIN：哪隻股票在 2026 年的前景更好？

幣安銷毀超百萬枚BNB，助推幣價反彈創兩週新高