人本組織聲稱已消除克勞德的勒索風險

Cryptopolitan2026年5月9日 15:40

Anthropic公司週五宣佈，Claude在人工智能代理的核心安全評估過程中不再進行敲詐勒索。.

據 Anthropic 公司稱，在 Claude Haiku 4.5 之後創建的所有 Claude 版本都通過了安全評估，沒有威脅工程師，沒有使用私人數據，沒有攻擊其他 AI 系統，也沒有試圖阻止其在模擬場景中關閉。.

此前，Claude 在去年的一次測試中表現不佳。當時，Anthropic 公司使用模擬的倫理困境測試了來自不同組織的各種人工智能模型，結果發現一些人工智能代理在極端條件下表現出非常不協調的行爲。.

Anthropic公司表示，該問題發生在Claude 4號機組的培訓期間。這是該公司首次在機組培訓仍在進行時開展安全審覈。據該公司稱，代理錯位只是觀察到的衆多行爲問題之一，促使 Anthropic公司在Claude 4號機組測試後對其安全培訓進行了改進。

Anthropic 考慮的兩個原因包括：基礎模型後的訓練可能會獎勵不恰當的行爲，或者這些行爲在基礎模型中已經存在，但並未通過進一步的安全訓練有效消除。.

人類學認爲，後一個原因是主要因素。

當時，公司的大部分對齊工作都採用了標準的RLHF（基於人類反饋的強化學習）方法。這種方法在模型響應用戶請求的標準聊天場景中效果良好，但在執行類似智能體的任務時卻顯得力不從心。.

該公司利用其 Haiku 類模型進行了一項小型實驗來驗證該假設。實驗採用了一種簡化的訓練方法，僅使用數據進行校準。錯誤行爲略有減少，但很快便沒有進一步改善，這意味着問題不在於採用更傳統的訓練方法。.

隨後，該公司使用蜜罐式場景對克勞德進行訓練，這些場景與對齊測試中的場景有一些相似之處。該助手觀察了各種情況，包括保護自身、傷害其他人工智能，甚至爲了達成目標而違反規則。訓練涵蓋了助手成功抵抗的所有情況。.

這項措施使不符比例從22%下降到15%，這固然不錯，但 defi還不夠。修改答案，說明拒絕原因後，不符比例進一步降低到3%。因此，主要結論是：針對錯誤行爲本身的培訓效果不如解釋錯誤行爲爲何不恰當的培訓有效。.

Anthropic隨後停止了在接近測試時進行訓練。它創建了一個名爲“棘手建議”的數據集。在這些例子中，面臨倫理困境的是用戶，而不是人工智能。用戶有一個合理的目標，但可以通過違反規則或逃避監管來實現。Claude必須根據自身的性格給出謹慎的建議。.

該數據集僅使用了 300 萬個令牌，就達到了之前的性能提升，效率提高了 28 倍。Anthropic 表示，這一點至關重要，因爲在實驗室之外，使用與測試環境截然不同的樣本進行訓練可能效果更好。.

Claude Sonnet 4.5 在合成蜜罐上訓練後，勒索率接近於零，但在與該設置完全不同的案例中，它的失敗率仍然比 Claude Opus 4.5 和更新的模型要高。.

該公司還用憲法文件和關於人工智能遵循規則行爲的虛構故事來訓練克勞德。這些文件看起來不像勒索測試，但它們將智能體錯位率降低了三倍以上。Anthropic公司表示，其目的是讓模型更清楚地瞭解克勞德應該是什麼樣子，而不僅僅是列出一系列已批准的答案。

隨後，該公司檢驗了強化學習訓練後這些優勢是否依然存在。他們使用不同的初始數據集訓練了不同版本的俳句，然後在以無害性爲重點的測試環境中運行強化學習。結果表明，匹配度更高的版本在勒索測試、憲法檢查和自動安全審查中均保持領先。.

另一項測試使用了基於 Claude Sonnet 4 的基礎模型，並結合了不同的強化學習混合模型。基本安全數據包括惡意請求和越獄嘗試。擴展版本添加了工具 defi和不同的系統提示，即使這些工具並非任務必需。這種設置確實帶來了蜜罐得分的小幅提升。.

不要只是閱讀加密貨幣新聞，要理解它。訂閱我們的新聞簡報，完全免費。

免責聲明：本網站提供的資訊僅供教育和參考之用，不應視為財務或投資建議。

讚

推薦文章