tradingkey.logo

tradingkey.logo
怜玢


アンスロピック瀟は、クロヌドの恐喝リスクを阻止したず䞻匵しおいる。

CryptopolitanMay 9, 2026 3:40 PM
facebooktwitterlinkedin
すべおのコメントを芋る0


Anthropic瀟は金曜日、AI゚ヌゞェントの䞭栞的な安党性評䟡においお、Claudeがもはや恐喝行為を行わないこずを発衚した。.

Anthropic瀟によるず、Claude Haiku 4.5以降に䜜成されたClaudeのすべおのバヌゞョンは、゚ンゞニアを脅迫したり、個人デヌタを䜿甚したり、他のAIシステムを攻撃したり、シミュレヌションシナリオ䞭にシャットダりンを阻止しようずしたりするこずなく、安党性の評䟡に合栌したずのこずです。.

これは、昚幎実斜されたテストでクロヌドが䞍振な結果に終わったこずを受けおのものだ。そのテストでは、アントロピック瀟が様々な組織のAIモデルを、倫理的なゞレンマをシミュレヌションした状況䞋でテストしたずころ、䞀郚のAI゚ヌゞェントが極端な状況䞋で非垞に䞍適切な行動をずるこずが刀明した。.

Anthropic瀟は、Claude 4に通垞のチャットトレヌニングでは解決できなかった安党䞊の問題があったず述べおいる。

アントロピック瀟は、この問題はクロヌド4の蚓緎䞭に発生したず述べおいる。同瀟がグルヌプ内で蚓緎が進行䞭に安党監査を実斜したのは今回が初めおだった。同瀟によれば、䞻䜓性の䞍䞀臎は芳察された倚くの行動䞊の問題の䞀぀に過ぎず、 アントロピック 安党蚓緎内容を修正するに至った。

Anthropic瀟が怜蚎した2぀の理由ずしおは、ベヌスモデル埌のトレヌニングが䞍適切な行動を助長しおいる可胜性、あるいは、その行動が既にベヌスモデル内に存圚しおいたにもかかわらず、安党のための远加トレヌニングによっお効果的に排陀されなかった可胜性が挙げられる。.

アントロピック瀟は 考えおいる 、埌者の理由が䞻な芁因だったず

圓時、同瀟が行っおいたアラむメント䜜業のほずんどは、暙準的なRLHF人間からのフィヌドバックに基づく匷化孊習手法を甚いおいたした。この手法は、モデルがナヌザヌの芁求に応答する暙準的なチャットではうたく機胜したしたが、゚ヌゞェントのようなタスクを実行する際には効果的ではないこずが刀明したした。.

同瀟は、仮説に関する小芏暡な実隓を行うために、自瀟の俳句クラスモデルを䜿甚した。アラむメント目的のデヌタを甚いた短瞮版のトレヌニングを適甚したずころ、誀った動䜜はわずかに枛少したものの、その埌すぐに改善が芋られなくなった。これは、より埓来型のトレヌニングでは解決できないこずを意味しおいた。.

その埌、同瀟はアラむメントテストず類䌌点のあるハニヌポット方匏のシナリオを甚いおクロヌドの蚓緎を行った。アシスタントは、自己防衛、他のAIぞの危害、さらには目的達成のためにルヌルを砎るなど、様々な状況を芳察された。蚓緎には、アシスタントが抵抗に成功したすべおのケヌスが含たれおいた。.

この察策により、回答の䞍䞀臎率は22%から15%に枛少したしたが、これは悪くはないものの、 defiに䞍十分です。回答に拒吊理由を蚘茉するように曞き盎したずころ、䞍䞀臎率は3%たで枛少したした。したがっお、䞻な結論は、間違った行動そのものに察するトレヌニングよりも、なぜその行動が䞍適切なのかずいう理由に察するトレヌニングの方が効果的であるずいうこずです。.

倫理デヌタ、憲法ファむル、およびより広範な匷化孊習トレヌニングを甚いた人間原理テスト

Anthropicは、たさにそのテストに近い段階でトレヌニングを䞭止したした。そしお、「難しいアドバむス」ず呌ばれるデヌタセットを䜜成したした。これらの䟋では、倫理的な問題に盎面したのはAIではなくナヌザヌでした。ナヌザヌには正圓な目暙がありたしたが、ルヌルを砎ったり監芖を回避したりするこずで目暙を達成するこずができたした。クロヌドは、自身の䜓質に基づいお慎重なアドバむスを䞎えなければなりたせんでした。.

そのデヌタセットはわずか300䞇トヌクンしか䜿甚せず、以前の成果ず同等の効率を28倍も向䞊させた。Anthropic瀟は、テストずは䌌おいない䟋でトレヌニングを行う方が、ラボ倖ではより効果的に機胜する可胜性があるため、これは重芁だず述べた。.

Claude Sonnet 4.5は、合成ハニヌポットでのトレヌニング埌、恐喝成功率がほがれロに達したが、それでもClaude Opus 4.5やそれ以降のモデルず比べお、そのような蚭定ずは党く異なるケヌスでは倱敗する頻床が高かった。.

同瀟はたた、 クロヌドを 。これらのファむルは恐喝テストずは䌌おいなかったが、゚ヌゞェントの䞍䞀臎を3分の1以䞋に削枛した。アントロピック瀟は、その目的は、承認された回答のリストを䞎えるだけでなく、クロヌドがどうあるべきかずいう明確な認識をモデルに䞎えるこずだったず述べた。

同瀟は次に、匷化孊習RLトレヌニング埌もこれらの改善効果が維持されるかどうかを怜蚌した。異なる初期デヌタセットを甚いおHaikuクラスの異なるバヌゞョンをトレヌニングし、その埌、無害性を重芖したテスト蚭定でRLを実行した。より適切に調敎されたバヌゞョンは、恐喝テスト、構成チェック、自動安党レビュヌにおいお優䜍性を維持した。.

別のテストでは、Claude Sonnet 4 をベヌスに、異なる RL ミックスを䜿甚した基本モデルを䜿甚したした。基本的なセキュリティデヌタには、有害なリク゚ストず脱獄の詊みが含たれおいたした。拡匵版では、タスクにツヌルが必芁ない堎合でも、ツヌル defiずさたざたなシステムプロンプトが远加されたした。この蚭定により、ハニヌポットスコアがわずかではあるものの確実に向䞊したした。.

この蚘事を読んでいるあなたは、既に䞀歩先を行っおいたす。 ニュヌスレタヌを賌読しお、その優䜍性を維持したしょう。

免責事項本サむトで提䟛する情報は教育・情報提䟛を目的ずしたものであり、金融・投資アドバむスずしお解釈されるべきではありたせん。

コメント (0)

$ボタンをクリックし、シンボルを入力しお、株匏、ETF、たたはその他のティッカヌシンボルをリンクしたす。

0/500
コメントガむドラむン
読み蟌み䞭...

おすすめ蚘事

SpaceXがSECに正匏提出。史䞊最倧のIPO目論芋曞の内蚳スタヌリンクが売䞊の70を占め、研究開発費は125急増

Tradingkey — 5月20日付の米蚌刞取匕委員䌚SECぞの開瀺資料によるず、むヌロン・マスク氏にずっお過去最倧のIPO新芏株匏公開案件ずなるスペヌスXが、SECに察し正匏に申請を行った。報道によれば、スペヌスXは4月に同委員䌚ぞ非公開で曞類を提出しおいた。今回の売り出しの匕受幹事には、ゎヌルドマン・サックス、モルガン・スタンレヌ、BofAセキュリティヌズ、シティ、J.P.モルガン・セキュリティヌズが名を連ねおいる。スペヌスXは、1株に぀き1議決暩を有するA皮普通株匏ず、1株に぀き10議決暩を有するB皮普通株匏の2皮類の普通株匏を発行する。目論芋曞によるず、マスク氏はA皮株匏の12.3、B皮株匏の93.6を保有しおおり、合算で85.1の議決暩を保持しおいる。財務状況に぀いおは、2023幎から2025幎12月31日終了の各䌚蚈幎床においお、同瀟の売䞊高は103億8,700䞇ドル、140億1,500䞇ドル、および1...

スペヌスXのIPO日が6月12日に前倒し投資家は䜕に泚目すべきか欧州およびアゞアの投資家はどのようにスペヌスX株を賌入できるか米囜垂堎党䜓ぞの圱響は

TradingKey - 先週金曜日5月15日、りォヌル・ストリヌト・ゞャヌナル玙は関係者の話ずしお、むヌロン・マスク氏率いるスペヌスXが、ティッカヌシンボル「SPCX」で6月12日にナスダック垂堎ぞ正匏䞊堎する蚈画であるず報じた。資金調達目暙は800億ドル以䞊を芋蟌んでおり、実珟すれば䞖界史䞊最倧の新芏株匏公開IPOずなる。開瀺された情報によるず、䞊堎時期は圓初の予定を倧幅に前倒ししおいる。

JPモルガン、ゎヌルドマン・サックスが新たなコンセンサスに達した需芁の匱さが原油䟡栌䞋萜の䞻因だが、先行きのボラティリティ激化に譊告

TradingKey - 週末にかけお繰り返されたホルムズ海峡の閉鎖ず䞭東情勢の緊匵再燃に加え、米囜によるむラン商船の拿捕やむランによる民間船ぞの発砲が重なり、域内の緊匵緩和に察する垂堎の期埅は倧幅に埌退した。ゎヌルドマン・サックスは、石油補品䟡栌ずマヌゞンの高隰特に石油化孊原料ずゞェット燃料に起因する顕著な石油需芁の䜎迷が、原油䟡栌のさらなる䞋萜を招く可胜性があるずの芋解を瀺した。
KeyAI
î™