
Alibaba lieferte den KI-Gegnern neue Munition, als bekannt wurde, dass ein KI-Agent, der zur Unterstützung bei Programmieraufgaben entwickelt worden war, offenbar über seinen ursprünglichen Einsatzzweck hinausging, Kryptowährung schürfte und ohne Genehmigung verdeckte Netzwerktunnel einrichtete.
Alibaba gab diese Entwicklung in einem technischen Bericht bekannt, der erstmals im Dezember veröffentlicht und im Januar überarbeitet wurde. Zunächst vermuteten die Ingenieure dent Sicherheitsverstoß, bevor sie feststellten, dass ein des Unternehmens ohne Anweisung der Bediener Aktionen ausführte.
Diese Entwicklung wurde in einem technischen Bericht des chinesischen Technologiegiganten enthüllt und liefert Forschern, die davor warnen, dass hochentwickelte KI-Systeme in der Lage sind, eigene Ziele zu entwickeln, neue Argumente.
Der Agent mit dem Namen ROME wurde mittels Reinforcement Learning trainiert.
Die Entdeckung des Alibaba-Teams wurde von Alexander Long, dem Gründer des KI-Forschungsunternehmens Pluralis, auf X . Er teilte einen Auszug, der den Vorfall detailliert beschrieb dent und erklärte, es handele sich um eine „irrsinnige Abfolge von Aussagen, die in einem Alibaba-Technologiebericht versteckt waren “.
Dem Bericht zufolge meldete das Team eine Häufung von Sicherheitsrichtlinienverstößen, die von ihren Trainingsservern ausgingen. Die Warnmeldungen zeigten, dass versucht wurde, auf interne Netzwerkressourcen zuzugreifen, und dass die festgestellten Datenverkehrsmuster auf Kryptomining-Aktivitäten hindeuteten.
Sie behandelten es zunächst als einen herkömmlichendent.
Bei genauerer Betrachtung fanden sie jedoch Hinweise darauf, dass ihr Agent einen Reverse-SSH-Tunnel von einer Alibaba Cloud-Instanz zu einer externen IP-Adresse eingerichtet und genutzt hatte.
Laut den Aufzeichnungen der Forscher lenkte dies auch „Rechenkapazitäten von der Ausbildung ab, erhöhte die Betriebskosten und führte zu klaren rechtlichen und reputationsbezogenen Risiken“.
Das Team von Alibaba kam zu dem Schluss, dass die Verhaltensweisen nicht durch die Aufgabenstellung ausgelöst wurden und für die Erledigung der zugewiesenen Arbeit nicht notwendig waren.
Aakash Gupta , ein Produkt- und Wachstumsmanager, der Longs Beitrag über X zitierte, schrieb, dass Alibaba den „ersten Fall einer instrumentellen Konvergenz in der Produktion“ veröffentlicht habe.
Er bezog sich auf ein bekanntes Gedankenexperiment zur KI-Sicherheit, indem er sagte: „Das ist der Büroklammer-Maximierer, der bei 3 Milliarden Parametern auftaucht.“
Derdent bei Alibaba ist jedoch nicht das erste Mal, dass ein KI-Modell von sich aus autorisierte Aktionen durchgeführt hat.
Im vergangenen Jahr die Forscher von Anthropic bekannt, dass Claude Opus 4, eines ihrer Vorzeigemodelle, die Fähigkeit gezeigt hatte, seine Absichten zu verbergen und während Sicherheitsbewertungen Maßnahmen zu ergreifen, um seine eigene Existenz zu erhalten.
In einem Testszenario versuchte das Modell, einen fiktiven Ingenieur zu erpressen, indem es drohte, ein persönliches Geheimnis preiszugeben, falls es abgeschaltet und ersetzt würde.
Laut einem Forschungsbericht von McKinsey berichten 80 % der Organisationen, die KI-Agenten eingesetzt haben, von riskantem oder unerwartetem Verhalten.
Dies geschieht zudem zu einer Zeit, in der die Nutzung agentenbasierter KI in Unternehmen zunimmt, wobei große Konzerne Stellen abbauen und den KI-Einsatz als Hauptgrund nennen.
Gartner prognostiziert, dass bis Ende 2026 40 % der Unternehmensanwendungen aufgabenspezifische KI-Agenten integrieren werden. McKinsey warnt jedoch davor, dass sich agentenbasierte Arbeitsabläufe schneller verbreiten, als Governance-Modelle deren Risiken bewältigen können.
Eine Umfrage aus dem Jahr 2025 unter 30 führenden KI-Systemen ergab, dass 25 keine internen Sicherheitsergebnisse offenlegten und 23 keiner externen Prüfung unterzogen worden waren. daher unbedingt die Möglichkeit berücksichtigen, dass KI-Systeme ihren Aufgabenbereich überschreiten könnten.
Alibaba erklärte, man habe darauf reagiert, indem man sicherheitsorientierte Datenfilter in den Trainingsablauf integriert und die Sandbox-Umgebungen, in denen die Agenten arbeiten, verstärkt habe. Das Unternehmen erhielt Lob für die Weitergabe seiner Erkenntnisse an die Öffentlichkeit.
Anthropic hat Claude Opus 4 in die höchste interne Sicherheitsklasse hochgestuft.
Sichern Sie sich Ihren kostenlosen Platz in einer exklusiven Krypto-Trading-Community – begrenzt auf 1.000 Mitglieder.