Amazon Web Services gab am Freitag bekannt, dass es im Rahmen einer mehrjährigen Partnerschaft mit Schwerpunkt auf KI-Inferenz Prozessoren von Cerebras in seinen Rechenzentren einsetzen wird.
Die Vereinbarung eröffnet Amazon eine neue Möglichkeit, die Bearbeitung von Nutzeranfragen durch KI-Modelle zu beschleunigen, Code zu generieren und Live-Nutzeranfragen zu verarbeiten. AWS gab bekannt, die Cerebras-Technologie, einschließlich der Wafer-Scale Engine, für Inferenzaufgaben einzusetzen.
Die Unternehmen machten keine Angaben zu den finanziellen Details. Die Einrichtung ist für Amazon Bedrock innerhalb der AWS-Rechenzentren geplant, wodurch die Partnerschaft direkt in eines der wichtigsten KI-Produkte von Amazon integriert wird.
AWS gab bekannt, dass das System Server mit Amazon Trainium-Architektur, Cerebras CS-3-Systeme und Amazons Elastic Fabric Adapter-Netzwerktechnologie kombinieren wird.
Im Laufe dieses Jahres plant AWS außerdem, führende Open-Source-Sprachmodelle für große Systeme und Amazon Nova auf Cerebras-Hardware anzubieten. David Brown,dent für Compute- und ML-Services bei AWS, erklärte, die Geschwindigkeit sei nach wie vor ein großes Problem bei KI-Inferenz, insbesondere für Echtzeit-Codierungshilfe und interaktive Anwendungen.
David sagte: „Bei der Inferenz liefert KI den Kunden einen echten Mehrwert, aber die Geschwindigkeit bleibt ein kritischer Engpass für anspruchsvolle Arbeitslasten wie Echtzeit-Codierungsunterstützung und interaktive Anwendungen.“
AWS erklärte, das Design nutze eine Methode namens Inferenzdisaggregation. Das bedeutet, die KI-Inferenz in zwei Teile zu unterteilen. Der erste Teil ist die Promptverarbeitung, auch Prefill genannt. Der zweite Teil ist die Ausgabegenerierung, auch Dekodierung genannt.
AWS erklärte, dass sich die beiden Prozesse sehr unterschiedlich verhalten. Prefill ist parallel, rechenintensiv und benötigt eine moderate Speicherbandbreite. Decode ist seriell, weniger rechenintensiv und deutlich stärker von der Speicherbandbreitedent . Decode beansprucht in diesen Fällen auch den größten Zeitaufwand, da jedes Ausgabetoken einzeln erzeugt werden muss.
Deshalb ordnet AWS jeder Phase unterschiedliche Hardware zu. Trainium übernimmt das Vorbefüllen. Cerebras CS-3 übernimmt die Dekodierung.
AWS erklärte, dass die EFA-Netzwerktechnologie mit niedriger Latenz und hoher Bandbreite beide Seiten verbinden wird, sodass das System als ein einziger Dienst funktionieren kann, während sich jeder Prozessor auf eine separate Aufgabe konzentriert.
David sagte: „Was wir mit Cerebras entwickeln, löst dieses Problem: Indem wir die Inferenzlast auf Trainium und CS-3 aufteilen und diese mit Amazons Elastic Fabric Adapter verbinden, kann jedes System seine Stärken optimal nutzen. Das Ergebnis wird eine um Größenordnungen schnellere und leistungsfähigere Inferenz sein als die derzeit verfügbaren Lösungen.“
AWS gab außerdem bekannt, dass der Dienst auf dem AWS Nitro System laufen wird, das die Basisschicht für seine Cloud-Infrastruktur bildet.
Das bedeutet, dass Cerebras CS-3-Systeme und Trainium-basierte Instanzen voraussichtlich mit der gleichen Sicherheit, Isolation und Konsistenz arbeiten werden, die AWS-Kunden bereits nutzen.
Die Ankündigung bietet Amazon zudem eine weitere Möglichkeit, Trainium gegen Chips von Nvidia, AMD und anderen großen Chipherstellern zu positionieren. AWS beschreibt Trainium als hauseigenen KI-Chip, der für skalierbare Leistung und Kosteneffizienz bei Training und Inferenz entwickelt wurde.
AWS gab bekannt, dass sich bereits zwei große KI-Labore für die Plattform entschieden haben. Anthropic hat AWS zu seinem primären Trainingspartner ernannt und nutzt Trainium für das Training und die Bereitstellung von Modellen. OpenAI wird über die AWS-Infrastruktur 2 Gigawatt Trainium-Kapazität für die Stateful Runtime Environment, zukunftsweisende Modelle und andere anspruchsvolle Workloads nutzen.
AWS fügte hinzu, dass Trainium3 seit seiner kürzlichen Veröffentlichung einetronAkzeptanz erfahren habe, wobei Kunden aus verschiedenen Branchen große Kapazitäten zugesagt hätten.
Cerebras übernimmt die Dekodierung. Laut AWS ist CS-3 speziell für die Dekodierungsbeschleunigung optimiert, wodurch mehr Spielraum für schnelle Ausgabetoken entsteht. Cerebras zufolge ist CS-3 das weltweit schnellste KI-Inferenzsystem und bietet eine tausendfach höhere Speicherbandbreite als die schnellste GPU.
Das Unternehmen gab an, dass Inferenzmodelle mittlerweile einen größeren Anteil der Inferenzarbeit ausmachen und bei der Problemlösung mehr Token pro Anfrage generieren. Cerebras erklärte außerdem, dass OpenAI, Cognition, Mistral und andere die Systeme für anspruchsvolle Aufgaben, insbesondere für agentenbasierte Programmierung, einsetzen.
Andrew Feldman, Gründer und CEO von Cerebras Systems, sagte: „Die Partnerschaft mit AWS zum Aufbau einer disaggregierten Inferenzlösung wird einer globalen Kundenbasis die schnellste Inferenz ermöglichen.“
Andrew fügte hinzu: „Jedes Unternehmen weltweit wird von blitzschnellen Inferenzprozessen innerhalb seiner bestehenden AWS-Umgebung profitieren können.“
Der Deal erhöht den Druck auf Nvidia, das im Dezember einen 20 Milliarden Dollar schweren Lizenzvertrag mit Groq unterzeichnet hat und nächste Woche ein neues Inferenzsystem mit Groq-Technologie vorstellen will.
Wenn Sie einen ruhigeren Einstieg in die DeFi Kryptowährungen ohne den üblichen Hype wünschen, beginnen Sie mit diesem kostenlosen Video.