Der Chipgigant NVIDIA bereitet die Vorstellung eines leistungsstarken neuen Prozessors für künstliche Intelligenz vor, der die Art und Weise, wie Chatbots und andere KI-Tools Antworten generieren, beschleunigen soll, sodass heutige Systeme wie ChatGPT im Vergleich dazu möglicherweise träge wirken.
Die neue Plattform, deren Premiere auf NVIDIAs jährlicher Entwicklerkonferenz GTC erwartet wird, ist für KI-Inferenz optimiert – also für die Phase, in der trainierte Modelle Antworten auf Benutzeranfragen generieren. Im Gegensatz zu herkömmlichen GPUs, die sowohl für Training als auch für Inferenz ausgelegt sind, konzentriert sich der kommende Prozessor speziell auf schnellere und effizientere Reaktionszeiten.
Sollte das Produkt auf den Markt kommen, wäre dies das erste konkrete Ergebnis des im Dezember abgeschlossenen Deals, durch den die Gründer von Groq , deren Unternehmen sich auf Hochleistungs-KI-Verarbeitungshardware spezialisiert hat, in das Unternehmen integriert wurden.
Ende letzten Jahres investierte NVIDIA Berichten zufolge rund 20 Milliarden US-Dollar in die Lizenzierung von Technologie des Chip-Startups Groq und in die Abwerbung von Schlüsselpersonal, darunter auch des CEO. Etwa zur gleichen Zeit erklärte NVIDIA-CEO Jensen Huang gegenüber den Mitarbeitern: „Wir planen, die latenzarmen Prozessoren von Groq in die NVIDIA AI Factory-Architektur zu integrieren und die Plattform so zu erweitern, dass sie ein noch breiteres Spektrum an KI-Inferenz- und Echtzeit-Workloads bedienen kann.“
Der neue Inferenzchip soll komplexe KI-Anfragen in hoher Geschwindigkeit verarbeiten können. Laut dem Wall Street Journal ist davon auszugehen, dass OpenAI und andere führende Kunden ihn einsetzen werden. Der Bericht zeigt außerdem, dass der neue Chip fast 10 % der Inferenzlast von OpenAI übernehmen könnte.
Während einer Telefonkonferenz zu den Geschäftszahlen deutete der CEO von NVIDIA an, dass auf der bevorstehenden GTC-Veranstaltung, die oft als „Super Bowl der KI“ bezeichnet wird, mehrere neue Produkte vorgestellt werden. Er hatte bemerkt: „Ich habe einige großartige Ideen, die ich Ihnen gerne auf der GTC vorstellen möchte.“
Die meisten Analysten sind sich einig, dass ein Chip im Groq-Stil Teil des Produktportfolios sein könnte. Sie gaben außerdem an, dass dessen Design Aufschluss darüber geben könnte, wie NVIDIA die Speicherbeschränkungen beim Inferenzrechnen angehen will. Solche Plattformen nutzen typischerweise Speicher mit hoher Bandbreite (HBM). Allerdings ist HBM in letzter Zeit schwer zu beschaffen gewesen.
Insidern zufolge plant das Unternehmen, im Chip SRAM anstelle des dynamischen RAMs von HBM zu verwenden. SRAM ist idealerweise leichter zugänglich und kann die Leistung von KI-basierten Schlussfolgerungsaufgaben verbessern.
Sollte der Chip vorgestellt werden, könnte dies einen großen Fortschritt für das Chipunternehmen und KI-trainierte Modelle bedeuten. Sid Sheth, Gründer und CEO von d-Matrix, äußerte sich jedoch kritisch zu einer möglichen Markteinführung. Er merkte an, dass NVIDIA zwar weiterhin der klare Marktführer im Bereich KI-Training sei, die Inferenz jedoch ein ganz anderes Feld darstelle. Er erklärte: „Entwickler können sich anderen Anbietern als NVIDIA zuwenden, da die Ausführung fertiger KI-Modelle nicht dieselbe Art von Programmierung erfordert wie deren Training.“
Dennoch treiben auch andere Technologiekonzerne die Entwicklung von Inferenzrechnern voran. Meta präsentierte diese Woche vier speziell für Inferenzprozesse entwickelte Prozessoren, woraufhin ein Investor aus dem Silicon Valley erklärte, die Branche könnte in eine Phase eintreten, in der sie nicht mehr von NVIDIA dominiert wird.
Allerdings warnte June Paik, Geschäftsführerin von FuriosaAI, einem Konkurrenten von NVIDIA, kürzlich angesichts der Vorteile von einfach einsetzbarem Inferenz-Computing davor, dass die meisten Rechenzentren die neuesten flüssigkeitsgekühlten GPUs nicht aufnehmen können.
Trotz seiner Bedenken gehen die Analysten der Bank of America davon aus, dass Inferenz-Workloads bis 2030 75 % der Ausgaben für KI-Rechenzentren ausmachen werden, wenn der Markt ein Volumen von rund 1,2 Billionen US-Dollar erreicht – gegenüber etwa 50 % im Vorjahr. Ben Bajarin, Technologieanalyst bei Creative Strategies, betonte ebenfalls, dass Rechenzentren der Zukunft keinem Einheitsmodell folgen werden und erwartet, dass Unternehmen unterschiedliche Ansätze für die Chip- und Anlagenentwicklung verfolgen werden.
NVIDIA hat kürzlich seine KI-Chips der nächsten Generation, die Vera Rubin KI-Chips, vorgestellt und rechnet damit, dass der Aufstieg von KI-Plattformen mit logischem Denken wie DeepSeek die Nachfrage nach Rechenleistung weiter steigern wird. Das Unternehmen behauptet, die Chips würden das Training größerer KI-Modelle ermöglichen und einer breiteren Nutzerbasis komplexere Ergebnisse liefern.
Laut Huang soll Rubin in der zweiten Hälfte des Jahres 2026 auf den Markt kommen, eine High-End-Version namens „Ultra“ folgt im Jahr 2027.
Er erklärte außerdem, dass ein einzelnes Rubin-System 576 einzelne GPUs in einem einzigen Chip vereinen würde. Derzeit integriert NVIDIAs Blackwell-Chip im NVL72-System 72 GPUs, was bedeutet, dass Rubin über einen fortschrittlicheren Speicher verfügen wird.
Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an .