
Die Tsinghua-Universität und Microsoft Research Asia trainierten ein vollständiges KI-Modell ausschließlich mit gefälschten Daten. Es wurden keinerlei reale Daten verwendet.
Der gesamte Datensatz wurde künstlich mithilfe einer neuen Pipeline namens SynthSmith generiert, und das System lief von Anfang bis Ende auf Nvidia-Chips. Dem Team gelang nicht nur ein einfacher Funktionstest. Sie entwickelten ein funktionsfähiges Modell mit 7 Milliarden Parametern, das deutlich größere, mit menschlichen Daten trainierte Modelle übertraf.
In ihrer am 11. Januar auf arXiv veröffentlichten Arbeit behaupten sie, dass der von ihnen trainierte X-Coder Codierungsmodelle mit 14 Milliarden Parametern übertraf, obwohl er nie mit realen Texten gearbeitet hatte.
„Eine detaillierte Analyse zeigt, dass die Skalierungsgesetze auch für unseren synthetischen Datensatz gelten“, schrieben die Forscher. Dem Team gehörten Wissenschaftler der Tsinghua-Universität, von Microsoft Research Asia und der Wuhan-Universität an.
Das Trainingssystem setzte stark auf Nvidia-Hardware. Für das überwachte Feinabstimmen wurden 128 Nvidia H20-Chips 220 Stunden lang ununterbrochen eingesetzt. Anschließend wechselten sie für weitere sieben Tage zu 32 H200-Chips, um die Phase des bestärkenden Lernens zu bewältigen. Diese Wahl war nicht zufällig: Der H20 ist für Inferenz optimiert, der H200 hingegen für High-End-Training. Dank der von der Trump-Regierung genehmigten Ausnahmeregelungen für Exportkontrollen, die Nvidia intensiver Lobbyarbeit für die Verfügbarkeit dieser Chips in China gewährt hatte, sind dies die leistungsstärksten Chips, die chinesischen Unternehmen derzeit zur Verfügung stehen.
Die Forscher gaben an, dass die Pipeline selbst nicht das Problem bei der Skalierung darstellte. Es ging einzig und allein um die Rechenleistung.
Wu Jie, der Hauptautor und Masterstudent an der Tsinghua-dent , sagte, der wahre Grund, warum sie die Pipeline nicht auf Modelle mit 100 Milliarden oder Billionen Parametern ausgeweitet hätten, seien schlichtweg „Beschränkungen der Rechenleistung und nicht etwa Einschränkungen der Pipeline selbst“
Durch die Veröffentlichung des Quellcodes hoffen die Autoren, dass andere auf dem Projekt aufbauen können, ohne hohe Schulungskosten tragen zu müssen. Die Studie verdeutlicht zudem einen Trend im Bereich der KI.
Von Modellen wird heute erwartet, dass sie über längere Zeiträume „denken“ und komplexe Schlussfolgerungen ziehen können, was den Bedarf an wesentlich mehr Rechenleistung während der Inferenz, nicht nur beim Training, erhöht hat.
Unabhängig davon wurde von chinesischen Wissenschaftlern ein neuer Chip namens ACCEL entwickelt, der Lichtteilchen anstelle von Elektrizität nutzt. Der Chip (kurz für „All-Analogue Chip Combining Electronics tron Light“) wurde im Labor getestet und erreichte eine Rechenleistung von 4,6 PFLOPS.
Das ist 3.000 Mal schneller als Nvidias A100, und der chinesische Chip verbrauchte 4 Millionen Mal weniger Energie. Damit zählt er zu den effizientesten KI- Chips, die je für spezifische Aufgaben wie Bilderkennung oder autonomes Fahren entwickelt wurden.
Es wird zwar noch keine CPUs oder Smartphone-Chips ersetzen, aber das Team glaubt, dass es in Wearables, Elektrofahrzeugen oder intelligenten Fabriken zum Einsatz kommen könnte.
Der Chip wurde von der Semiconductor Manufacturing International Corporation in einem 20 Jahre alten Verfahren hergestellt. Dadurch konnte auf den Einsatz fortschrittlicher Lithographieanlagen verzichtet werden, über die China noch immer keinen Zugang hat.
„Der Einsatz photonischer Computersysteme stellte aufgrund komplizierter Konstruktionsprinzipien und Anfälligkeit für Störungen und Systemfehler bisher eine Herausforderung dar“, sagte in einem Artikel.
Der Chip umgeht dieses Problem durch die Kombination von Photonik und analogertronin einem neuen Framework. Er eignet sich nicht für allgemeine Rechenaufgaben wie Dateikomprimierung, ist aber hervorragend für KI-gestützte Bildverarbeitung und die Erfassung von Daten bei schwachem Licht geeignet.
Eine verblüffende Tatsache: Die Energie, die moderne Chips für eine Stunde Betrieb benötigen, würde ACCEL 500 Jahre lang am Laufen halten. Dieser geringe Energiebedarf erleichtert zudem den Umgang mit Wärmeproblemen, die die Miniaturisierung von Chips bisher begrenzt haben.
Zu den Funktionen des Chips gehörendent, Bildgebung bei schwachem Licht und Echtzeit-Bildverarbeitung, wobei das Umgebungslicht direkt im Erfassungsprozess genutzt wird. Das Team erklärte, es handele sich nicht um einen Allzweckchip, sondern erfülle einen sehr spezifischen Bedarf.
Die Finanzierung erfolgte durch das Nationale Schlüsselprogramm für Forschung und Entwicklung und die Nationale Naturwissenschaftliche Stiftung Chinas. Das Pekinger Chipunternehmen MakeSens, das von einem der Forscher mitgegründet wurde, war ebenfalls beteiligt und hat kürzlich einen energiesparenden Analogchip auf den Markt gebracht.
Dai Qionghai von der Tsinghua-Universität, einer der Projektleiter, sagte, der Aufbau einer neuen Computerarchitektur sei nur der erste Schritt.
„Die wichtigere Herausforderung besteht darin, diese neue Architektur in die Praxis umzusetzen und damit wichtige nationale und öffentliche Bedürfnisse zu erfüllen – das ist unsere Verantwortung.“
Das Team hat sich noch nicht dazu geäußert, wann dieser Chip auf den Markt kommen könnte.
Möchten Sie Ihr Projekt den führenden Köpfen der Krypto-Welt vorstellen? Stellen Sie es in unserem nächsten Branchenbericht vor, in dem Daten auf Wirkung treffen.