
Microsoft Research präsentierte Ende Januar 2026 ein neues Robotersteuerungssystem, das Maschinen ermöglicht zu arbeiten und gleichzeitig gesprochene Befehle und haptisches Feedback zu verarbeiten. Das System namens Rho-alpha markiert den Einstieg des Unternehmens in den Bereich der Basismodelle für Roboter, die zwei Arme gleichzeitig einsetzen.
Die Technologie wird zunächst zugänglich gemacht , bevor Microsoft sie verfügbar macht . Unternehmen können das System dann mithilfe ihrer eigenen Daten an ihre spezifischen Bedürfnisse anpassen.
Fabriken und Lagerhallen suchen Roboter, die sich an wechselnde Bedingungen anpassen können, anstatt immer wieder dieselben programmierten Bewegungen auszuführen . Krankenhäuser benötigen Maschinen, die sich an unterschiedliche Situationen anpassen . Produktionslinien, in denen die Produkte von Charge zu Charge variieren, stellen Probleme dar, die herkömmliche Automatisierung nicht effizient lösen kann. Microsoft entwickelt , um diesen Bedarf zu decken, indem es die visuellen und akustischen Informationen der Roboter mit ihren physischen Empfindungen, die über Sensoren erfasst werden, kombiniert.
Die meisten Robotersysteme nutzen heute Anweisungen zu befolgen. Rho-alpha geht noch einen Schritt weiter und behandelt den Tastsinn als ebenso wichtig. Dank integrierter Drucksensoren am Roboterarm erhält Informationen, die Kameras nicht erfassen. Dies ist beispielsweise beim Einstecken von Steckern oder beim Zusammenfügen von Teilen relevant, da die Sicht allein nicht ausreicht, um die korrekte Ausrichtung zu überprüfen.
Microsoft demonstrierte diese Fähigkeiten anhand zweier Universal Robots UR5e-Roboterarme, die mit Sensoren zur Druck- und Berührungserkennung ausgestattet sind. In Tests mit der Aufgabenreihe „BusyBox“ wiesen den Roboter , beispielsweise eine Schale in einen Werkzeugkasten zu stellen und zu schließen . Das System übersetzte diese Anweisungen in koordinierte Bewegungen beider Arme und passte diese anhand der Sensordaten an. Wenn das Einstecken eines Steckers fehlschlug , konnte ein menschlicher Bediener den Roboter mithilfe eines 3D-Eingabegeräts steuern, und das System lernte aus diesen Korrekturen.
Die Beschaffung ausreichender Trainingsdaten bleibt die größte Herausforderung beim Bau leistungsfähiger Roboter. Sprachmodelle können zwar aus riesigen Mengen online verfügbarer Texte lernen, doch das Robotertraining erfordert reale, physische Demonstrationen, deren Aufzeichnung zeit- und kostenintensiv ist. Microsoft begegnete diesem Problem, indem Rho-alpha mit drei Arten von Informationen trainiert wurde: Aufzeichnungen realer, physischer Demonstrationen, simulierten Übungsaufgaben und großen Datensätzen mit Bildern, Fragen und Antworten aus dem Internet. Das Unternehmen nutzt Nvidia Isaac Sim auf Azure-Servern, um durch Reinforcement Learning realistische, synthetische Szenarien zu erzeugen.
Diese Simulationsumgebung erzeugt physikalisch realistische Übungssituationen, die die realen Demonstrationen ergänzen. Der kombinierte Ansatz ermöglicht es dem Modell zu erfassen, deren Erfassung andernfalls Tausende von Betriebsstunden in der Praxis erfordern würde.
Die Trainingsmethode folgt einem Muster, das auch andere Unternehmen im Bereich Robotik anwenden. Google DeepMinds Gemini-Robotiksystem, Figure AIs Helix-Modell für humanoide Roboter und Physical Intelligences Pi-Zero verfolgen alle ähnliche Ansätze, um das Problem des Datenmangels umgehen hilft diesen Systemen , allgemeine Manipulationsfähigkeiten zu erlernen, für jede einzelne Aufgabe, die ihnen begegnen könnte, spezifische Demonstrationen erforderlich sind .
Microsoft steigt in den Markt für Robotik -Grundlagenmodelle ein, der in den letzten anderthalb Jahren deutlich gewachsen N1.6 für humanoide Roboter vorgestellt, der sich auf Ganzkörpersteuerung und Kontextverständnis konzentriert. Google DeepMind hat Gemini um Funktionen für die Robotik erweitert, die vom Falten von Papier zu Origami-Figuren bis zum Umgang mit Spielkarten reichen. Physical Intelligence präsentiert den Pi-Zero als universelles System, das für verschiedene Robotertypen trainiert wurde.
Rho-alpha zeichnet sich in dreierlei Hinsicht aus . Erstens löst der Fokus auf taktiler Sensorik Probleme in Situationen, in denen rein visuelle Systeme an ihre Grenzen stoßen. Zweitens basiert das Modell auf Microsofts Phi-Serie, die das Unternehmen für den effizienten Betrieb auf gängiger Consumer-Hardware optimiert hat. Dies lässt vermuten, dass es auch auf lokalen Geräten ohne ständige Verbindung zu Cloud-Servern laufen kann. Drittens unterscheidet sich Rho-alpha durch den Fokus auf das Lernen aus menschlichen Korrekturen im laufenden Betrieb von Modellen, die ein komplettes Neutraining benötigen, um neue Verhaltensweisen zu erlernen.
Microsofts Geschäftsansatz unterscheidet sich ebenfalls von dem der Wettbewerber. Das Unternehmen plant, Rho-alpha über seine Foundry-Plattform als Infrastruktur anzubieten, die Hersteller und Systemintegratoren mit ihren eigenen proprietären Informationen anpassen können. Dies entspricht dem Ansatz des Unternehmens beim Azure OpenAI Service und richtet sich an Organisationen, die spezialisierte Versionen erstellen möchten, anstatt ein generisches Modell zu verwenden.
Für Hersteller und Logistikunternehmen liegt die unmittelbare Chance darin, wiederkehrende Handhabungsaufgaben zu identifizieren an ihre Grenzen stößt . Qualitätsprüfstationen, Montageprozesse für Artikelsets und Kleinserienfertigungslinien sind Beispiele für Situationen, in denen die Kombination aus Sprachverständnis und Berührungserkennung von Rho-alpha Programmieraufwand reduzieren
Das von Microsoft angekündigte Early-Access-Programm bietet Unternehmen die Möglichkeit, das System Eignung für ihre Bedürfnisse zu testen. Unternehmen sollten sich bei diesen Evaluierungen darauf einstellen, dass menschliche Aufsicht erforderlich sein wird, und Arbeitsabläufe planen, in denen Bediener die Roboter während der anfänglichen Lernphase korrigieren und anleiten.
Physikalische KI markiert den Wandel von Robotern als programmierbaren Werkzeugen hin zu flexiblen Kollaborateuren. Dieser Wandel wird Jahre statt Monate dauern, doch die von Microsoft, Nvidia und Google entwickelten Grundlagenmodelle legen die Grundmuster fest, die die Unternehmensrobotik in den nächsten zehn Jahren prägen defi
30 Tage lang kostenlos einer Premium- für den Krypto-Handel