tradingkey.logo

微软推出触控感应系统,以克服机器人关键局限性

Cryptopolitan2026年1月30日 10:39

微软研究院于2026年1月下旬推出了一款全新的机器人控制系统,该系统可以机器工作,同时还能处理语音指令和物理反馈。这套名为Rho-alpha的系统标志着微软正式进军双臂机器人基础模型领域

这项技术将首先通过早期体验计划面向才会将发布在其 Foundry 平台上。届时,企业可以利用自身数据,根据特定需求对系统进行定制。

为机器人智能增添触觉

工厂和仓库需要应对永远重复相同的预设动作医院也需要适应机器。生产线上,不同批次的产品各不相同,这给传统的自动化带来了难以有效解决的问题。微软 开发了Rho-alpha 来满足这一需求,它通过传感器处理机器人所看到的、听到的以及感受到的物理信息。

如今大多数机器人系统都依赖摄像头和麦克风来感知周围环境并接收指令。Rho -alpha 在此基础上更进一步,将触觉视为同等重要的信息来源。当机器人夹爪内置压力传感器时,系统就能获取摄像头完全无法获取的信息。这在将物品插入插座或组装零件时至关重要,因为仅凭视觉无法提供足够的细节来判断部件是否正确对齐。

微软展示了这些功能,使用了两台配备压力和接触传感器的Universal Robots UR5e机械臂。在名为BusyBox的任务测试中,人们指示机器人执行诸如将托盘放入工具箱并关上盖子之类的任务。系统转化为双臂之间的协调运动,并根据传感器的感知进行调整。当第一次尝试插入插头失败时,操作员可以使用3D输入设备引导机器人,系统会从这些纠正中学习。

获取足够的训练数据仍然是构建高性能机器人的最大挑战。语言模型可以从海量的在线文本中学习,但机器人训练需要实际的物理演示,而录制这些演示需要耗费大量的时间和金钱。微软通过三种类型的信息训练 Rho-alpha 解决了这个问题:真实物理演示的录像、模拟练习任务以及来自网络的包含问答的大型图像数据集。该公司使用运行在 Azure 服务器上的 Nvidia Isaac Sim,通过强化学习过程创建逼真的合成场景。

这种模拟设置能够生成物理上精确的练习场景,是对实际演示的补充。这种组合方法使模型能够应对异常情况和故障场景,而这些情况如果通过实际运行,则需要数千小时才能捕捉到。

这种训练方法遵循其他机器人公司正在使用的模式 Robotics系统、Figure AI的人形机器人Helix模型以及Physical Intelligence的Pi-zero都采用了类似的方法来解决数据不足的问题。该技术帮助这些系统学习通用的操作技能,而无需针对它们可能遇到的每个任务进行专门的演示

在日趋成熟的市场中竞争

微软加入了机器人基础模型市场,该市场在过去一年半中增长迅猛 N1.6 ,专注于全身控制和情境理解。谷歌DeepMind将Gemini扩展到机器人领域,使其具备从折纸到玩扑克牌等多种能力。Physical Intelligence推出了Pi-zero,这是一个经过训练,可跨不同类型机器人使用的通用系统。

Rho-alpha 的突出之处在于三点首先,它强调触觉感知,这解决了的系统难以应对的情况。其次,该模型源自微软的 Phi 系列,微软已对其进行优化,使其能够在普通消费级硬件上高效运行。这意味着它可以在本地设备上运行,而无需持续连接云服务器。第三,它专注于从实际操作中的用户纠正中学习,这使其区别于那些需要完全重新训练才能掌握新行为的模型。

微软的商业模式也与竞争对手有所。该公司计划通过其 Foundry 平台提供 Rho-alpha 作为基础设施,制造商和系统集成商可以利用其专有信息进行定制。这与该公司在 Azure OpenAI 服务,旨在满足那些希望创建定制版本而非使用通用模型的组织的需求。

对于制造商和物流公司而言,最直接的机会在于发现当前自动化系统无法胜任。例如,质量检验站、成套组件组装作业以及小批量装配线等,Rho-alpha 的语言理解和触觉感应相结合的功能可以有效减少编程需求。

微软宣布的早期访问计划企业能够,测试该系统是否符合自身需求。企业在参与评估时应做好人工监督的准备,并规划好工作流程,以便操作员在初始学习阶段纠正和引导机器人。

物理人工智能标志着机器人从程序化工具向灵活协作伙伴的转变。这一转变需要数年而非数月时间,但微软、英伟达和谷歌的基础模型奠定了未来十年企业机器人技术的基本defi。

加入高级加密交易社区 30 天 - 通常每月 100 美元。

免责声明:本网站提供的信息仅供教育和参考之用,不应视为财务或投资建议。
Tradingkey

相关文章

KeyAI