开源社区

英伟达机器人布局再提速

英伟达机器人布局再提速

  • 发布:
  • 人气: 1
  • 评论: 0

应用介绍

  这几天,NVIDIA在机器人领域频繁有大动作。8月9日,NVIDIA副总裁Rev Lebaredian在2025世界机器人大会(2025WRC)上做主题演讲,发布英伟达最新的机器人技术,然后邀请宇树科技创始人王兴兴和北京银河通用创始人王鹤到北京朝林松源酒店,做了一场关于机器人产业的深度交流。紧接着,8月11日在温哥华举行的SIGGRAPH2025大会上,NVIDIA发布了最新的世界基础模型、应用库和基础设施技术,释放出NVIDIA以及全球机器人产业的突破性信息。

  最近一年,NVIDIA公司CEO黄仁勋几乎在每一个演讲、对话、采访,都会提及机器人,并表示机器人是继续AI之后最大的机遇,将成为NVIDIA未来的增长引擎。而事实上,NVIDIA最新2026财年第一财季(截止至2025年4月27日)财报显示,汽车和机器人业务收入仅为5.67亿美元在公司,在总营收中占比不足1.3%,在这场交流会上,Rev Lebaredian道出了黄仁勋如此笃定机器人市场的关键原因。

  “因为机器人是桥梁。” Rev Lebaredian表示,在机器人真正到来前,IT信息世界和物理世界是断裂的,有了机器人,我们能把计算和人工智能带进真实世界,创造出能理解并改变物理环境的智能体。

  目前IT 行业的总规模约为5万亿美元,而包括交通、制造、供应链、物流、医疗等全球所有行业规模超过100万亿美元,正是基于“桥梁说”的研判,Rev Lebaredian认为作为“桥梁”的机器人市场规模应该是万亿美元。对于打开下一个AI新世界的“桥梁”,NVIDIA的做法是 “不顾一切”,下注、再下注,就像当年对CUDA的投入和坚持,因为CUDA同样是桥梁,是将图形计算带向通用计算的桥梁。

  任何事情的发生、发展都有时间、地点,Rev Lebaredian认为正在引爆这场的物理AI革命,实现IT与物理世界跨越的最佳地点是中国,并给出了三个理由:一是顶尖 AI 人才,全球近一半的人工智能研究人员和开发者在中国,其中包括来自顶尖大学的最优秀人才。二是电子与计算技术能力,中国不仅有技术研发能力,还有全球无可匹敌的电子制造产业,这在物理 AI 和机器人领域至关重要。三是庞大的制造业基础,这里有大规模部署和测试机器人的真实场景,可以快速收集数据、迭代算法,让机器人不断进化。

  我们目睹了OpenAI在推动生成人工智能时代到来中的巨大作用,在物理AI时代同样需要这样的未来巨头。现在,NVIDIA正在 “最佳地点”押注,包括傅里叶、加速进化、优必选、智元机器人等都是押注对象,而宇树科技、银河通用是其中重要的“种子”选手。

  宇树科技去年收入超过10亿元,目前估值120亿元,已经启动上市辅导计划,其最新的人形机器人R1售价仅3.99万元,部署了NVIDIA全栈机器人技术。银河通用同样是一家机器人独角兽公司,其G1 Premium是首批搭载NVIDIA Jetson Thor的人形机器人之一。这两家公司对机器人产业实践、思考以及遇到的问题揭示着机器人产业当下困境。

  王兴兴认为人形机器人有可能是AGI的最佳载体,而制约人形机器人的规模化商用的核心原因,并不是成本和硬件,当前最棘手的是具身智能模型泛用性不够,实用性有待提升。而王鹤认为,机器人干活的能力不够是影响其规模应用的关键,从模型的角度看多模态大模型(比如VLM和VLA)目前还处于比语言模型稍弱的阶段,核心原因是数据不足:文本数据非常丰富,而文本-图像配对数据相对较少,再加上动作数据更少,因此视觉理解能力和基于视觉的动作操作能力还有较大差距。

  解决这些难题,王兴兴认为将视频生成模型作为“世界模型”是一个值得探索的方向,但目前这类模型的泛用性不够。王兴兴同时也透露了宇树科技在此方向进行了一些探索,但受限于算力和投入的制约,而最近谷歌发布的视频生成模型,其物理对齐效果证明这个方向有潜力。

  Rev Lebaredian带来的更重要观点是:“如果你想构建一个能够在现实世界中行动且安全可靠的机器人系统,唯一的选择就是使用仿真。” 从机器人数据合成到模型训练到构建机器人再到测试验证,仿真都将是核心利器。

  关于机器人产业接下来突破方向,Rev Lebaredian认为,所有在常规AI领域出现的技术和能力,都会被应用到物理AI中,而将这种能力尤其是AI推理能力与仿真结合,是一个可能还未被广泛理解,但将成为重大突破的点。“可能在今年年底或明年,机器人将能更自然地与人互动,完成复杂的多步骤任务。” Rev Lebaredian说。

  Rev Lebaredian同时强调,虽然目前已有非常准确的仿真器,但这些仿真器计算量大且成本高昂,所以挑战是如何提升仿真速度,使其在大规模系统构建中具有成本效益,这是NVIDIA正努力的方向。

  应该说,目前机器人产业尚在商用爆发的前夜,2025WRC大会200多家机器人企业展示了1500款产品,看起来很热闹,但真正能够具备泛化能力的自主机器人还没有,机器人产业要通向AGI还有很长的路要走。

  “NVIDIA的使命是打造专门针对‘最难问题’的计算机,机器人就是其中最难的问题之一。”Rev Lebaredian表示,NVIDIA通过三台计算机解决方案为机器人产业打造基础设施,包括支持云规模的模型训练、基于物理的用于合成数据生成的仿真,以及面向高级机器人技术的边缘实时 AI 部署,来化解产业推进过程中的种种难题。而在这次2025WRC上Rev Lebaredian带来了三大机器人计算平台的最新进展。

  其一是被黄仁勋称为“实时推理机器” 的NVIDIA Jetson Thor,这是一款专为物理世界中的智能推理Agent(特别是机器人)打造的超级计算机,其性能亮点包括:计算能力是上一代Jetson Orin的7.5倍;每瓦性能提升多达3.5倍;CPU性能提升多达3.1倍;I/O吞吐量提升多达10倍。这些性能的提升使得机器人的感知、规划、控制,从原来的“静态”实现“行为级”的跃升,在机器人本体上部署大模型成为了可能。

  Jetson Thor预计在8月底批量供货,在此之前,NVIDIA惯例会将芯片提前给到一些重点企业,银河通用是首批拿到该芯片的厂商之一。王鹤在当天的交流会播放了一段视频,演示了配备该芯片的机器人展现出优异的运动性能以及实时的货箱视觉处理与运动规划能力,速度显著提升。王鹤用“丝滑”来形容这款机器人的运动性能,目前这个机器人已经亮相WRC,观众评价它是“最快的人形机器人”。

  其二是Cosmos Reason开源推理视觉模型,它使机器人能够“看见”同时具备“像人一样的思考推理”能力,并在真实世界采取行动。在这次交流会上王兴兴和王鹤都谈及了视觉语言模型(VLM)对机器人产业突破的重要意义。

  自从2021年OpenAI 推出 CLIP 模型以来,视觉语言模型 (VLM) 改变了物体和模式识别等计算机视觉任务。但是,它们尚未能够解决多步骤任务,也无法处理模糊或未体验过的事情。NVIDIA Cosmos Reason 是一款面向物理 AI 和机器人开发的开源、可定制只有 70 亿参数的推理 VLM,它的问世解决了这一系列的问题,能够充当机器人的大脑,让机器人能够解读环境,并在收到复杂指令时,将其分解为任务,运用常识执行这些任务,让机器人“看见”并推理世界。

  除了机器人规划和推理,Cosmos Reason还在机器人数据管理与注释、视频分析AI智能体等多维度带来巨大改变。比如帮助开发者能够自动对海量、多样化的训练数据集进行高质量管理与标注。目前,这个模型已经商业化运营,优步(Uber)已经使用该模型为自动驾驶训练数据进行标注与生成说明,麦格纳国际(Magna)使用Cosmos Reason为其即时配送车辆的长期轨迹规划器增加世界理解能力。

  两天后,在SIGGRAPH2025大会上NVIDIA宣布推出世界基础模型、应用库和基础设施的最新技术,核心依然是继续丰富并完善机器人基础设施。

  其中,Cosmos世界基础模型家族除了刚刚发布的Cosmos Reason,又新增了用来加速从3D仿真等场景生成合成数据的Cosmos Transfer-2,以及一个经过蒸馏、更为注重速度优化的Cosmos Transfers版本。

  为了配合这些模型,英伟达还发布了功能更强的NVIDIA Omniverse软件开发工具包(SDK)和库,让机器人开发者能够更便捷地进行仿真、三维重建以及跨平台数据互通。

  除了这一系列“软”基础设施,在硬件层面NVIDIA达专门为机器人等物理AI推出了RTX PRO Blackwell服务器,覆盖合成数据生成、训练、机器人学习与仿真等工作负载。同时借助已经上线在微软云上的DGX Cloud,开发者可随时随地通过云端高效运行Omniverse和Cosmos相关应用,进一步降低硬件门槛和运维成本。

  针对中国市场,两天前NVIDIA已将将全栈机器人及物理 AI 组件现通过阿里云 AI 平台(PAI)开放使用。开发者可在 PAI 平台中一键启动 Isaac Sim / Isaac Lab 工具或部署 Cosmos-Reason1,该平台同时为 LLM、VLM 及智能体应用开发者提供端到端解决方案。

  不难看出,在铺就机器人、物理AI基础设施路上NVIDIA正全速推进,为让物理AI新时代更快到来黄仁勋正全力以赴。

相关应用