半导体周报0922-人形机器人决策系统

创建时间:2024-09-23 08:52

导体周报-0922

一、行业新闻及动态

1、半导体设计:

财联社9月4日电,力积电今日宣布,旗下多层晶圆堆叠技术获AMD等大厂采用,结合晶圆代工大厂的先进逻辑制程,开发高频宽、高容量、低功耗的3D AI芯片。

 

《科创板日报》5日讯,英特尔首席财务官David Zinsner在周三的投资者会议上表示,预期2027年合同芯片制造业务将带来“可观”的收入。他指出,英特尔目前正在与12个潜在客户商讨代工生产合约,预期相关收入可于2026年部分入帐,并于2027年全面入帐。他还表示,公司决定不推广起20A制造工艺,而是专注于更先进的18A制造工艺。代工业务目前的收入来自其先进的封装业务。

 

2、半导体制造及封测:

财联社9月3日电,晶合集成在互动平台表示,公司预计9月份产能利用率超过100%。自今年3月起,公司产能持续呈现供不应求,每个月的投片均超过产能。下半年公司将重点扩充CIS产能,预估今年底CIS晶圆代工产能将大于4万片/月,2025年提升至7-8万片/月。此外,40/28nm平台开发进展顺利,客户合作意愿强烈。在40nm OLED驱动芯片方面,公司已与数家行业领先的芯片设计公司进行合作,目前产品陆续流片中;28nm OLED驱动芯片预计将于2025年上半年批量量产。

《科创板日报》6日讯,三星电子正与台积电合作开发下一代高带宽存储器HBM4人工智能(AI)芯片,以加强其在快速增长的AI芯片市场的地位。

 

财联社9月6日电,阿达尼集团与以色列高塔半导体(Tower Semiconductor)将在孟买郊区建立芯片制造厂,投资额达100亿美元,该装置第一阶段的产能预计为40000片晶圆,第二阶段为80000片晶圆。

 

3、       其他:

财联社9月6日电,Canalys报告显示,Lunar Lake处理器为Intel AI PC目标增添动力,随着LunarLake处理器的推出,助力Intel在2025年底实现出货1亿台AI PC的目标方面取得了重大进展。2024年第二季度,搭载Intel Core Ultra的AI PC出货量环比增长一倍多,自2023年12月以来,芯片出货量已超过1500万。Canalys预测,AI PC在Windows PC市场的份额将从2024年的不到10%增长到2025年的30%,并在2026年达到50%。

 

《科创板日报》3日讯,SEMI产业研究资深总监曾瑞榆指出,今年全球半导体设备市场有望较去年微幅增长3%,至1095亿美元,明年在先进逻辑芯片及封测领域驱动下,设备市场将较今年增长16%,至1275亿美元规模。今年上半年电子设备销售约较去年同期持平,第三季可望同比增长4%,全年将增加3%至5%,略低于原预估的5%至7%水平。晶圆厂的产能利用率于今年第一季落底,第二季开始逐步复苏,预期第三季产能利用率可望达70%,第四季再进一步复苏。

 

2.       本周话题——人形机器人决策系统

通用人工智能需要满足 4 个必备条件,分别为智能涌现、自主代理、功能可见以及现实具象的能力。智能涌现是大模型具备强大推理能力的一个基础条件,只有具备了智能涌现这样一个基础表现的现象后,继续增加模型节点数和训练数据量去训练大模型才能够成为一条可行的路径。自主代理即当接收到环境信息或外部的指令后,能够根据环境采取不同的决策,这种自主代理的能力能够使机器更好的去适应环境和完成复杂的任务。功能可见即理解世界和环境中实物的一种能力,目前大模型只是具备了理解抽象世界的能力。现实具象性相对目前的人工智能而言的,目前大模型是在相对抽象的代码世界里完成的,并没有和现实的传感器、执行器等紧密的结合。目前的大模型已经满足智能涌现和自主代理,即能够根据指令按照一系列的思维链完成复杂的内容输出,但功能可见性和现实具象性是目前大模型所欠缺的。

人形机器人是实现通用人工智能最有效的途径

img1

资料来源:国联证券研究所

通用性受限体现在目前机器人对用户主体专业要求高和应用场景局限。1)用户主体:传统人形机器人偏向于是一种可编程的专用设备,需要高级算法工程师进行编码设定才能正常运控,普通用户难以直接参与。如果普通用户能与人形机器人实现交互,将会大大降低使用门槛,进而促进人形机器人走向大规模应用;2)应用场景:人形机器人的应用场景不能仅局限于训练场景,还需要能够在开放式的复杂环境中完成各种任务。早期波士顿动力的Atlas 虽然能够完成后空翻等高难度动作,但是其在用户主体和应用场景方面均有欠缺,一方面其需要机器人工程师进行控制,普通人难以直接使用;另一方面,Atlas 最初是面向灾难救援进行设计,并且存在维护困难、漏液等问题,可靠性较差,应用场景受限。

通用性受限是实现商业化的首要问题

img2

资料来源:华泰研究

人形机器人参考人类身体,可在逻辑上全面对标人类。分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”,分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。感知输入主要由外部传感器完成,包括视觉、嗅觉、听觉、触觉传感器等;感知处理/交互/决策/规划主要由 CPU/GPU/NPU/DSP、OS、AI 算法、SLAM算法等完成;运控控制主要由 CPU/MCU、RTOS、运动控制算法完成;机械结构主要由线性执行器、旋转执行器、灵巧手、躯干、内部传感器完成。我们认为机械结构和外部传感器决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。而随着 AI 大模型的发展,我们认为有望全面升级人形机器人“大脑”和“小脑”。

 

AI大模型对人形机器人的推动作用:

AI 大模型的发展使人形机器人具备了 “交互&决策”能力。2022年底,ChatGPT、Midjourney、Stable Diffusion 等相继亮相,AI 大模型展示出很大潜力,推动了人工智能在各行各业的应用,也掀起了以人形机器人为代表的“具身智能”的发展热潮。NLP 大模型如 ChatGPT、Gemini 等,具备上下文理解、多轮对话以及文学创造等能力,加速了人和机器人之间的自然语言交互进程;CV 计算机视觉大模型的发展增强了分类、目标检测、语义分割、深度估计四大视觉核心任务的完成精确度,大大提升了机器人的环境感知能力;不同于单模态大模型的单一类型数据处理,多模态大模型可以处理文本、图像、视频或音频等多种类型的数据,使得机器人具备各感官融合决策的能力,提升了机器人的推理决策功能。我们认为在 AI 大模型的加持下,人形机器人有望具备非常强大的交互和决策能力,能够根据环境或人的指令,对自己的行为做出决策。

基于大模型的纯视觉自动驾驶感知方案可直接迁移至人形机器人。视觉是最为经济高效的方案,视觉图片的信息密度和信息量是最大的驾驶感知途径(灯光、颜色、图案、物质的类型、材质)(位置、距离、速度)。通过视觉 SLAM 算法动态构建向量空间(Vector Space),精准到每个像素点的三维空间,生成 BEV 鸟瞰图,让车或者机器人在立体的空间中运动。同时在算法中引入了 Transformer 模型,使算法精度不断提高。

AI 大模型将提升机器人决策、规划和导航能力,以特斯拉为例,大模型持续优化大幅提升 FSD 的安全性以及规划效率。在特斯拉投资者日披露了 FSD beta 的碰撞数据,使用 FSD beta 每 320 万英里行驶中只有 1 次碰撞,而美国司机平均 50 英里就有一次碰撞,FSD 系统的安全性是美国平均驾驶安全性的 5-6 倍。而特斯拉自动标注系统能够快速标注海量数据来对 FSD 算法模型进行训练,在规划算法中引入大模型,提升了规划路径的效率。我们认为大模型有望提升智能汽车和人形机器人的决策、规划和导航能力。

AI 大模型使任务级编程成为可能,有望赋能人形机器人运动控制。当前机器人的通用性普遍较弱,基本上只是针对一个特定的任务或需求设计、制造机器人,如零件组装机器人、扫地机器人等。主要的技术瓶颈有两个:一是机器人的硬件形态限制了机器人的用途;但更重要的原因在于软件层面暂时无法做到任务级编程。所谓任务级编程,指的是根据人下达的指令,实时编写出完成指令对应的程序并执行,使一个机器人能够完成各种任务。我们认为大模型具备较强的自然语言处理等能力,可以有效帮助机器人首先理解任务内容,然后将任务拆解,最后编程执行,完成任务,这将使得任务级编程成为可能。

硬件不是掣肘,软件阻碍机器人通用性的提升。2013 年波士顿动力基于早期的 PETMAN设计了面向灾难救援的 Atlas 人形机器人。经过多次迭代后,Atlas 已经脱离了外接电源,通过电液混合驱动结合 IMU、编码器、摄像头、激光雷达和力传感器实现了跳越、后空翻等高难度动作,在运动能力上远超近年来发布的人形机器人。但这些动作都源自提前创建的行为库。因此我们认为,硬件并不是机器人通用性的掣肘,软件限制了机器人应用场景的推广,阻碍了其通用性的提高。

软件升级是实现人形机器人发展正循环的第一步。我们认为人形机器人的发展存在正循环,其包含三个阶段:1)软件升级后,机器人通用性提高,人形机器人实现初步商业化落地;2)规模化商用后,规模效应下,硬件成本降低,企业投入更多研发资金;3)更多的研发投入促进软硬件迭代升级,人形机器人性能提升后,将进一步打开应用空间。目前阶段软件升级迫在眉睫,机器人通用性提高后,实现商业化落地,才能真正实现形机器人发展的“正循环”。

软硬件相互配合才能实现机器人发展的正循环

img3

资料来源:华泰研究

机器人控制软件可分为 5 个层级,任务级为最高层级。机器人控制框架一般采用层级控制(Hierarchical Structure)方法,根据《Robotics : Modelling, Planning and Control》和 2023年 8 月珞石机器人 CTO 韩峰涛在专栏文章中的描述,我们将机器人控制层级分为任务级、技能级、动作级、基元级和伺服级。任务级包括任务定义与描述、任务分解与动作拆分等;技能级负责将拆分后的动作转化为符号指令;动作级、基元级和伺服级属于传统工业机器人的范畴,包括控制、执行、反馈等环节。

实现任级级交互可大大提高人形机器人通用性。以“去接一杯水”为例,实现这一动作需要在不同层级上实现不同的任务。任务级:1)任务定义与描述:去接一杯水;2)任务分解与动作拆分:把从拿杯子、打开水龙头到接水的过程拆分为一个个的细小动作;技能级:3)生成符号指令:将一系列动作用计算机编程语言表示;动作级/基元级/伺服级:4)控制-执行-反馈:根据符号指令完成一系列动作。在传统机器人中,前三步由机器人工程师完成,只有第四步是机器人自主完成,实现任务级交互后,前三步可由机器人自主完成,用户只需要发送任务指令即可,用户主体从工程师变为普通用户。同时,传统机器人需要根据不同场景进行特定编程,实现任务级交互后,人形机器人可以在开放式场景中自主完成各类任务。

实现任级级交互可大大提高人形机器人通用性

img4

资料来源:珞石机器人 CTO 韩峰涛,华泰研究

类比人体结构,“大脑”是实现机器人任务级交互的主力军。在人体结构中,大脑主要负责抽象思维和感知协调,与机器人任务级交互的功能相似;小脑和脑干主要负责维持躯干平衡、控制姿态和步态,与动作级、基元级和伺服级的功能相似。以智元机器人为例,其 EI-Brain可分为云端超脑、大脑、小脑、脑干,其中大脑负责完成任务级和技能级的调度,小脑负责指令级的调度,脑干负责伺服机的调度。

大脑负责任务级交互的实现,小脑负责低层级运控

img5

资料来源:智元机器人公众号,华泰研究

大模型的能力与任务级交互的要求相匹配,为人形机器人理想“大脑”。以 LLM 大语言模型为例,其具备多个领域的基础知识、强大的内容生成能力、良好的上下文理解、自然语言连续对话能力和强大的小样本学习能力,可以与任务级交互中的任务描述、任务分解、运行代码生成和任务过程交互等要求相匹配。我们认为,大模型为人形机器人理想的“大脑”。

大模型较传统 AI 模型有更强的泛化能力,可提高人形机器人通用性。在算法中,整个世界及规律犹如一座山脉,而小模型只是其中的一个小山包,无法看到小山包之外的东西。大模型提供了整个山脉的抽象信息,而不是具体的地理数据,这些抽象信息基于自然语言和符号进行训练,因此大模型可以解决边角场景、OOD 泛化性问题。以往的 AI 模型多是特定领域的专用模型,拓展新场景应用需要再经过一边“数据收集-标注-训练-部署-应用”的流程,很难应用在周围环境频繁变化的场景下。而大模型的出现,让成本较高的垂直领域AI 开发,变成了“训练大模型+特定任务微调”的形式,大幅提高了开发速度,可提高人形机器人在不同场景和任务下的执行成功率,从而提高人形机器人的通用性。

大模型的能力与机器人任务级交互要求匹配

img6

资料来源:珞石机器人 CTO 韩峰涛,华泰研究

 

大模型要求:

机器人大模型的最终目标是提升机器人在不同场景和任务下执行的成功率。人形机器人作为具身智能的理想载体,不仅需要在“任务层”上将一项具体的任务拆解为一项项具体的子任务,还需要切实地执行这些子任务,实现与物理世界的交互,因此机器人大模型的执行成功率是衡量机器人智能化程度的重要指标。

为了提升执行成功率,大模型需要具备以下 3+2 种能力:

对于限定的应用场景和任务,需要具备:

1. 自主可靠决策能力:大模型需要结合任务基础和物理基础,自主地将高层级的任务分解为可执行/可靠的子任务。任务基础提供了任务的目标和方向,包括大模型对高层级语言指令的理解,对完成该任务一般步骤的掌握,需要具备强大的语言理解能力和常识积累;物理基础用于判断完成子任务的可能性,包括大模型对外部环境的感知、对自身状态的监控和对物理规则的理解,需要具备强大的感知能力和物理理解能力。

2. 多模态感知能力:大模型需要具备丰富的外部感知(视觉、听觉、触觉等)和内部感知(力矩、IMU 等),以便获取外部环境和自身状态等信息,并基于获取的信息,做出正确的决策。同时,感知的获取不是静态的,在运控的过程中,需要实时实地获取、理解和关联这些感知信息,才能更好的完成与环境的物理交互。

3. 实时精准运控能力:大模型需要以任务目标为导向,结合动态反馈的多模态感知信息,实时精准地完成运动控制。人形机器人运动控制需要具备实时性和精准性,两者共同决定人形机器人运动控制的效率和质量。实时性是指机器人接收到控制指令后,能够在极短时间内做出反应并完成动作,例如人形机器人在执行任务时,若遇到障碍物,需要及时做出规避动作;精准性是指机器人执行动作的精准度,包括位置精度、速度精度和力矩精度等,需要大模型具备较强的计算能力。

面对多样复杂的应用场景和任务,需要具备:

4. 泛化能力:泛化是指模型在新的对象、背景和环境下的适应能力,例如机器人在一个环境中学会了如何开门,之后即使门的形状、大小和开门方式不同,也能够完成开门这一动作。大模型预训练的数据集是在限定场景中收集的,不可能包含现实世界中所有的应用场景,因此大模型需要具备泛化能力,来面对纷繁复杂的现实世界。

5. 涌现能力:涌现是指模型表现出机器人训练数据之外的任务执行能力,例如在 RT-2 中符号理解、推理和人类识别三类不在训练数据中的涌现任务,RT-2 也能以较高的正确率完成。经过多种机器人多场景数据训练的 RT-2-X 涌现能力约为 RT-2 的 3 倍,可以完成的动作指令从绝对位置(存在于训练数据中)拓展至相对位置(训练数据中未出现)。

 

主流通用机器人算法:

1) ChatGPT for Robotics:大模型+机器人结合初探

2023 年 2 月,微软团队发布了一篇名为《ChatGPT for Robotics: Design Principles and Model Abilities》的技术报告,展现出了使用 ChatGPT 来实现自然的人机交互的可能性,为如何将ChatGPT 融入机器人领域提供了一种全新的视角,也是对于大模型和机器人的结合进行了初探。ChatGPT 在机器人领域的应用主要体现在两个方面:自然语言交互和自动化决策。大多数的机器人任务需要由工程师来构建完整的高低级指令代码、不断进行迭代循环才能完成任务。而ChatGPT 则带来了新的机器人任务范式,ChatGPT 具备自然语言交互和自动化决策能力,机器人可以通过 ChatGPT来理解人类的自然语言指令,并根据指令进行相应的动作。另外,机器人在执行任务时需要做出各种决策,例如路径规划、物体识别等。ChatGPT 可以应用于机器人的自动化决策中,机器人可以通过 ChatGPT 来生成任务方案,根据任务要求做出相应的决策。引入ChatGPT 后,工程师仅需做好机器人的底层库函数及其描述,ChatGPT 就能够自己利用这些底层函数来编写代码以完成目标,将工程师从循环中解放出来。

微软团队给出了一套适合为机器人任务编写提示方法的设计原则。首先,定义机器人的功能库函数,比如检测物体、移动底盘等,函数命名要与实际动作符合。第二,为 ChatGPT 编写 prompt,描述任务目标,同时明确说明可用的高级函数库中的哪些函数。提示还可以包含有关任务约束的信息,或者有关 ChatGPT如何形成其答案(特定编码语言,使用辅助解析元素)的信息。第三,在仿真环境中运行并评估 ChatGPT的代码输出,保证模型能够安全完整地做好任务。最后,将算法部署到机器人上。

基于该设计原则可以实现多种 ChatGPT 结合机器人的应用,为进一步研究大模型+通用机器人打下了基础。微软团队也针对几个场景进行了 ChatGPT 结合机器人的测试,包括用无人机检查货架、模拟环境中用无人机进行工业巡检、控制机器人手臂拼积木等。由于 ChatGPT只能用文字进行交互,对于外界环境的感知需要对传感器传回的图像进行对象检测,并转化为文本描述才能输入给 ChatGPT。微软团队的研究初步展示了 ChatGPT 这一大语言模型作为机器人的决策中枢的可能性,为后续更加深度的大模型+机器人探索迈出了第一步。

2) PaLM-E:最大的多模态视觉语言模型

2023 年 3 月,柏林工业大学和 Google Robotics 团队结合了 Google 当时 5400 亿参数的 PaLM 大语言模型和 220 亿参数的 VisionTransformer(ViT)模型,提出了当时最大规模的 5620 亿参数的具身多模态视觉语言模型 (Visual Language Model, VLM)PaLM-E。在 PaLM 模型基础上,引入了具身化和多模态概念,实现了指导现实世界机器人完成相应任务的功能。PaLM-E 采用从多模态信息到决策端的端到端训练。PaLM-E 直接将连续的、具体的多模态观察(如图像、状态估计或其他传感器模态),转化为和语言 token 嵌入空间维数相同的向量序列,用和语言 token 同样的方式注入预训练语言模型的语言嵌入空间,从而在文字和感知之间建立联系,已解决机器人相关的具身问题。模型的输入是交错的视觉、连续状态估计文本组成的多模态编码,然后对这些编码进行端到端训练,输出的内容则是对于机器人要执行的动作的文本决策。整个过程不需要对场景的表示进行预处理。

以大模型作为核心的 PaLM-E 表现出了较强的泛化能力和涌现能力。研究人员发现,PaLM-E 继承了大语言模型的核心优点:泛化和涌现能力。得益于端到端的多模态信息训练,PaLM-E 在面对没有学习过的任务(zero-shot)时也能有很好的表现,具备将从一项任务学到的知识和技能迁移到另一项任务的能力。经过不同任务混合训练后的 PaLM-E,与执行单一任务的机器人模型相比,性能明显提高。同时,尽管 PaLM-E 只接受了单图像提示的训练,但却已经展示出了涌现能力,比如多模式思维链推理(可让模型分析包括语言和视觉信息在内的一系列输入)与多图像推理(用多个图像作为输入来做出推理或预测)。

3) RT-2:首个视觉-语言-动作多模态大模型

2023 年 7 月,谷歌 DeepMind 推出 了 RT-2,这是全球第一个控制机器人的视觉-语言-动作(Vision-Language-Action,VLA)模型。通过将 VLM 预训练与机器人数据相结合,能够端到端直接输出机器人的控制。RT-2 以 VLM 为基础,升级成为全新的视-语言-动作(VLA)模型。RT-2 将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标注。例如RT-2将原本非常具体的机器人动作数据转变成文本 token,例如将转动度数、坐标点等数据,转变成文本“放到某个位置”。这样一来,机器人数据也能被用到视觉-语言数据集中进行训练,同时在进行推理的过程中,原本的文本指令也会被重新转化为机器人数据,实现控制机器人等一系列操作:为了控制机器人,研究人员通过将操作表示为模型输出中的标注,并将操作描述为可以由标准自然语言标注生成器处理的字符串,这种字符串的示例可以是机器人动作标记编号的序列,如“1 128 91 241 5 101 127 217”。该字符串以一个标志开始,该标志指示机器人是继续还是终止当前情节,然后机器人根据指示改变

RT-2 较基线模型 RT-1 等而言具有更强的任务处理能力和泛化能力。谷歌在去年推出了 RT-1 机器人模型,RT-2的训练则延续使用了 RT-1 的演示数据,由 13 个机器人在办公室、厨房环境中,历时 17 个月进行收集。RT-2的基础 VLM则选用了不久前推出的 PaLM-E和更早一些的 PaLI-X,通过测试后发现,RT-2 与之前的模型相比,具有更高的任务成功率(符号理解、推理和人类识别三个方面)以及更强的泛化和涌现能力(在机器人面对以前未见过场景中的性能方面,RT-2 从RT-1 的 32% 提高到 62%)。

4) VoxPoser:机器人任务轨迹规划:

2023 年 7 月,斯坦福大学李飞飞团队提出了智能系统 VoxPoser, 它可以从大模型 LLM 和视觉-语言模型 VLM 中提取可行性和约束,以构建 3D 仿真环境中的值地图,供运动规划器使用,用于零样本地合成机器人操纵任务的轨迹,从而实现在真实世界中的零样本机器人操纵。

该模型把复杂指令转化成具体行动规划,人类可以随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。其原理很简单,首先,给定环境信息(用相机采集 RGB-D 图像)和我们要执行的自然语言指令。接着,LLM根据这些内容编写代码,所生成代码与 VLM进行交互,指导系统生成相应的操作指示地图,即 3D 值地图。它是可行性地图和约束地图的总称,既标记了“在哪里行动”,也标记了“如何行动”。再利用动作规划器,将生成的 3D 地图作为其目标函数,便能够合成最终要执行的操作轨迹。相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,直接解决了机器人训练数据稀缺的问题。

VoxPoser 还具有 4 个新颖的涌现能力。1)估算物理属性:给定两个未知质量的方块,机器人被要求使用现有工具进行物理实验,确定哪个方块更重。2)常识性行为推理:在摆桌子的任务中,用户可以指定行为偏好,比如“我是左撇子”,机器人能根据上下文理解其含义。3)细粒度语言纠正:比如执行“给茶壶盖上盖子”这种精度要求较高的任务时,可以向机器人发出“你偏离了 1 厘米”等精确指令来校正它的操作。4)基于视觉的多步操作:比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但 VoxPoser可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求了。

5) RoboAgent:小数据集下的通用机器人智能体

2023 年 8 月,Meta 和 CMU 团队联合推出了通用机器人智能体 RoboAgent。不同于 DeepMind的 RT 系列模型采用了大规模机器人数据集进行训练,考虑到机器人在现实世界中的训练和部署效率问题,Meta 将数据集限制到了 7500 个操作轨迹中,并基于此让 RoboAgent 实现了 12 种不同的复杂技能,包括烘焙、拾取物品、上茶、清洁厨房等任务,并能在 100 种未知场景中泛化应用。

构建一个可以泛化到许多不同场景的机器人智能体需要一个覆盖面足够广的数据集。例如 RT-1就采用了超过 13 万条机器人操作轨迹数据来进行训练,RoboAgent 则着眼于在有限的数据下提高机器人学习系统的效率,而较少的数据通常会导致模型过拟合。RoboAgent的数据集共有7500条数据,分别在 4 个厨房场景中采集,包含 12 个技能,38 个任务。于此小体量的数据,Meta采用了全自动的数据增广来对数据集进行信息扩充,通过 Meta 提出的“分割一切模型”(Segment Anything Model,SAM)来对图像中的被操作物体和背景进行分割,然后分别对被操作对象和背景进行修改,以达到数据集扩充的目的。

6) RT-X 和 Open X-Embodiment Dataset:机器人的 ImageNet 时刻

10 月 4 日,谷歌 DeepMind 在官网发布了全球最大通用大模型之一 RT-X,并开放了训练数据集Open X-Embodiment。该数据集来自 21 个研究机构,包含在 22 种类型的机器人上采集的超过 15万个任务的上百万条数据,展示了 527 项技能。诸多人工智能科学家表示,机器人模型的ImageNet 时刻到来了。

采用 Open X-Embodiment 训练的 RT-X性能表现大幅提升。DeepMind分别基于 RT-1和 RT-2,采用 Open X-Embodiment 数据集进行训练得到了 RT-1-X 和 RT-2-X,得益于更多样化、跨实体的训练数据,性能表现较原有模型均有大幅提升。在相同的模型架构下,使用 Open XEmbodiment 数据集训练的 RT-1-X 平均性能优于原始模型 50%。RT-2-X 则可以执行从未训练的操作,涌现能力达到了RT-2的三倍,包括对空间的更好理解,动作的细腻程度等。例如,让机器人把苹果拿到布附近,而不是拿到布上面,RT-2-X 都能很好的区别这些指令的差异,并做出相应的动作。

 

机器人大模型面临的问题:

虽然各家科技巨头厂商都在针对通用机器人大模型进行深入探索,但目前来看,距离实现真正的具身智能水平的模型还有很长的路要走。机器人大模型还面临着诸多问题,包括机器人数据、实时性、软硬件融合等。

高质量训练数据缺乏,合成数据有望成为新方向:

机器人算法的训练需要大量机器人真实数据。机器人需要通过多种传感器感知环境状态,然后执行实际动作来完成任务,因此训练用于机器人的大模型需要用到大量机器人在真实世界中与环境进行交互的数据集。相比图像和自然语言处理领域可以从网上大量获取训练数据或者通过人类标注快速低成本的获取数据,可用于训练机器人学会执行新任务新技能的高质量数据非常匮乏。主要原因在于:

1> 数据丰度问题:ChatGPT 是一个语言模型,从语言角度来说,每个人每分钟能够说出 100-200 字,转化成计算语言就是 1~2 k 字节每秒的传输速率。多模态模型一次输出 4 张图片的传输速率也不过在 MB 级别甚至更低,这个数据会远小于机器关节运动的所产生的信息量。机器人在执行任务时面临的环境和交互内容、产生的数据模态更多更复杂,机器人在单位时间内能够产生的数据要远超语言几个数量级。

2> 机器人领域缺乏数据基础:对于 ChatGPT 来说,公开的互联网数据十分充足,有大量的公域数据可供爬取。但现实中的机器人保有量太少,可用于收集训练数据的机器人就更少。此外,每个机器人厂商都会有自己的壁垒,倾向于保护自己的数据,导致机器人领域数据获取难度进一步提升。

3> 数据搜集效率:传统 CV/NLP 等任务只需要收集文字、图像等数据,可以通过公开互联网进行爬取,数据采集效率非常高。而机器人领域数据的采集需要真实的机器人去执行任务操作,花费的时间较爬虫相比效率很低。

开源 Open X-Embodiment 数据集是重要进步,但仍旧不足。谷歌开源的机器人训练数据集Open X-Embodiment 汇集了全球 34 个机器人研究实验室的 60 个现有数据集,包含了在 22 种类型的机器人上采集的超过 15 万个任务的上百万条数据,被誉为机器人领域的 ImageNet 时刻,是机器人模型领域的重要进步。但该数据集主要针对的是常见的操作技能,比如拾取、放置、推拉、移动等,如果要朝着人形机器人的未来发展的话,人形机器人涉及到的全身肢体协调、行走时的平衡等数据的需求量仍较大。

 

实时性仍需提升,算力可能是瓶颈:

机器人大模型对机器人行动控制的周期仍太长,无法做到实时响应。当前各大科技厂商研究出的算法虽然能够实现机器人技能水平的提升,但是在响应速度方面仍较差。谷歌RT-2的演示视频需要 2 倍速播放才能实现比较流畅的机器人动作,而 Voxposer 更是需要 8 倍速才能有流畅的动作表现,如果按原速看的话,能发现 Voxposer 控制的机器人轨迹并不是平滑的,而是有不断的小停顿。这样的迟滞性在真正想要实现通用的人形机器人领域是比较难以接受的。

实时性的提升依赖于算力,对于面对高复杂性环境的人形机器人尤其重要。中科院院士姚期智在2023 世界机器人大会的演讲中表示,计算能力的挑战非常重要,谷歌研发的 RT-2 模型在机器人控制周期上只能达到 3Hz 的水平,和通用人形机器人需要的 500Hz 差的很远,距离实际需要的控制水平仍有许多事情要做。从动态角度看,人形机器人需要实时控制系统,所有的伺服关节也要同步运动,传感器的数据也要同步采集,从而保证算法的输入和输出都始终处于一个节拍,从而保证算法的性能。所以,实时算法急需高算力的支撑,让系统在一定的时间周期内完成计算。而人形机器人未来的目标是要走进千家万户,这就要求必须具备对复杂环境的适应性算法,包括走路时对地面的适应性、手臂工作时对障碍物的适应性、机器人在人机交互、人机协同时的适应性。这些复杂算法都对控制器的算力提出了巨大的挑战。

 

 软硬件融合是最终目标:

软硬件能力的协同进化也同样重要。波士顿动力创始人 Marc Raibert 在演讲中提到,未来的机器人技术发展过程中,硬件工程和软件同等重要。“有些人认为软件可以克服硬件上所有的问题和限制,我并不赞同这个观点”。以波士顿动力的人形机器人为例,在Atlas的硬件工程方面,公司做了大量工作——包括液压系统、多个专门的阀门、专用电池、负载等各个方面,把机器人的重量从 170 公斤缩小到 90 公斤,这个过程中,他们没有在机器人的功能上有任何妥协,反而提高了机器人的运动范围力量和速度。

人形机器人零部件众多,做好软硬件协同才能发挥其硬件水平。人形机器人集成了大量不同的传感器,如:视觉、听觉、位置、柔性传感器等,这些传感器能够让机器人通过“五官”接近人类,收集并感知外界信息。以特斯拉 Optimus 为例,原型机动力系统部分有 28 个结构执行器,50 个基础自由度,全身能够产生 200 个以上不同角度的动作。灵巧手单手有 6 个执行器,11 个自由度采用金属肌腱带动机器人能够精确抓住小而薄的物体。而在接下来的“分解、规划任务、运动中识别物体、完成高质量的实时交互,最后完成具体任务”一整套作业过程中,更需要把人形机器人的核心软硬件有机整合,协同好各部分的速度、力度、准确性,让这些硬件系统各司其职完成任务,其难度是巨大的。

免责声明:本文章不涉及投资建议,仅供分享观点所用。

参考资料:

华泰证券:人形机器人需要怎样的大模型?

国联证券:大模型如何赋能人形机器人?

浙商证券:Figure×OpenAI:端到端的大语言-视觉模型让“机器”变“人”

五矿证券:大模型视角下人形机器人的现在和未来

东方证券:大模型赋能人形机器人,软硬融合共创颠覆性产品