企业微信
悟空CRM  >   公司新闻  >  听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

悟空软件 阅读次数:414 次浏览

说一句「我们去野餐吧!」,机器狗竟高兴得蹦蹦跳跳;告诉它地面非常热,机器狗会一路小跑。难道机器狗能「听懂」人话了?某种程度上说确实如此。近日,谷歌研究博客介绍了 DeepMind 入选机器人学习会议 CoRL 2023 的一篇论文,其中提出的 SayTap 方法使用了大型语言模型,可将自然语言指令转译成四足机器人的低层控制信号,而且这些指令可以相当模糊。

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。

近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对 LLM 来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为 LLM 提供了决定机器人行为的高层 API,而这就从根本上限制了系统的表现能力。

在 CoRL 2023 论文《SayTap: Language to Quadrupedal Locomotion》中,谷歌 DeepMind 与东京大学提出了一种新方法,该方法使用足部接触模式作为连接人类的自然语言指令与输出低层命令的运动控制器的桥梁。

论文地址:https://arxiv.org/abs/2306.07580

项目网站:https://saytap.github.io/

 

足部接触模式(foot contact pattern)是指四足智能体在移动时足放在地上的顺序和方式。他们基于此开发出了一种交互式四足机器人系统,让用户可以灵活地制定不同的运动行为,比如用户可以使用简单的语言命令机器人走、跑、跳或执行其它动作。

他们的贡献包括一种 LLM prompt 设计、一个奖励函数和一种能让 SayTap 控制器使用可行的接触模式分布的方法。

研究表明 SayTap 控制器能够实现多种运动模式,并且这些能力还能迁移用于真实机器人硬件。

SayTap 方法

SayTap 方法使用了一种接触模式模板,该模板是一个由 0 和 1 构成的 4 X T 矩阵,其中 0 表示智能体的脚在空中,1 表示脚落在地面。从上至下,该矩阵的每一行分别给出了左前足(FL)、右前足(FR)、左后足(RL)、右后足(RR)的足部接触模式。SayTap 的控制频率为 50 Hz,即每个 0 或 1 持续 0.02 秒。这项研究将所需足部接触模式定义为一个大小为 L_w、形状为 4 X L_w 的循环滑动窗口。该滑动窗口会从接触模式模板提取四足的接地标志,其指示了在时间 t + 1 和 t + L_w 之间机器人足是在地面还是在空中。下图给出了 SayTap 方法的概况。

SayTap 方法概述

SayTap 引入的所需足部接触模式可作为自然语言用户命令与运动控制器之间的新接口。运动控制器是用于完成主要任务的(比如遵循指定的速度)以及用于在特定时间将机器人足放在地上,以使实现的足部接触模式尽可能接近所需的接触模式。

为了做到这一点,在每个时间步骤,运动控制器以所需的足部接触模式为输入,再加上本体感官数据(如关节位置和速度)及任务相关输入(如特定于用户的速度命令)。DeepMind 使用了强化学习来训练该运动控制器,并将其表征成一个深度神经网络。在控制器的训练期间,研究者使用了一个随机生成器来采样所需的足部接触模式,然后优化策略以输出能实现所需足部接触模式的低层机器人动作。而在测试时间,则是使用 LLM 将用户指令转译成足部接触模式。

SayTap 使用足部接触模式作为连接自然语言用户指令和低层控制命令的桥梁。SayTap 既支持简单直接的指令(比如「向前慢速小跑」),也支持模糊的用户命令(比如「好消息,我们这个周末去野餐!)。通过基于强化学习的运动控制器,能让四足机器人根据命令做出反应。

 

研究表明:使用适当设计的 prompt,LLM 有能力准确地将用户命令映射到特定格式的足部接触模式模板中,即便用户命令是非结构化的或模糊的。在训练中,研究者使用随机模式生成器生成了多种接触模式模板,它们有不同的模式长度 T、基于给定步态类型 G 在一个周期内的足地接触比,使得运动控制器能够在广泛的运动模式分布上学习,获得更好的泛化能力。更多详情请参阅论文。

实验结果

使用一个仅包含三种常见足部接触模式上下文样本的简单 prompt,LLM 可将各种人类命令准确地转译成接触模式,甚至泛化用于那些没有明确指定机器人应当如何行为的情况。

SayTap prompt 简洁紧凑,包含四个组分:

(1) 用于描述 LLM 应完成的任务的一般性说明;(2) 步态定义,用于提醒 LLM 关注有关四足步态的基本知识以及它们与情绪的关联;(3) 输出格式定义(4) 演示示例,让 LLM 学习在上下文中的情况。

研究者还设定了五种速度,让机器人可以前进或后退、快速或慢速、或保持不动。

遵循简单和直接的命令

下面的动图展示了 SayTap 成功执行直接清晰命令的示例。尽管某些命令并不包含在三个上下文示例之中,但依然可以引导 LLM 表达出其在预训练阶段学习到的内部知识,这会用到 prompt 中的「步态定义模块」,即上面 prompt 中第二个模块。

遵循非结构化或模糊的命令

但更有趣的是 SayTap 处理非结构化和模糊指令的能力。只需一点提示即可将某些步态与一般情绪印象联系起来,比如机器人在听到让其兴奋的消息(如「我们去野餐吧!」)后会上下跳跃。此外,它还能准确地呈现出场景,比如当被告知地面非常热时,机器人会快速移动,让脚尽量少接触地面。

总结和未来工作

SayTap 是一个用于四足机器人的交互式系统,其允许用户灵活地制定不同的运动行为。SayTap 引入了所需足部接触模式作为自然语言与低层控制器之间的接口。这种新接口简单直接又很灵活,此外,它既支持机器人遵循直接指令,也支持机器人遵从没有明确说明机器人行为方式的命令。

DeepMind 的研究者表示,未来一大研究方向是测试暗含特定感受的命令是否能让 LLM 输出所需步态。在上面结果的步态定义模块中,研究者提供了一个将开心情绪与跳动步态联系起来的句子。如果能提供更多信息,也许能增强 LLM 解释命令的能力,比如解读隐含的感受。在实验评估中,开心情绪与跳动步态的联系能让机器人在遵从模糊的人类指令行动时表现得充满活力。另一个有趣的未来研究方向是引入多模态输入,比如视频和音频。理论上讲,从这些信号转译而来的足部接触模式也适用于这里新提出的工作流程,并有望开创更多有趣的用例。

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

12222

22222
相关文章

CRM在商业中的使用有哪些?

CRM在商业中的使用有哪些?CRM在商业当中使用得比较广泛,涵盖的领域也比较多,所以,很多人都希望可以知道它在商业当中具体被用在哪些方面,那么,CRM在商业中的使用具体体现在哪些方面呢?接下来和悟空CRM一起来看看答案。1、销售管理。CRM可以被用在收集、分类、评分和分配销售线索,帮助销售人员优先关注最有可能成为成交的潜在客户,同时,它的销售流程也可以实现自动化,还能够预测和进行绩效管理。2、市场
相关文章

客户服务系统是什么?有什么重要性?

客户服务系统相信很多企业管理者都不会觉得陌生,但是,他们往往对这个系统的相关情况也不熟悉,所以,他们会问:客户服务系统是什么?有什么重要性呢?下面就和悟空CRM一起来了解这两个问题的答案。客户服务系统是什么客户服务系统是一种用在管理和优化企业以及客户之间互动的技术解决方案,这类型的解决方案包含有很多工具和程序,作用在于能够让客户体验得到提升,也能够让客户满意度增加,除此以外,它还能够让企业的运营效
相关文章

本地化部署CRM软件有哪些厂家?为什么选择悟空CRM?

本地化部署CRM软件的好处在于它可以在企业自己的服务器上运行和使用,并不需要在云服务提供商的服务器上面使用,这样就能够确保数据安全性,也能够达到企业更好控制数据的效果,所以,很多大型企业都会考虑使用这样的软件满足企业的管理需求。那么,本地化部署CRM软件有哪些厂家呢?为什么选择悟空CRM呢?下面就一起来看看答案。本地化部署CRM软件有哪些厂家1、悟空CRM。悟空CRM相信很多国内企业管理者都听说过
相关文章

解码神器:诉讼案件管理工具的功能与作用探析

当我们面对复杂的法律纠纷和冗长的诉讼流程时,一款高效的诉讼案件管理工具就如同一盏明灯,为我们照亮前行的道路。那么,这样的工具究竟有何神通广大之处呢?让我们一起揭秘其功能与作用。1. 组织与跟踪案件信息就像你的个人助手一样,诉讼案件管理工具能帮你整理所有的案件细节。从起诉状到判决书,从证人名单到法庭日期,所有重要信息都能一目了然地存储和更新,确保你不会错过任何关键步骤。2. 提升效率与准确性传统的手
相关文章

本地化部署CRM软件与SaaS化CRM的优缺点是什么?

很多企业在选择crm系统时候,往往会因为不知道自己应该选择本地化CRM软件还是Saas化CRM而烦恼,所以,他们希望能够知道二者的优缺点是怎样的。通过了解优缺点来判断哪一种系统更适合自己选择。那么,本地化部署CRM软件与SaaS化CRM的优缺点是什么?下面和小编一起来看看答案。本地化部署CRM软件与SaaS化CRM的优缺点本地化部署CRM软件的优缺点优点。本地化部署CRM软件的有点在于它的相关数据
相关文章

主流客户服务系统(可免费试用),腾讯使用的品牌

现在是数字化转型的时代,企业对客户服务系统也比较依赖,他们在选择这类型的系统时候都会考虑一些能够帮助提升客户体验、优化内部管理流程的大型系统,在面对市场上众多的系统时候,他们认为选择可免费试用的系统能够让自己更准确知道所选择的系统如何。那么,主流客户服务系统(可免费试用),腾讯使用的品牌到底是哪个呢?下面来看看答案。在众多的主流客户服务系统(可免费试用)当中,悟空CRM凭借着自身卓越的功能以及优秀
相关文章

客户CRM管理系统选型指南:主流工具哪家好?

对于企业管理者而言,选择到合适的客户CRM管理系统能够帮助优化企业销售、市场营销以及服务流程,它的重要性不言而喻,但是,面对市场上众多的客户CRM管理系统时候,很多企业管理者往往不知道自己到底应该选择什么样的产品才能够满足自己的企业CRM管理需求。那么,客户CRM管理系统选型指南是怎样的?主流工具哪家好呢?下面就一起来做了解。客户CRM管理系统选型指南1、功能需求。选择客户CRM管理系统时候,首先
相关文章

本地化部署CRM软件安全性如何?哪家品牌好?

有很多企业管理者都会结合自己企业的管理需求而选择CRM软件满足自己企业的仓储管理需求,有的人表示:自己在了解本地化部署CRM时候,得知这种部署方式是比较受关注的一种部署方式。但是,他们也会因为担心这种部署方式的安全性而烦恼不已。那么,本地化部署CRM软件安全性如何呢?本地化部署CRM软件哪家品牌好?下面就一起来做了解。本地化部署CRM软件安全性如何本地化部署CRM软件的安全性是值得肯定的,它能够提
相关文章

CRM外呼系统是什么?CRM外呼系统有什么重要性?

可能有的企业管理者听说过CRM外呼系统,但是,他们对这种系统的相关情况并不了解,甚至不知道这类型的系统到底是什么。那么,CRM外呼系统是什么?CRM外呼系统的功能?有什么重要性呢?下面就和悟空CRM一起来看看这两个问题的答案。CRM外呼系统是什么CRM外呼系统是一种集成在客户关系管理系统当中的工具,它专门设计用在管理企业和现有客户以及潜在客户之间的外呼活动,这类型的系统往往具备自动化呼叫、呼叫脚本
相关文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载