企业微信
悟空CRM  >   公司新闻  >  听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

悟空软件 阅读次数:988 次浏览

说一句「我们去野餐吧!」,机器狗竟高兴得蹦蹦跳跳;告诉它地面非常热,机器狗会一路小跑。难道机器狗能「听懂」人话了?某种程度上说确实如此。近日,谷歌研究博客介绍了 DeepMind 入选机器人学习会议 CoRL 2023 的一篇论文,其中提出的 SayTap 方法使用了大型语言模型,可将自然语言指令转译成四足机器人的低层控制信号,而且这些指令可以相当模糊。

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。

近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对 LLM 来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为 LLM 提供了决定机器人行为的高层 API,而这就从根本上限制了系统的表现能力。

在 CoRL 2023 论文《SayTap: Language to Quadrupedal Locomotion》中,谷歌 DeepMind 与东京大学提出了一种新方法,该方法使用足部接触模式作为连接人类的自然语言指令与输出低层命令的运动控制器的桥梁。

论文地址:https://arxiv.org/abs/2306.07580

项目网站:https://saytap.github.io/

 

足部接触模式(foot contact pattern)是指四足智能体在移动时足放在地上的顺序和方式。他们基于此开发出了一种交互式四足机器人系统,让用户可以灵活地制定不同的运动行为,比如用户可以使用简单的语言命令机器人走、跑、跳或执行其它动作。

他们的贡献包括一种 LLM prompt 设计、一个奖励函数和一种能让 SayTap 控制器使用可行的接触模式分布的方法。

研究表明 SayTap 控制器能够实现多种运动模式,并且这些能力还能迁移用于真实机器人硬件。

SayTap 方法

SayTap 方法使用了一种接触模式模板,该模板是一个由 0 和 1 构成的 4 X T 矩阵,其中 0 表示智能体的脚在空中,1 表示脚落在地面。从上至下,该矩阵的每一行分别给出了左前足(FL)、右前足(FR)、左后足(RL)、右后足(RR)的足部接触模式。SayTap 的控制频率为 50 Hz,即每个 0 或 1 持续 0.02 秒。这项研究将所需足部接触模式定义为一个大小为 L_w、形状为 4 X L_w 的循环滑动窗口。该滑动窗口会从接触模式模板提取四足的接地标志,其指示了在时间 t + 1 和 t + L_w 之间机器人足是在地面还是在空中。下图给出了 SayTap 方法的概况。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

SayTap 方法概述

SayTap 引入的所需足部接触模式可作为自然语言用户命令与运动控制器之间的新接口。运动控制器是用于完成主要任务的(比如遵循指定的速度)以及用于在特定时间将机器人足放在地上,以使实现的足部接触模式尽可能接近所需的接触模式。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

为了做到这一点,在每个时间步骤,运动控制器以所需的足部接触模式为输入,再加上本体感官数据(如关节位置和速度)及任务相关输入(如特定于用户的速度命令)。DeepMind 使用了强化学习来训练该运动控制器,并将其表征成一个深度神经网络。在控制器的训练期间,研究者使用了一个随机生成器来采样所需的足部接触模式,然后优化策略以输出能实现所需足部接触模式的低层机器人动作。而在测试时间,则是使用 LLM 将用户指令转译成足部接触模式。

SayTap 使用足部接触模式作为连接自然语言用户指令和低层控制命令的桥梁。SayTap 既支持简单直接的指令(比如「向前慢速小跑」),也支持模糊的用户命令(比如「好消息,我们这个周末去野餐!)。通过基于强化学习的运动控制器,能让四足机器人根据命令做出反应。

 

研究表明:使用适当设计的 prompt,LLM 有能力准确地将用户命令映射到特定格式的足部接触模式模板中,即便用户命令是非结构化的或模糊的。在训练中,研究者使用随机模式生成器生成了多种接触模式模板,它们有不同的模式长度 T、基于给定步态类型 G 在一个周期内的足地接触比,使得运动控制器能够在广泛的运动模式分布上学习,获得更好的泛化能力。更多详情请参阅论文。

实验结果

使用一个仅包含三种常见足部接触模式上下文样本的简单 prompt,LLM 可将各种人类命令准确地转译成接触模式,甚至泛化用于那些没有明确指定机器人应当如何行为的情况。

SayTap prompt 简洁紧凑,包含四个组分:

(1) 用于描述 LLM 应完成的任务的一般性说明;(2) 步态定义,用于提醒 LLM 关注有关四足步态的基本知识以及它们与情绪的关联;(3) 输出格式定义(4) 演示示例,让 LLM 学习在上下文中的情况。

研究者还设定了五种速度,让机器人可以前进或后退、快速或慢速、或保持不动。

遵循简单和直接的命令

下面的动图展示了 SayTap 成功执行直接清晰命令的示例。尽管某些命令并不包含在三个上下文示例之中,但依然可以引导 LLM 表达出其在预训练阶段学习到的内部知识,这会用到 prompt 中的「步态定义模块」,即上面 prompt 中第二个模块。

遵循非结构化或模糊的命令

但更有趣的是 SayTap 处理非结构化和模糊指令的能力。只需一点提示即可将某些步态与一般情绪印象联系起来,比如机器人在听到让其兴奋的消息(如「我们去野餐吧!」)后会上下跳跃。此外,它还能准确地呈现出场景,比如当被告知地面非常热时,机器人会快速移动,让脚尽量少接触地面。

总结和未来工作

SayTap 是一个用于四足机器人的交互式系统,其允许用户灵活地制定不同的运动行为。SayTap 引入了所需足部接触模式作为自然语言与低层控制器之间的接口。这种新接口简单直接又很灵活,此外,它既支持机器人遵循直接指令,也支持机器人遵从没有明确说明机器人行为方式的命令。

DeepMind 的研究者表示,未来一大研究方向是测试暗含特定感受的命令是否能让 LLM 输出所需步态。在上面结果的步态定义模块中,研究者提供了一个将开心情绪与跳动步态联系起来的句子。如果能提供更多信息,也许能增强 LLM 解释命令的能力,比如解读隐含的感受。在实验评估中,开心情绪与跳动步态的联系能让机器人在遵从模糊的人类指令行动时表现得充满活力。另一个有趣的未来研究方向是引入多模态输入,比如视频和音频。理论上讲,从这些信号转译而来的足部接触模式也适用于这里新提出的工作流程,并有望开创更多有趣的用例。

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

什么是CRM?概念、作用、价值、用途、使用方法

1、什么是CRM?简单来说,它就是企业用来管理客户关系的工具说到CRM,很多人可能会觉得这个概念听起来有点复杂,但实际上,它并没有想象中那么难懂。简单来说,CRM就是客户关系管理(Customer Relationship Management),它的核心目标就是帮助企业更好地与客户互动,提升客户满意度,同时提高企业的效率和利润。如果你是一个企业的管理者,或者正在考虑如何优化你的业务流程,那你一定
相关文章

什么是CRM?一文全面看懂CRM(客户关系管理系统)

什么是CRM?一文全面看懂CRM嘿,朋友!今天咱们来聊一个听起来有点专业,但其实跟咱们生活、工作都息息相关的词——CRM。你可能会问:"CRM是什么意思啊?这玩意儿到底是干啥的?"别急,咱们慢慢唠。保证用最接地气的话给你讲明白,连隔壁王大妈听了都能懂!一、CRM到底是个啥?能吃吗?说白了,CRM就是客户关系管理,英文全称Customer Relationship Managem
相关文章

CRM是什么意思啊,主要是干什么的?(专业解析)

嘿,朋友们!今天咱们来聊聊一个听起来有点专业、但其实跟咱们日常生活息息相关的话题——CRM。你可能会问:"CRM是什么意思啊?这玩意儿到底是干啥的?"别急,咱们慢慢唠。说白了,CRM就是客户关系管理,英文全称Customer Relationship Management。听起来是不是还挺直白的?但你可别被这个简单的名字骗了,这可是个超级实用的工具。想象一下,如果你是个老板,每
相关文章

CRM是什么?CRM专业解读,3分钟快速入门

什么是CRM?通俗易懂的解释在当今竞争激烈的商业环境中,客户关系管理(CRM)已经成为企业不可或缺的一部分。那么,究竟什么是CRM呢?简单来说,CRM是一种帮助企业更好地管理与客户之间关系的工具和方法。它不仅仅是软件,更是一种理念,旨在通过收集、分析和利用客户数据,来提升客户满意度和忠诚度,从而推动企业的增长和发展。想象一下,当你走进一家你常去的咖啡店,店员知道你喜欢的咖啡种类和甜度,甚至会在你到
相关文章

什么是CRM系统,它的价值是什么?CRM全面指南

什么是CRM系统?在现代商业环境中,客户关系管理(CRM)系统已经成为企业不可或缺的工具。那么,究竟什么是CRM系统呢?简单来说,CRM是一种用于管理与客户互动的软件解决方案,它帮助企业更好地理解客户需求、跟踪客户互动,并优化销售和服务流程。想象一下,您在一家公司工作,每天都要处理大量的客户信息、订单和反馈,这些信息如果分散在不同的地方,不仅会让人感到无所适从,还可能导致沟通不畅和效率低下。这时候
相关文章

什么是CRM?概念、作用、如何运作的

什么是CRM?它为什么这么重要?嘿,咱们今天来聊聊一个在商业世界里经常被提起的话题——CRM。你可能听说过这个词,但到底什么是CRM呢?简单来说,CRM就是客户关系管理(Customer Relationship Management)的缩写。听起来有点专业,但其实它的核心思想并不复杂。想象一下,你和朋友之间的关系,如果你们经常沟通、互相了解,那这段关系自然会更稳固。而CRM呢,就是帮助企业跟客户
相关文章

CRM是什么意思?为什么中小企业一定要用?

CRM是什么意思?为什么中小企业一定要用?大家好!今天我想和大家聊聊一个在商业领域越来越火的话题——CRM。你可能听过这个词,但可能还不太清楚它到底是什么,或者为什么它对中小企业如此重要。别担心,我会用最通俗易懂的方式,带你一步步了解CRM的“前世今生”,以及它为什么能成为中小企业的“必备神器”。一、CRM到底是什么?我们先从最基础的问题开始:CRM到底是什么意思?其实,CRM的全称是Custom
相关文章

CRM销售机会管理是什么?

嘿,大家好!今天咱们聊聊一个对做生意特别重要的东西——CRM销售机会管理。你知道吗?在这个竞争激烈的时代里,谁能更好地把握住每一个潜在客户,谁就能在市场上站稳脚跟。而说到这个话题啊,我得先给你推荐一款超级好用的工具——悟空CRM。它不仅功能强大,而且操作起来也特别简单,简直就是为咱们这些忙碌的生意人量身定做的。首先,咱们得明白什么是CRM销售机会管理。简单来说呢,就是通过一套系统化的流程来跟踪、分
相关文章

什么是CRM系统平台?基本概念、功能、使用方法、价格、价值与部署流程

 引言嘿,大家好!今天咱们聊聊一个在现代商业环境中超级重要的工具——CRM系统平台。说白了啊,这个东西就是帮公司更好地了解和处理跟客户的各种互动,从而提高销售效率、提升服务质量的一种神器。著名的CRM系统平台为什么我们要谈论它呢?那可太有道理啦!在这个竞争激烈的时代,企业要想脱颖而出,光靠产品或服务本身是不够的,还得懂得如何用心经营与客户的每一段关系。而CRM就像是企业的私人助手一样,在
相关文章

销售CRM管理系统如何提升团队执行力?

嘿,大家好!今天咱们来聊聊一个特别实用的话题——销售CRM管理系统怎么帮助提升团队的执行力。说到这个,我得先提一提悟空CRM,这可是个挺不错的工具,用起来方便又高效,很多企业都靠它解决了不少头疼的问题呢。首先,咱们得明白一件事,就是现在的市场竞争有多激烈啊。每个公司都在想方设法提高效率、增强竞争力,而销售团队作为直接面对客户的前线部队,他们的表现直接影响着公司的业绩。这时候,一个好的CRM系统就显
相关文章
最新文章

什么是CRM?概念、作用、价值、用途、使用方法

1、什么是CRM?简单来说,它就是企业用来管理客户关系的工具说到CRM,很多人可能会觉得这个概念听起来有点复杂,但实际上,它并没有想象中那么难懂。简单来说,CRM就是客户关系管理(Customer Relationship Management),它的核心目标就是帮助企业更好地与客户互动,提升客户满意度,同时提高企业的效率和利润。如果你是一个企业的管理者,或者正在考虑如何优化你的业务流程,那你一定
最新文章

什么是CRM?一文全面看懂CRM(客户关系管理系统)

什么是CRM?一文全面看懂CRM嘿,朋友!今天咱们来聊一个听起来有点专业,但其实跟咱们生活、工作都息息相关的词——CRM。你可能会问:"CRM是什么意思啊?这玩意儿到底是干啥的?"别急,咱们慢慢唠。保证用最接地气的话给你讲明白,连隔壁王大妈听了都能懂!一、CRM到底是个啥?能吃吗?说白了,CRM就是客户关系管理,英文全称Customer Relationship Managem
最新文章

CRM是什么意思啊,主要是干什么的?(专业解析)

嘿,朋友们!今天咱们来聊聊一个听起来有点专业、但其实跟咱们日常生活息息相关的话题——CRM。你可能会问:"CRM是什么意思啊?这玩意儿到底是干啥的?"别急,咱们慢慢唠。说白了,CRM就是客户关系管理,英文全称Customer Relationship Management。听起来是不是还挺直白的?但你可别被这个简单的名字骗了,这可是个超级实用的工具。想象一下,如果你是个老板,每
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载