研发者谈斯坦福家务机器人:泛化能力还不行暂无商业计划

   时间:2024-01-24 13:32:08       来源:爱游戏电竞app 点击:

  ·火爆全网的Mobile Aloha怎么样才能做到“眼里有活”?研发者揭秘称,背后离不开系统的支持。一是远程操作系统,二是高性能数据利用管道。不过,研发者也提到,Mobile Aloha在软件方面还不能自主改进或探索获取新知识,泛化能力还不行,没法做到举一反三。

  视频里,一个双臂机器人站在灶台边,化身大厨,熟练使用锅铲、厨具,又是煎又是炸,烹制出了蛋虾仁、干贝烧鸡和蚝油生菜。收拾残羹冷炙,清洗餐具,也可以。它还能浇花、拖地板、开瓶盖,甚至逗猫猫。

  当地时间1月4日,斯坦福大学人工智能实验室计算机科学专业的博士生符梓鹏在社会化媒体平台X上向网友介绍了这款名为Mobile Aloha的机器人。浏览量很快达到147万,Mobile Aloha也成了科技圈“红人”。

  公开资料显示,Mobile的研究团队共有3人。符梓鹏和托尼·赵负责硬件、软件和AI算法的开发,斯坦福大学助理教授切尔西·费恩(Chelsea Finn)担任指导老师。这款家务机器人制作成本约为3.2万美元,可以执行家务劳动、厨房工作和与人打招呼、握手等活动。

  1月17日,符梓鹏在接受澎湃科技()采访时坦言,目前Mobile Aloha没有一点商业计划。“我们公开视频和研究资料是希望可以推动机器人领域的发展,吸引更多人才进入这个行业,解决非常多尚未解决的科学和工程难题。”

  符梓鹏的研究兴趣集中在机器人技术、机器学习和计算机视觉的交叉领域。他在接受澎湃科技采访时称,Mobile Aloha“眼里有活儿”的背后离不开系统的支持,不过,泛化能力还不行,没法做到举一反三,比如无法在一个厨房学会做事后,在另一个没见过的厨房做相同的事情。

  澎湃科技:很多人都看过Mobile Aloha令人印象非常深刻的视频。这款机器人取名为Aloha有什么寓意?

  我们认为,“low cost”低成本对于机器人的普及很重要,“open-source”开源系统有助于推动机器人领域的发展。

  Mobile Aloha“眼里有活”的背后离不开系统的支持。一是远程操作系统,以直观的方式对复杂任务的数据来进行收集,如煮虾、叠衣服。二是高性能数据利用管道,帮助模仿学习。

  澎湃科技:Mobile Aloha目前主要的应用场景集中在日常家务活动中,为何要将场景设定在厨房、家务中?研发的初衷有哪些?

  符梓鹏:GPT是自然语言模型。ACT是机器人模型。两者都使用Transformer,具有相似的神经网络架构。

  澎湃科技:在研发这款机器人的过程中,你面临的最大的技术挑战是什么?最重要的突破是什么?

  符梓鹏:技术挑战是双重的。从硬件上来说,过去,研究人员大多依赖于从制造商那里购买昂贵的现成的移动操作机器人(指能够在环境中移动和操作物体的机器人),找不到既低成本、直观又功能强大的移动操作机器人/家用机器人。

  为了解决这两个难题,我们组装了自己的硬件,并利用Aloha进行双手操纵和推动其移动,设计了高质量、低成本的远程操纵系统。我们构建的硬件能够远程操控机器人完成复杂的家庭/办公任务,而这些任务在以前是不可能完成的。详情请参见我们项目网站的“远程操控”部分。利用这些硬件,我们拥有了高质量数据收集管道。

  过去,人们主要是通过编程明确家用机器人的行为来达成目标。比如,编程让机器人先走到冰箱附近,然后停下来,再移动手臂去拿苹果等。要让机器人可靠地完成现实世界中的任务,有必要进行大量的编程和手动调整,而这是无法扩展的。

  我们采用数据驱动的人工智能方法,利用人类的演示数据来教授机器人(即模仿学习)。我们在项目网站的“自主技能”部分展示了模仿学习和协同训练技术的效果,只需使用大约50次演示(大约1小时的人类数据),就能教会机器人新的自主技能。利用这种软件/人工智能方法,我们拥有了高质量数据利用的管道。

  更重要的是,我们将硬件和软件一起设计,一方面硬件的数据收集管道能够与软件很好地协同工作,另一方面软件的训练模型与硬件配合良好,并可部署到硬件上。

  澎湃科技:在Mobile Aloha中,我们观察到了模仿学习(imitation learning)在指导机器人执行高度复杂的类人任务方面的有效性。然而,强化学习(reinforcement learning)在同样目的上的应用却没取得可比的成功结果。在你看来,哪种学习机制在这一领域更有前景?

  符梓鹏:模仿学习和强化学习对机器人技术都很有用。模仿学习可以轻松又有效地利用人类的教学,获得高性能的自主机器人技能。强化学习对于要求机器人通过自动练习、自主微调和改进技能而不需要太多人类知识非常有价值。

  澎湃科技:Mobile Aloha是斯坦福大学(你的团队)和Google DeepMind合作开发的。你们在这次合作中各自扮演了什么角色?

  符梓鹏:澄清一下,尽管托尼和切尔西目前就职于Google DeepMind,我曾经也是,但Mobile Aloha项目严格来说是斯坦福大学的项目。我和托尼负责硬件、软件和AI算法的开发,切尔西是指导老师。

  澎湃科技:论文提到,在软件方面,当下机器人还不能自主改进或探索获取新知识,“对于如何从高度次优的异构数据集中进行模仿学习,将留待未来的工作来解决。”请问这里如何理解?通俗来说,今后是否有一定的概率会让Mobile Aloha有“大脑”和“小脑”?

  符梓鹏:现在Mobile Aloha的泛化能力还不行,没法做到举一反三,比如无法在一个厨房学会做事后,在另一个没见过的厨房做相同的事情。

  澎湃科技:在Mobile Aloha完成的各种任务中,有些是通过远程操作完成的,有些是通过模仿学习自主完成的。在未来的发展中,你打算如何平衡控制和自主学习?

  符梓鹏:我们大家都希望机器人在收集足够的数据后,能够自主完成远程操作视频中显示的所有任务。

  符梓鹏:第一是希望为公众利益推动现实世界机器人领域的研究,第二是希望吸引更加多的人从事家用/办公/厨房机器人的研究,以解决非常多尚未解决的科学和工程难题。我们目前还没有一点商业计划。

  澎湃科技:Mobile Aloha的预算只有2万美元。如果你有更多的预算和资源,你的下一个研究目标是什么?

  符梓鹏:如果有更多的预算,我们大家可以尝试增加更多的传感器,包括触觉和触感设备。

  澎湃科技:自2023年AI成为全球焦点以来,关于人工智能伦理的争论一直很激烈。如果人工智能训练不当,可能会对人类社会造成潜在危害。对于人形机器人来说,可能会给人类社会带来更大的风险。作为一名开发者,你是如何防止这样的一种情况发生的?

  符梓鹏:包括人形机器人在内的机器人距离实现对人类社会构成威胁的通用智能行为还很遥远。