大语言模型的飞速“变异”,让人类社会的走向越来越科幻了。点亮这棵科技树后,“终结者”的现实仿佛离我们越来越近。前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。Google当然也不甘其后,在周一,来自Google和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。
论文地址:https://arxiv.org/abs/2303.03378
作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。
此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。
横跨机器人、视觉-语言领域的“通才”模型
PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。
它的强大之处在于,能够利用视觉数据来增强其语言处理能力。
当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言
据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。
其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。
经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。
可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。
更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。
除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。
在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。
而在模型尺度上,研究人员则观察到了一个显著的优势。
语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。
从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。
尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。
在OK-VQA基准上,PaLM-E取得了新的SOTA。
测评结果
在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。
值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。
在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。
比如,“从抽屉里拿出薯片”这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。
经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。
人类:给我来点薯片。
机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。
同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——
人类:给我拿一个苹果。
机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。
除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。
研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务“将积木按颜色分类到不同的角落”。
如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。
模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。
值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。
类似的,虽然模型此前从未见过乌龟, 但照样可以顺利地把 绿色积木推到乌龟旁边
在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。
多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。
此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。
比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。
以及一般的QA和标注等多种任务。
最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。
但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。
参考资料:
您也可以联系文章作者本人进行修改,若内容侵权或非法,可以联系我们进行处理。
任何个人或组织,转载、发布本站文章到任何网站、书籍等各类媒体平台,必须在文末署名文章出处并链接到本站相应文章的URL地址。
本站文章如转载自其他网站,会在文末署名原文出处及原文URL的跳转链接,如有遗漏,烦请告知修正。
如若本站文章侵犯了原著者的合法权益,亦可联系我们进行处理。
hi4个月前0
请问有详细一点的自己搭建的教程吗你好5个月前0
你好,可以再帮我看看吗? 我已经按照你的方法设定了,还是一样,wordpress后台的 Purge Varnish Cache 插件还是清除不到cache,依旧显示 the varnish control terminal is not responding at。谢谢 https://mjj.today/i/Srk2Tz https://mjj.today/i/Srkcoi你好5个月前0
对,你说的没错,我配置的时候改了一些东西,现在我按照你的教学,可以启动了,网页可以缓存了,不过wordpress 清除cache 那个插件没用的,我输入本地回环地址127.0.0.1 :6082 ,再输入API key ,插件显示the varnish control terminal is not responding at 127.0.0.1:6082,就你图片那样,然后试一下点击清除cache 那里,他显示error,研究了一天,还是没有不行。你好5个月前1
你好,为啥我按照你的方法,到第三部分,去到真正后源的服务器设定Varnish 部分,我填了真正后源的IP跟端口跟域名,然后重启 Varnish ,就出现这样了? 这是怎么回事? 谢谢 [Linux] AMH 7.1 https://amh.sh [varnish-6.6 start] ================================================== =========== [OK] varnish-6.6 is already installed. Could not delete 'vcl_boot.1713549650.959259/vgc.sym': No such file or directory Error: Message from VCC-compiler: VCL version declaration missing Update your VCL to Version 4 syntax, and add vcl 4.1; on the first line of the VCL files. ('/home/usrdata/varnish/default.conf' Line 1 Pos 1) ... #--- Running VCC-compiler failed, exited with 2 VCL compilation failedchu5个月前0
很完善的教程‘hu5个月前0
我用gmail EMAIL_SERVER="smtp://********@gmail.com:bpyfv*********[email protected]:587"叽喳5个月前0
MAIL_SERVER="smtp://[email protected]:[email protected]:587" 大佬 这个使用outlook 或者gmail 是什么样子的格式? 邮寄已经开启smtp了hu5个月前0
输入框的问题解决了,我没有设置反代,NEXTAUTH_URL改为域名+端口就好了