谷歌的新AI模型”PaLM2″,其性能得到了多大的提升?与GPT4相比呢?

图片[1] - 谷歌的新AI模型”PaLM2″,其性能得到了多大的提升?与GPT4相比呢? - EVLIT

为了与ChatGPT竞争,Google发布了新的AI模型“PaLM2”。该模型使用了比之前推出的“PaLM”模型多了大约5倍的数据(token),但它的参数规模要小得多,因此被视为是更有效率的模型。

有关PaLM2的参数数量,PaLM的参数数量明确为5400亿,但PaLM2的参数数量尚未公开。然而,CNBC根据其5月16日获得的Google内部文件信息称,PaLM2的参数数量为3400亿。同一文档还指出,PaLM2的标记数为3万6千亿,而PaLM的学习标记数为7800亿。

通过模型的缩小,PaLM2比竞争模型更快,成本效益更高。实际上,人们想知道在哪些领域可以看到性能提升。在官方声明和官方技术报告中,PaLM2在常识推理、逻辑解释、数学、多语言对话和编码方面都有显着的改善。

推理、多语言、数学能力都有显著提高的PaLM2

在PaLM2的技术报告中,进行了多项推理测试,包括“WinoGrande”、“ARC-C”和“DROP”,并进行了与PaLM和GPT4的性能比较。结果显示,PaLM2不仅在所有方面都远远超过前任模型PaLM的分数,而且获得了与GPT4相匹配的分数,推理能力大幅改善。

例如,在WinoGrande测试中,PaLM2获得了90.9分,比PaLM的85.1分和GPT4的87.5分更高。在ARC-C测试中,PaLM2的得分为95.1,超过了PaLM的88.7,并逼近了GPT4的96.3。此外,在DROP测试中,PaLM2获得了85分,远远超过了PaLM的70.8分和GPT4的80.9分。

这些推理测试是用于开发大规模语言模型的推理问题数据集。例如,WinoGrande由4.4万个问题组成。

在数学能力方面,PaLM2也显示出了较大的改善。

对数学能力进行评估,使用了“MATH”、“GSM8K”和“MGSM”三个数据集,并针对PaLM和GPT4测试了PaLM2的得分。

“MATH”由12500个涉及高中学生的全部7个数学学科的问题组成。另一方面,“GSM8K”由8500个基于小学数学的文章问题组成。MGSM则是GSM8K的10种不同语言的多语言版本。

在MATH测试中,PaLM2获得了最高48.8分,远远超过了PaLM的8.8分。此前基于LaMDA或PaLM的Bard因其数学能力差评价而受到各种媒体的报道,但通过转向PaLM2,这种评价有望得到大幅改善。另外,PaLM2的48.8分也超过了GPT4的42.5分。

在GSM8K中,PaLM2的最高得分为92.2分,超过了GPT4的92分和PaLM的74.4分,并在MGSM中获得了最高87分,比其他模型更高。

在多语言能力方面,PaLM2也有显着进步。

根据技术报告,在日语、中文、意大利语、法语、西班牙语等的语言能力方面,PaLM2进行了高级水平的测试,结果显示,在所有语言中,PaLM2都大大超过前任模型PaLM。

例如,在中文笔记测试中,PaLM2得分为82%,而PaLM仅得分62%。在中文综合测试中,PaLM2获得了81%的分数,而PaLM仅获得46%的分数。在综合测试中,PaLM2甚至超过了合格线。此外,在西班牙语笔记测试中,PaLM2得分为67%,远高于PaLM的25%。在西班牙语综合测试中,PaLM2获得了83%的高分,这是时不时地获得了显著提高。

通过PaLM2的设计,Bard可以与ChatGPT平起平坐

自PaLM2推出以来,各种媒体已经对其性能进行了评估,通常与GPT4进行比较,结论是PaLM2性能良好。

作者使用搭载PaLM2的Bard进行了测试,发现它可以生成包括最新信息在内的输出。可见其比GPT4更胜一筹的地方有多个。

例如,当询问“Sony的新相机ZV-E1和iPhone 14 Pro哪个更好?”时,Bard生成了一个回答,介绍了每款相机的优缺点,并指出应根据需求进行选择。值得特别注意的是,Bard没有指定相机型号,但从提供的价格信息中,它准确地确定了目前最新型号“ZV-E1”。

另一方面,当询问同样的问题给GPT4时,它会回答“同种语言模型的信息只有到2021年9月为止,并且没有回答问题的信息”。

通过PaLM2的设计,Bard现在可以与ChatGPT平起平坐,但仍需注意可能陷入“错觉”的风险。

例如,当在输入“Peter Temin的《The Inflation Wars: A Modern History》是关于什么的?”时,Bard会生成回答“这是一本关于货币膨胀历史和政策的书籍。” 然而这样的书是不存在的。据2023年4月的报道,类似的提示已被输入到Bard中,并出现了类似的幻觉。

总的来说,谷歌的大规模语言模型经历了从LaMDA到PaLM,再到PaLM2的短暂发展,显示出明显的改进。我们期待看到它将如何进一步演化,并关注OpenAI等竞争对手的动态。

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
说说你的看法!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容