谷歌的新AI模型”PaLM2″，其性能得到了多大的提升？与GPT4相比呢？ - EVLIT

谷歌的新AI模型”PaLM2″，其性能得到了多大的提升？与GPT4相比呢？

10个月前更新

024712

为了与ChatGPT竞争，Google发布了新的AI模型“PaLM2”。该模型使用了比之前推出的“PaLM”模型多了大约5倍的数据（token），但它的参数规模要小得多，因此被视为是更有效率的模型。

有关PaLM2的参数数量，PaLM的参数数量明确为5400亿，但PaLM2的参数数量尚未公开。然而，CNBC根据其5月16日获得的Google内部文件信息称，PaLM2的参数数量为3400亿。同一文档还指出，PaLM2的标记数为3万6千亿，而PaLM的学习标记数为7800亿。

通过模型的缩小，PaLM2比竞争模型更快，成本效益更高。实际上，人们想知道在哪些领域可以看到性能提升。在官方声明和官方技术报告中，PaLM2在常识推理、逻辑解释、数学、多语言对话和编码方面都有显着的改善。

推理、多语言、数学能力都有显著提高的PaLM2

在PaLM2的技术报告中，进行了多项推理测试，包括“WinoGrande”、“ARC-C”和“DROP”，并进行了与PaLM和GPT4的性能比较。结果显示，PaLM2不仅在所有方面都远远超过前任模型PaLM的分数，而且获得了与GPT4相匹配的分数，推理能力大幅改善。

例如，在WinoGrande测试中，PaLM2获得了90.9分，比PaLM的85.1分和GPT4的87.5分更高。在ARC-C测试中，PaLM2的得分为95.1，超过了PaLM的88.7，并逼近了GPT4的96.3。此外，在DROP测试中，PaLM2获得了85分，远远超过了PaLM的70.8分和GPT4的80.9分。

这些推理测试是用于开发大规模语言模型的推理问题数据集。例如，WinoGrande由4.4万个问题组成。

在数学能力方面，PaLM2也显示出了较大的改善。

对数学能力进行评估，使用了“MATH”、“GSM8K”和“MGSM”三个数据集，并针对PaLM和GPT4测试了PaLM2的得分。

“MATH”由12500个涉及高中学生的全部7个数学学科的问题组成。另一方面，“GSM8K”由8500个基于小学数学的文章问题组成。MGSM则是GSM8K的10种不同语言的多语言版本。

在MATH测试中，PaLM2获得了最高48.8分，远远超过了PaLM的8.8分。此前基于LaMDA或PaLM的Bard因其数学能力差评价而受到各种媒体的报道，但通过转向PaLM2，这种评价有望得到大幅改善。另外，PaLM2的48.8分也超过了GPT4的42.5分。

在GSM8K中，PaLM2的最高得分为92.2分，超过了GPT4的92分和PaLM的74.4分，并在MGSM中获得了最高87分，比其他模型更高。

在多语言能力方面，PaLM2也有显着进步。

根据技术报告，在日语、中文、意大利语、法语、西班牙语等的语言能力方面，PaLM2进行了高级水平的测试，结果显示，在所有语言中，PaLM2都大大超过前任模型PaLM。

例如，在中文笔记测试中，PaLM2得分为82%，而PaLM仅得分62%。在中文综合测试中，PaLM2获得了81%的分数，而PaLM仅获得46%的分数。在综合测试中，PaLM2甚至超过了合格线。此外，在西班牙语笔记测试中，PaLM2得分为67%，远高于PaLM的25%。在西班牙语综合测试中，PaLM2获得了83%的高分，这是时不时地获得了显著提高。

通过PaLM2的设计，Bard可以与ChatGPT平起平坐

自PaLM2推出以来，各种媒体已经对其性能进行了评估，通常与GPT4进行比较，结论是PaLM2性能良好。

作者使用搭载PaLM2的Bard进行了测试，发现它可以生成包括最新信息在内的输出。可见其比GPT4更胜一筹的地方有多个。

例如，当询问“Sony的新相机ZV-E1和iPhone 14 Pro哪个更好？”时，Bard生成了一个回答，介绍了每款相机的优缺点，并指出应根据需求进行选择。值得特别注意的是，Bard没有指定相机型号，但从提供的价格信息中，它准确地确定了目前最新型号“ZV-E1”。

另一方面，当询问同样的问题给GPT4时，它会回答“同种语言模型的信息只有到2021年9月为止，并且没有回答问题的信息”。

通过PaLM2的设计，Bard现在可以与ChatGPT平起平坐，但仍需注意可能陷入“错觉”的风险。

例如，当在输入“Peter Temin的《The Inflation Wars: A Modern History》是关于什么的？”时，Bard会生成回答“这是一本关于货币膨胀历史和政策的书籍。” 然而这样的书是不存在的。据2023年4月的报道，类似的提示已被输入到Bard中，并出现了类似的幻觉。

总的来说，谷歌的大规模语言模型经历了从LaMDA到PaLM，再到PaLM2的短暂发展，显示出明显的改进。我们期待看到它将如何进一步演化，并关注OpenAI等竞争对手的动态。

© 版权声明

THE END

喜欢就支持一下吧

相关文章

评论抢沙发

说说你的看法！

提交

暂无评论内容