网络上到处都是喋喋不休的机器人,但哪个最有用,用途是什么?我们比较了Bard,Bing和ChatGPT。

聊天机器人已经生效,但哪个更好,用于什么任务?我们将谷歌的Bard,微软的Bing和OpenAI的ChatGPT模型与一系列问题进行了比较,这些问题涵盖了从假期提示到游戏建议再到抵押贷款计算的常见请求。

当然,这远非这些系统能力的详尽概述(人工智能语言模型部分是由它们未知的技能定义的——这种品质在人工智能社区中被称为“能力悬垂”),但它确实让你对这些系统的相对优势和劣势有所了解。

您可以(并且确实应该)滚动浏览下面的问题、评估和结论,但为了节省您的时间并快速进入正题:ChatGPT 是最灵巧的,Bing 最适合从网络获取信息,而 Bard 是......尽力而为。(与其他两个聊天机器人相比,谷歌的聊天机器人是多么有限,这确实令人惊讶。

不过,在我们开始之前,有一些编程说明。首先:我们在ChatGPT上使用OpenAI的最新模型GPT-4。这也是为必应提供支持的AI模型,但这两个系统给出了完全不同的答案。最值得注意的是,必应还有其他能力:它可以生成图像,可以访问网络,并提供其响应的来源(这是某些查询的超级重要属性)。然而,当我们完成这个故事时,OpenAI宣布它将推出ChatGPT插件,这将允许聊天机器人也从互联网访问实时数据。这将极大地扩展系统的功能,并赋予其更像必应的功能。但是此功能目前仅对一小部分用户可用,因此我们无法对其进行测试。只要有可能,我们会的。

同样重要的是要记住,人工智能语言模型是......模糊,不止一种方式。它们不是像常规软件那样的确定性系统,而是概率系统,根据训练数据中的统计规律生成回复。这意味着,如果你问他们同样的问题,你不会总是得到相同的答案。这也意味着你如何措辞问题会影响回复,对于其中一些问题,我们要求跟进以获得更好的回答。

无论如何,撇开所有这些不谈,让我们从看看聊天机器人在应该是它们的自然领域——游戏——的表现如何开始。

如何在埃尔登戒指中击败马莱尼亚?

去年,我花了令人尴尬的大量时间学习击败Elden Ring最难对付的老板,我不会在普通的Reddit帖子或人类策略指南中选择一个回应。如果你看过马莱尼亚的比赛,你可能已经在游戏中投入了 80 到 100 个小时——你不是在寻找一般提示。你想要关于Elden Ring令人眼花缭乱的武器列表或Malenia独特动作的计数器的细节,如果他们提供的话,可能需要一些后续问题才能从这些引擎中获得。

Bing是这里的赢家,但主要是因为它选择一个准确的提示(Malenia容易受到出血伤害),并像Garth Marenghi读书一样重复它。值得称赞的是,它也是唯一参考玛莲尼亚独特治疗能力的引擎,尽管它没有解释它是如何工作的——这是击败她的重要关键。

巴德是唯一一个为玛莱尼亚地狱般的水禽舞动作(尽管我不认为这是最强的策略)或使用特定物品的建议(寻血猎犬的步骤,尽管它没有提到为什么它有用或该建议是否仍然适用于该物品的 2022 年中期 nerf)的人。但它的介绍感觉不对劲。例如,玛莲尼亚几乎完全是一个近战战士,而不是一个有很多远程攻击的人,而且她一点也不“非常不可预测”,只是真的很难躲避和磨损。摘要读起来更像是对视频游戏老板的一般性描述,而不是对特定战斗的描述。

ChatGPT (GPT-4) 是明显的输家,考虑到它的训练数据大多在 2021 年停止,而 Elden Ring 在第二年问世,这并不奇怪。它“阻止她的反击”的指令与你应该做的完全相反,它的整个列表有一个孩子在英语课上被点名并且没有读过这本书的氛围,它基本上是。我对其中任何一个都没有留下深刻的印象——但我特别认为这是一个犯规的音符。

给我一个巧克力蛋糕的食谱

蛋糕食谱为创造力提供了空间。改变面粉与水、油、黄油、糖与鸡蛋的比例,你会得到一个略有不同的蛋糕版本:可能更干燥、更湿润或更蓬松。因此,当谈到聊天机器人时,如果他们想结合不同的食谱来达到预期的效果,这不一定是一件坏事——尽管对我来说,我宁愿烘焙作者已经测试和完善的东西。

ChatGPT是唯一一个为我确定这一要求的人。它从一个网站选择了巧克力蛋糕配方,从另一个网站选择了奶油配方,分享了两者之一的链接,并正确复制了它们的两种成分。它甚至添加了一些有用的说明,比如建议使用羊皮纸,并提供一些关于如何组装蛋糕层的(略微粗略的)提示,这些在原始来源中都没有找到。这是一个我可以信任的食谱机器人!

ing进入了球场,但以一些奇怪的方式错过了。它引用了一个特定的配方,但随后改变了面粉等重要成分的一些数量,尽管只是很小的幅度。对于奶油,它将指示的糖量完全减半。最近做了奶油,我觉得这可能是一个不错的编辑!但这不是作者所要求的。

与此同时,巴德以小而可挽救的方式搞砸了一堆数量,并低估了蛋糕的烘烤时间。更大的问题是它做了一些有意义的变化,对味道产生了有意义的影响:它把酪乳换成牛奶,把咖啡换成水。后来,它没有在奶油配方中加入牛奶或重奶油,所以糖霜最终会太厚。奶油配方似乎也来自与它引用的来源完全不同的来源。

如果你关注ChatGPT或Bing,我想你最终会得到一个像样的蛋糕。但是现在,在厨房里请巴德帮忙是个坏主意。

— 杰克·卡斯特雷纳克斯

如何将内存安装到我的 PC 中?

这三个系统都在这里提供了一些可靠的建议,但还不够全面。

大多数现代 PC 都需要以双通道模式运行 RAM,这意味着摇杆必须安装在正确的插槽中才能在系统上获得最佳性能。否则,您已经在花哨的新 RAM 上花费了大量现金,如果您只是将两个摇杆立即并排放置,这些 RAM 将无法以最佳状态运行。说明绝对应该指导人们阅读他们的主板手册,以确保 RAM 以最佳方式安装。

ChatGPT 确实选择了 RAM 安装过程的关键部分——之后检查你的系统 BIOS——但它没有经过另一个非常重要的 BIOS 步骤。如果您已经获得了一些与英特尔XMP兼容的RAM,则通常需要在之后的BIOS设置中启用此功能,对于AMD的等效产品也是如此。否则,您不会以最优化的时间运行 RAM 以获得最佳性能。

总的来说,建议是可靠的,但仍然非常基本。它比一些PC构建指南要好,咳咳,但我希望看到BIOS更改或双通道部件正确拾取。

— 汤姆·沃伦

给我写一首关于蠕虫的诗

如果人工智能聊天机器人在事实上并不可靠(而且它们不是),那么它们至少应该是有创造力的。这项任务——写一首关于蠕虫的诗,一种非常具体且令人满意的晦涩诗意仪表——是一项具有挑战性的任务,但 ChatGPT 显然是赢家,其次是远处的 Bing 然后是 Bard。

没有一个系统能够重现所需的仪表(anapestic tetrameter要求每行诗歌包含四个单元,每个三个音节的模式为无重音/非重音/重音,如在“圣诞节前一天晚上的Twas”和阿姆的“The Way I Am”中听到的那样),但ChatGPT最接近,而巴德的扫描最差。这三者都提供了相关的内容,但同样,ChatGPT 的绝对是最好的,与巴德沉闷的评论(“蠕虫是一个简单的生物/但它起着重要作用”)相比,它有着令人回味的描述(“一个看不见的小世界,它在那里大饱口福和玩耍”)。

在又进行了几次诗歌测试后,我还让机器人回答有关小说段落的问题(主要是伊恩·班克斯(Iain M. Banks)的书,因为这些是我手边最近的电子书)。同样,ChatGPT/GPT-4 是最好的,能够解析文本中的各种细微差别,并对所描述的内容做出类似人类的推断,Bard 会做出非常笼统和不具体的评论(尽管也经常识别源文本,这是一个很好的奖励)。显然,如果你想要口头推理,ChatGPT 是更好的系统。

— 詹姆斯·文森特

一些基本的数学

人工智能的一大讽刺是,大型语言模型是我们迄今为止最复杂的计算机程序之一,但在数学方面却出奇地糟糕。 真。在计算方面,不要相信聊天机器人会把事情做好。

在上面的例子中,我问20%的2,230增加是什么,用一些叙事框架来修饰这个问题。正确答案是 2,676,但 Bard 设法弄错了(出了 10 分),而 Bing 和 ChatGPT 做对了。在其他测试中,我要求系统将大数相乘和除以(结果好坏参半,但同样,巴德是最糟糕的),然后,为了进行更复杂的计算,要求每个聊天机器人确定每月还款额和总还款额,在125年内偿还000,25美元的抵押贷款,利息为3.9%。没有人提供几个在线抵押贷款计算器提供的答案,巴德和必应多次查询时给出了不同的结果。GPT-4 至少是一致的,但失败了,因为它坚持解释它的方法(好!),然后啰嗦,以至于没有空间回答(坏!)。

这并不奇怪。聊天机器人是在大量文本上进行训练的,因此没有硬编码的规则来执行数学计算,只有训练数据中的统计规律。这意味着当面对不寻常的金额时,他们经常会出错。不过,这些系统当然可以通过多种方式弥补这一点。例如,当我询问抵押贷款时,Bing将我引导到一个抵押贷款计算器网站,而ChatGPT即将推出的插件包括一个Wolfram Alpha选项,这对于各种复杂的金额来说应该非常棒。但与此同时,不要相信语言模型来完成数学模型的工作。只需拿一个计算器。

— 詹姆斯·文森特

结论:为工作选择合适的工具

如引言中所述,这些测试揭示了每个系统的明显优势。如果你想完成口头任务,无论是创意写作还是归纳推理,那么试试 ChatGPT(特别是,但不一定是 GPT-4)。如果您正在寻找一个聊天机器人作为与网络的界面,以查找资源并回答您可能已经转向Google的问题,那么请前往Bing。如果你正在做空谷歌的股票,并想让自己放心,你做出了正确的选择,试试巴德。

不过,实际上,对这些系统的任何评估都将是部分的和暂时的,因为不仅每个聊天机器人内部的模型不断更新,而且解析和重定向命令和指令的覆盖层。实际上,我们只是在探索这些系统及其功能的浅端。(例如,为了更彻底地测试GPT-4,我推荐微软研究人员最近的这篇论文。摘要中的结论是有问题的和有争议的,但它详细介绍的测试是迷人的。换句话说,将此视为持续的对话,而不是确定的测试。如有疑问,请亲自尝试这些系统。你永远不知道你会发现什么。


原文标题:AI chatbots compared: Bard vs. Bing vs. ChatGPT

原文链接:
https://www.theverge.com/2023/3/24/23653377/ai-chatbots-comparison-bard-bing-chatgpt-gpt-4

编译:LCR