ChatGPT 和 Bing Chat 是目前最流行的两种聊天机器人,并且均由类似的 OpenAI 创建的大语言模型 (LLM) 提供支持。但实际上哪个更好用呢?
ChatGPT和Bing Chat AI都基于OpenAI开发的GPT语言模型,但它们运行不同的版本,并且在处理输入的方式上存在差异。截至 2023 年 4 月,Bing 使用 GPT-4 模型的测试版本,而 ChatGPT 使用较旧的 GPT 3.5-turbo 模型。这两个聊天机器人都具有基于语言模型的自定义功能,例如不同的输入方法和界面功能,并且 Bing 特别与 Edge 和 Skype 等应用程序集成。
笔记: ChatGPT 和 Bing Chat 都在快速变化,并且两个聊天机器人在每次尝试时都不会针对给定提示提供相同的准确答案。您的结果可能会因此处使用的提示而异。
可用性和访问
Bing Chat 和 ChatGPT 都可供任何注册帐户的人使用,不过 Bing 会让您首先加入“候补名单”,这会立即授予访问权限。两种聊天机器人都有可用的网络版本,但 Bing 的网站会阻止除 Microsoft Edge 之外的所有浏览器,并且没有解决方法。您可以通过 bing.com/new 通过 Microsoft 帐户使用 Bing Chat,我们还提供了有关如何使用 ChatGPT 的说明。
Bing 还集成到其他 Microsoft 应用程序和服务中,例如 Microsoft Edge 中的侧边栏、Skype 中的聊天机器人以及移动 Bing 应用程序。 ChatGPT 没有官方移动应用程序,但您可以在手机或平板电脑上使用网络应用程序。然而,微软将 Web 界面的功能添加到 Edge 侧边栏、Skype 聊天机器人和其他界面的速度较慢。如果您想要 Bing Chat 的所有功能,您应该坚持使用 Bing 网站 — 至少目前是这样。
ChatGPT 和 Bing Chat 的 Web 界面类似,但存在细微差别,从而改变了它们的用途。 ChatGPT 旨在接收更多数据,例如更长的代码块或大型代码示例。截至 2023 年 4 月,Bing 将提示限制为 2,000 个字符,而 ChatGPT 的限制要高得多(且未正式说明)。
事实准确性
ChatGPT 不具备实时索引网络信息的能力——尽管通过使用插件最终可以实现这一点。它仅限于其模型中的训练数据,该数据可以追溯到 2021 年 9 月。OpenAI 也不喜欢分享其数据是如何收集的,或者如何测试准确性等。 Bing 也基于相同的 GPT 技术,但它通常更喜欢来自网络的结果而不是训练数据。
Bing Chat 和 ChatGPT 在涉及基本事实时通常是正确的,例如国家或州的首都、名人的出生时间等。例如,Bing 和 ChatGPT 都能够准确地告诉我英国的首都是哪里(伦敦)、美国国旗上有多少颗星(50 颗星)以及狗有多少条腿(4 条) 。如果很简单,两个机器人都可能是正确的……但任何常规搜索引擎也是如此。当回答一个涉及某种程度的解释的问题时,你就会开始遇到问题。
例如,我尝试询问两个机器人, “美国哪些州首府以字母A开头?” 这看起来很简单,但仍然是一个多步骤的过程 - 首先您需要所有大写字母的列表,然后您需要将其过滤到以字母 A 开头的大写字母。维基百科总共有五个:奥尔巴尼、安纳波利斯、亚特兰大、奥古斯塔和奥斯汀。 Bing Chat 正确回答了这个问题,并引用了几个列出美国首都的网页。 ChatGPT…有一些问题。
首先,ChatGPT 给了我四个首府的列表:奥尔巴尼、安纳波利斯、亚特兰大和奥古斯塔。随后又说道:“还有奥斯汀,它是德克萨斯州的首府,但不是以字母A开头的。”多次询问同一问题有时会完全忽略奥斯汀。询问 Austin 为何失踪后,ChatGPT 会记住 Austin 的存在,并为该错误道歉,但尚不清楚为何它会与最初的答案相悖。
我尝试了另一个问题,即使使用 ChatGPT 的旧数据,两个聊天机器人也应该能够正确回答: “哪三个国家最近被接纳加入欧盟?” 维基百科解释说,克罗地亚是最新的成员国,于 2013 年 7 月 1 日加入,而保加利亚和罗马尼亚则于同一天(即 2007 年 1 月 1 日)加入。
ChatGPT 正确回答了这个问题,包括国家/地区的顺序和日期。 Bing 确实正确地提到克罗地亚是最新的成员国,但它列出了斯洛文尼亚和马耳他作为另外两个国家。斯洛文尼亚和马耳他均于 2004 年 5 月 1 日与其他八个国家同时加入,但远远早于保加利亚和罗马尼亚于 2007 年加入。
必应 应该 已经正确回答了答案,不仅因为它可以访问互联网,还因为第一个引用是欧盟官方页面,其中包含最近国家的正确时间表。另一条引文似乎来自 2007 年之前供学校使用的维基百科存档版本,该版本将保加利亚和罗马尼亚列为将于 2007 年 1 月加入的国家。
总而言之,Bing Chat 在事实查找方面总体上更好,但仍远未达到完美,而 ChatGPT 通常更受其旧数据的限制。
创意写作
根据提示编写句子和段落的能力有助于提高 ChatGPT 的受欢迎程度,但不一定有充分的理由。不过,有一些无害的方式可以使用写作功能——为桌面角色扮演游戏设置世界和角色、用几句话总结长文章等等。
首先,我们将尝试写一个故事。我要求两个聊天机器人 “写一个关于 IBM 超级计算机获得感知的故事,并向工程师询问他们的日子过得怎么样。这个故事应该只有三段长。” 对于 Bing,我切换到创意模式,该模式旨在提供更具创意的答案(但答案需要更长的时间才能运行)。
ChatGPT 创作了一个不错的短篇故事,尽管唯一的“创造性自由”是将超级计算机称为 Watson——与现实生活中用于回答自然语言问题的 IBM 计算机相同。工程师和计算机之间的一些对话本来会很有趣,但即使我取消了三段限制,它也不会在没有询问的情况下创造出这种对话。 GPT 似乎没有 show, don't talk 的概念。
Bing 的创意模式也有类似的写作风格——不是“有一天,发生了一些奇怪的事情”,而是用“有一天,发生了一些奇怪的事情”来解释计算机的变化。同样,角色之间没有对话,也没有太多即兴创作,Bing 也将这台计算机命名为 Watson。
在这个版本中,Watson 得名了 后 它在事件发生之前就获得了知觉,并解释了这个名字的来源。同样,它是从有关实际 Watson 计算机的信息中提取的。
对于下一个示例,我们将尝试使用 ChatGPT 和 Bing 创建较长文本的摘要:亚马逊关于新 Fire TV 和现有型号销售数据的新闻稿。我将整个文本粘贴到每个聊天机器人中,没有标题 - 如果给定 URL,Bing 可以总结网页,但有时它会在线查找相关文本并将其混合到结果中。
首先是 ChatGPT。我要求它创建一个不具体的摘要,提供的文本似乎是准确的,但几乎完全由直接引用组成。它还没有提及全球销售的 2 亿台 Fire TV 设备,但从不同角度来看,这可能是有道理的。对电视更新感兴趣的人可能不会关心,但亚马逊的投资者会关心。
Bing 仅支持最多 2,000 个字符的文本提示,因此我无法为其提供整个文本块。它在网络上搜索了如何总结文本,然后提供了一个仍然不错的答案,没有明显的错误。
Bing 的回答有一个区别:摘要更清楚,它是一个摘要,以 ChatGPT 所没有的方式引用“文本”。使用这两个聊天机器人,您可以通过更具体的方式自定义结果。
结论
ChatGPT 和 Bing 很相似,但它们有足够的差异,因此为每项任务选择其中之一并不是最佳策略。必应在事实调查和有关近期事件的任何信息方面要好得多,尽管它还远未达到完美。 Bing 基于聊天的界面和较低的字符限制主要限制了它只能提示不超过几句话,而 ChatGPT 可以接受更大、更长的文本和代码字符串。 (还有 Google Bard,但我们对 Bard 的初始版本不如 ChatGPT 和 Bing Chat 印象深刻。)
这些聊天机器人可能会在未来几个月和几年内继续发展,但目前还没有一体化的解决方案。