·Stack Overflow认为,ChatGPT很容易与用户互动,且可以快速生成大量回答,这让网站充斥着许多第一眼看起来是正确的答案,但在仔细检查后就能发现其中的错误。

随着OpenAI公司的人工智能(AI)聊天机器人ChatGPT爆火,不少网友开始在社交媒体上分享ChatGPT的回复。但近日程序员版“知乎”,以对新人不友好著称的编程问答网站Stack Overflow暂时禁止用户分享ChatGPT生成的回复。

Stack Overflow表示,与社区协商后,将在未来一段时间内做出最终决定。该网站认为,ChatGPT很容易与用户互动,且可以快速生成大量回答,这让网站充斥着许多第一眼看起来是正确的答案,但在仔细检查后就能发现其中的错误。

这就提出了一个全新的问题:如何对人工智能生成内容(AIGC)进行事实核查?正如知名人工智能科学家、纽约大学教授Gary Marcus在推特上所说:“如果Stack Overflow都不能跟上这些看似可信但不正确的信息,那么社交媒体和搜索引擎呢?”

编程问答网站Stack Overflow。

ChatGPT产生的答案有很高的错误率

“主要问题是,虽然ChatGPT产生的答案有很高的错误率,但它们往往第一眼看起来可能是对的,而且使用人工智能导致答案非常容易生成。我们需要减少这些内容。目前在Stack Overflow上使用ChatGPT创建帖子的行为已经被禁止。如果用户在此临时规定发布后使用了ChatGPT,将会受到制裁。”Stack Overflow的运营人员表示。

ChatGPT作为OpenAI创建的实验性聊天机器人,基于其大计算模型GPT-3.5运行,自发布后很快受到网络用户的热烈欢迎。ChatGPT鼓励人们提问,而且能提供令人印象深刻和流畅的结果:从创作诗歌、歌曲、电视剧本,到回答琐事问题和编写代码。

虽然很多用户对ChatGPT的功能印象深刻,但也有人注意到它容易产生看似合理但错误的回答。例如,让机器人写一个公众人物的传记,它很可能插入错误的人物生平。让它为特定功能编写程序,它也许会生成看起来可信但最终不正确的代码。

像其他生成式大型语言模型一样,ChatGPT通常在虚构事实。有些人称之为“幻觉”或“随机的鹦鹉学舌”,但这些模型的目的本来就是组织一段流利的文本,而不是一个事实。

一些人注意到,ChatGPT的与众不同之处在于,它非常善于让自己的“幻觉”听起来十分合理。

例如,技术分析师Benedict Evans要求ChatGPT“为Benedict Evans写一篇个人简介”。他在推特上说,这个结果“看似合理,但几乎完全不真实”。

普林斯顿大学计算机科学教授Arvind Narayanan也在推特上指出:“人们对使用ChatGPT学习感到兴奋。这很好,但危险的是,除非你已经知道答案,否则你无法判断它什么时候是错的。我尝试了一些基本的信息安全问题。在大多数情况下,答案听起来似乎有理,但实际上漏洞百出。”

大型语言模型的潜在风险

ChatGPT频出的错误是人工智能文本生成模型(也称为大型语言模型)的几个众所周知的缺点之一。这些系统通过分析从网上抓取的大量文本来训练机器人。人工智能在这些数据中寻找统计规律,并利用这些规律来预测给定的句子中,接下来应该出现什么单词。然而,这意味着他们缺乏世界上许多系统运行的硬编码规则,导致他们倾向于产生“流利的废话”。

考虑到这些系统的巨大规模,不可能准确判断它们的输出有多少是错误的。但至少Stack Overflow已经认为,ChatGPT目前误导用户的风险太高了。

另一些人则把人工智能审核的问题交给ChatGPT本身,要求ChatGPT回答支持和反对它自己的论据。在一个回复中,ChatGPT自己也得出了与Stack Overflow完全相同的结论:“总的来说,是否允许在Stack Overflow上使用人工智能生成答案是一个复杂的决定,需要社区仔细考虑。”

人工智能专家们目前也在讨论这些大型语言模型带来的潜在威胁。Facebook母公司Meta的首席人工智能科学家杨立昆(Yann LeCun)认为,虽然大型语言模型肯定会产生错误信息,但只有当错误信息被广泛传播、阅读和相信了才会产生伤害。也有人说,这些系统大规模且廉价生成文本的能力,势必会使得虚假信息大量传播。

对审核机制的挑战

迄今为止,几乎没有证据表明大型语言模型有不好的影响。但Stack Overflow和其他一些专家相信,这些系统的庞大体量确实会带来新的挑战。该网站的运营人员在宣布禁用ChatGPT时也表达了同样的观点,他们指出:“人工智能生成的答案有数千个,而这些答案通常需要具有专业知识的人详细阅读,才能确定答案实际上是错误的,这些错误信息已经淹没了我们以志愿者为基础的高质量问答社区。”

令人担忧的是,这种模式可能会在其他平台上重复,大量人工智能内容会用看似合理但不正确的回答淹没真实用户的声音。

然而,ChatGPT究竟如何在网络的不同领域发挥作用,将取决于平台的性质及其审核功能。大量错误回答产生的问题能否在未来通过过滤器等工具得到缓解还有待观察。

一位曾经在《GQ》和《滚石》等出版物工作的事实核查员表示,纸质新闻时代,每个事实都必须包含权威的一手或二手资料来源,但现在已经很少有出版物有事实核查员,这就把责任推给了记者和编辑。信息爆炸时代,以人为媒介传播的虚假信息尚且让审核机制“头疼”,很难想象当人工智能开始编造谎言,会带来多大的挑战。

有不少专家强烈反对ChatGPT有朝一日可能取代传统搜索引擎的想法。如果Stack Overflow这种专业网站的审核速度都无法跟上人工智能带来的错误信息,那么很难想象其他网站能够管理铺天盖地的AI“废话”。

当一个错误信息像闪电一样在社交媒体上传播时,搜索引擎需要提供可证实的信息,而不是一段看似可信的内容。

华盛顿大学语言学教授Emily Bender最近再次强调大型语言模型“不适合”搜索:“因为它们被设计成只会胡编乱造,也没有任何信息素养。”

OpenAI在其发布演示的博客中也明确指出了这一弱点,并解释说修复它是“具有挑战性的”。OpenAI表示:“在人工智能的强化学习训练中,目前尚没有真相来源;训练模型更加谨慎,使其能够拒绝回答问题;监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。”

所以很明显,OpenAI非常清楚ChatGPT在看似无所不知的表面下充满了“废话”,因为他们从来没有想过这项技术会是提供真相的来源。

不过,最重要的问题是:人类用户会接受这些似是而非的回答吗?

在这个舆论时常反转的时代,可能真的会。因为只要一个消息听起来合理,许多人就会认为这是正确的。