在 OpenAI 昨天给我的现场演示中,ChatGPT 并没有表现出色。我要求它告诉我有关扩散模型的信息——当前生成人工智能热潮背后的技术——它用几段关于化学扩散过程的段落作为回应。舒尔曼纠正了它,输入:“我指的是机器学习中的扩散模型。” ChatGPT 又吐出了几段话,舒尔曼眯着眼睛看着屏幕:“好吧,嗯。它谈论的是完全不同的事情。”

“比如说‘像 DALL-E 这样的生成图像模型’,”舒尔曼说。他看着回应:“这是完全错误的。它说 DALL-E 是一个 GAN。”但因为 ChatGPT 是一个聊天机器人,所以我们可以继续下去。 Schulman 输入:“我读到 DALL-E 是一种扩散模型。”这次 ChatGPT 做对了,第四次尝试就成功了。

像这样质疑大型语言模型的输出是推迟模型产生的响应的有效方法。但它仍然需要用户首先发现不正确的答案或误解的问题。如果我们想向模型询问一些我们尚不知道答案的问题,这种方法就会失效。

OpenAI 承认修复这个缺陷很困难。没有办法训练一个大型语言模型来区分事实和虚构。让模型在回答时更加谨慎通常会阻止它回答本来可以正确的问题。 “我们知道这些模型具有真正的功能,”穆拉蒂说。 “但是很难知道什么有用、什么没用。很难相信他们的建议。”

OpenAI 正在开发另一种语言模型,称为 WebGPT,它可以在网络上查找信息并提供答案来源。 Schulman 表示,他们可能会在未来几个月内升级 ChatGPT 以获得此功能。

人工智能公司 Hugging Face 的研究员、开源大型语言模型 BLOOM 团队的主要成员 Teven Le Scao 认为,如果此类模型要变得值得信赖,查找信息的能力将是关键。 “对人类反馈进行微调并不能解决事实性问题,”他说。

然而,Le Scao 并不认为这个问题是无法解决的:“我们还没有达到这一目标,但这一代语言模型才诞生了两年。”

为了推动技术改进,OpenAI 希望人们尝试 ChatGPT 演示并报告哪些不起作用。这是发现缺陷的好方法——也许有一天,可以修复它们。与此同时,如果 GPT-4 很快就会到来,请不要相信它告诉你的一切。