“早在2015年和2016年,我们根本不敢想象ChatGPT能达到现在的程度。”OpenAI联合创始人及首席科学家Ilya Sutskever,在接受英伟达创始人兼CEO黄仁勋“采访”时这么说道。

这场对话在多模态模型GPT-4推出的第二天,当地时间3月22日,英伟达官方发布了完整的谈话视频。在接近一个小时的交谈中,黄仁勋和Sutskever谈到了聊天机器人ChatGPT的开发历程、GPT-4的进步,以及对AI(人工智能)行业的展望。

谈ChatGPT:工作原理像阅读推理小说

ChatGPT是OpenAI公司于去年11月发布的聊天机器人,问世不到半年,便成为最流行的计算机应用程序之一,还带动了各大科技公司在生成式AI领域展开角逐。

黄仁勋多次提到“AI行业的iPhone时刻已经到来”,但作为OpenAI的创始人之一,Sutskever则表示,2016年左右,他们根本不敢想象ChatGPT能达到现在的程度。

“当时我们的思路之一,是让机器具备不受监督的学习能力(unsupervised learning)。现在看来这是理所当然的,人们可以用自然语言模型去培训AI。但在2016年,这是一个未知的领域,没有任何科学家有过相关的经验和洞见。”Sutskever说道。

“更早之前,我也认为‘学习’这件事只有人类才能完成,计算机无法做到。”但2002年到2003年期间,他的想法发生了转变,“如果能够让计算机去不断学习,或许会为AI行业带来改变。”

他认为,将神经网络引入AI领域是非常重要的进步。它能像人类的大脑一样工作,能够进行“深度学习”,因此可以将其运作逻辑套用在计算机上。

“深度学习”的背后有一套非常扎实的理论基础,如果计算机的神经网络足够深、规模足够大,便能解决深层次的硬核问题,但这需要足够的数据库和算力进行支撑。因此,OpenAI在优化数据模型上付出了很多努力,例如制作“神经网络的反馈”,通过培训神经网络,使其规模更大、获得更多数据。

而ChatGPT的工作原理其实就是培训神经网络体系,让神经网络预测下一个单词。以推理小说为例,一本小说中含有各种不同的人物和情节,读者在阅读的过程中能够根据线索去推测凶手,这与GPT系列的工作方式非常相似。

“我们希望它预测单词具有一定的逻辑性,与过去的训练文本达到一致。”Sutskever说道,“我们并不是简单地根据人类经验完成AI学习,而是要根据人类的反馈进行强化学习。反馈很重要,越多的反馈能使得AI更加可靠。”

谈GPT-4:推理能力没有达到此前预期

最新推出的大型多模态模型GPT-4也是此次谈话的主题之一。OpenAI在6至8个月之前就开始训练GPT-4,与ChatGPT相比它在许多方面都做出了相当大的改进,最明显的是这款新模型可以处理图像内容。

Sutskever说道,世界是由图片构成的,而人类是视觉动物,人脑三分之一的灰质均用来处理图像,因此多模态模型能够为用户提供更多帮助。例如,在数学竞赛中很多问题需要图表进行解答,GPT-4能够解读图标,极大提高回复的准确率。

他大胆预测,未来的某个GPT版本可能不仅能够阅读图像,还能在回复中生成图表。

GPT-4的另一个特点是基于更好的神经网络,能够更精确地预测下一个单词。不过当被问及GPT-4是否具有推理能力(reasoning capabilities)时,Sutskever表示很难去定义这一术语,不过他认为这种能力可能会在不久的将来实现。

“我们认为,GPT的推理能力还没有达到之前预期的水平,如果更进一步扩大数据库,并保持商业运转模型,它的推理的能力会进一步提高,我对此充满信心。”他说道。

在谈话的最后,Sutskever还预测了生成式AI的未来,“目前我们只是向AI提供文本,并让其得出结论,但AI无法验证这些文本的真实性以及其来源。下一步是要让神经网络验证数据来源的真实性,并让它能够意识到用户的需求。”