南方财经全媒体记者江月 上海报道对话式机器人ChatGPT的诞生,令其开发商OpenAI成为家喻户晓的公司。3月22日,英伟达公司公布了其创始人兼CEO黄仁勋对话OpenAI联合创始人兼首席科学家Ilya Sutskever的视频。

一位是带来大规模算力的企业家,一位是促进人工智能飞跃的天才科学家,两人的对话不仅充满干货,也平实、真诚。面对同行甚至大众的好奇,他们对现代AI的起源过程、ChatGPT的工作原理和GPT-4的特点一一进行了拆解。

AI科学梦想萌芽

由于ChatGPT的走红,Sutskever成为当今全球最关注的人工智能科学家之一。他出生于俄罗斯,在以色列长大。他是如何开始AI(人工智能)梦想萌芽的?他见证的现代AI起源是怎样的过程?

Sutskever称,他对人工智能的兴趣,起源于他对AI巨大影响力的直觉,同时也对究竟“什么是意识”很感兴趣。

“在2000年之初,学习是只有人类或普通人就能做的事情,但计算机完全做不了。”Sutskever说。因此,“机器学习”被Sutskever认为是AI的一个重要突破点。

公开资料显示,Sutskever从2000年初到2012年,从多伦多大学拿到了数学方面的学士学位和计算机科学方面的硕士及博士学位,在师从Geoffrey Hinton期间,Sutskever开始研究神经网络。

“神经网络的特性就在于能够学习,它们是可以自动编程的并行计算机。”Sutskever解释称。“如果你了解到学习和神经网络的工作原理,就可以用数据从编程上去创造小计算机,和大脑的工作原理是相似的。”他表示。

上述微小的成就支撑Sutskever继续前行,虽然还不知道这到底有什么用,但他相信前途是光明的。

接着,Sutskever意识到神经网络的训练规模必须扩大。当时业内的普遍做法是仅用50个神经网络单元,几百个已经算很大。在行业研究起步之初,一切都是那么简单、粗糙、迷茫,Sutskever在没有被优化过的CPU代码上跑模型。“我们做了一些零碎的工作,虽然很酷,但大家还是不知道究竟这会怎样推动技术进步。”Sutskever坦言了他当时的内心感受。

在2012年,Sutskever和Alex Krizhevsky、Jeff Hinton一起创造了AlexNet,这是一种CNN(卷积神经网络)架构,可以算是现代AI的爆炸起点。Sutskever称:“在(AlexNet)诞生之前的两年,我很清楚地意识到‘有监督学习’才是发展方向。”在寻求让数据变得又大又深的同时,他了解到了ImageNet数据集,令他解决了一个“痛点”难题。

有了神经网络和数据,AI的突破还缺少一样武器,那就是“算力”。“虽然一开始不明白GPU的用途,但很快我们就发现它有多么适合ImageNet数据集。”另外,搭档Alex Krizhevsky是如此擅长GPU编程,很快就做出卷积核函数去训练神经网络。

“很多人都走了其他路径,但ImageNet这个数据集是如此之好、只是如此之难,如果用好了它就能创造出非常惊人的结果。”Sutskever尽管如此强调数据集的难度,但他和Alex、Jeff Hinton之后创造出的AlexNet震惊了世界,打破了计算机视觉的记录。

从完全不知道有什么用、到找到眉目,Sutskever渡过了AI职业生涯中的初级阶段,也可以看到他从事这项科学时一路坚持的心路历程。

详解ChatGPT

在ChatGPT得到赞誉和认可的同时,也有人怀疑它是否只是一个简单的“文字概率预测机”;当GPT-4出现时,非专业人士也仅了解其训练参数又进行了可观的升级,但并不了解它的实际能力到底提升在哪儿。Sutskever也对上述问题进行了详细回答。

首先,关于ChatGPT的工作形式,Sutskever表示,大语言模型其实是在进行“对世界的映射”。

“看起来,我们只是在学习文本中的统计相关性。”Sutskever直面大众的质疑,但他解释说:“但实际上神经网络学习的是这些文本对世界的一个映射,世界在这些文本中得以呈现了。”

他称,神经网络正在学习从人的角度去看这个世界、看人类和社会,以及看人们的梦想、动机、交互。“学习一个压缩的、抽象的、可用的表述,这就是准确预测下一个词所要做的工作。”Sutskever称。

上述对世界进行“映射”的工作,要求还原度、清晰度,这是预训练阶段的工作。不过,仅此一步,神经网络还没有达到Sutskever理想的效果。

第二步是微调和强化学习,不仅由人类老师来教机器,也要由人类和AI合作的强化学习来教机器。“在这个环节里,我们不是在教它知识,而是在教它沟通,教它变成我们想要的样子。”Sutskever解释称。

第二阶段做得越好,这个神经网络就越有用、越可靠。

因此,ChatGPT其实不是一种猜测文字出现概率的游戏,而是通过机器学习大量文本去认识世界并在人类调教下学会输出的过程。

GPT-4的改善

谈及在3月14日刚刚发布的GPT-4,Sutskever也非常自豪于它的提升,称其“可靠性令人惊奇”。

他透露,GPT-4的训练其实开始于发布之前的约半年。随着对文本的理解不断增加,GPT-4预测下一个词的能力也变得更好。

可靠性正是很多人诟病前几代大语言模型的“痛点”。在和ChatGPT对话过程中,很多人发现它有时候会“一本正经地胡编乱造”。正因如此,要想将ChatGPT引入严肃工作,恐怕还不能通过安全那道关卡。

“可靠性是让这些模型更有用、或者说真正有用的最大阻碍。”Sutskever承认这一点。不过,他为它辩解称,可靠性已经得到大幅改善。

“它的数学能力变得强大,你可以看到它真的进行了推导,还转换了单位。它还会解释网络梗,你给它看一个梗,问它为什么这个是好笑的,它会告诉你原因而且还能说对。”Sutskever描述着GPT-4的效果。

除此以外,Sutskever也表示GPT-4已经可以处理图像,而多模态大模型对世界的理解是不一样的。他也强调,人类是视觉动物、世界也是非常视觉化的,因此给机器“喂”图像十分必要,不会局限在文本学习上。

与机器人对话令人期待,连黄仁勋也忍不住对Sutskever不断提要求。“你能不能教人工智能学习语气呢?因为你知道一个‘好’字可能会体现人们千变万化的真实含义。”黄仁勋开玩笑称。的确,一个充满热情的“好”是发自内心的赞美和欣赏,而一个冷冰冰的“好”有可能释放出相反的意思。对此,Sutskever表示会考虑用音频来改善未来的大模型。

“我从事这项工作已经很久,差不多整整20年了。GPT-4让我看到它不再渺小,而是更加重要,它还是那个神经网络,只是变得更强大。”Sutskever如是表示。

更多内容请下载21财经APP