陈永伟/文

自从去年11月底ChatGPT横空出世以来,沉寂良久的人工智能领域就迎来了“寒武纪大爆发”。五花八门的大型AI模型接踵而至,算法的迭代和更新频率则几乎是以“天”为单位在进行。

相比于几年前,最近出现的AI模型特色十分鲜明。

过去的AI模型大多只能用固定的命令进行交互,其输出的结果则通常只是某个具体的数字或结果。比如,在2017年战胜围棋世界冠军李世石的AI模型Al-phaGO在运行时就需要操作员输入人类对手的落子情况,然后它据此给出下一步的走法。虽然其棋艺相当之高,但除了围棋外,它并不懂别的什么东西。在外人看来,它也终究不过是一串能够高效执行固定任务的代码而已。

最近的AI模型则不同。它们不仅可以直接通过自然语言进行交互,并且还可以根据指令,创造性地完成各种工作。比如,ChatGPT不仅可以无障碍地与人进行文字交流,还可以根据人的指令完成包括文献整理、小说创作,甚至代码编写在内的各种任务;而StableDiffusion和Mid-journey则更是可以根据用户指令,创作出极富想象力的画作。所有的这一切,都让人们感觉自己正在面对的已经不是一段段冷冰冰的代码,而是一个个已经拥有了智力的人类。

对于以上直观感受,微软最近发布的一份关于GPT-4的评测报告似乎给出了佐证。根据这份报告,目前的GPT-4已经对文学、医学、法律、数学、物理等不同领域的知识高度熟悉,并可以对这些知识进行综合性的应用,它在视觉、计算、写作、编程等任务中的表现都已经达到,甚至胜过了人类的水平,所谓的通用人工智能(
ArtificialGeneralIntelligence)已经初具雏形。

面对这样的情况,很多人不禁惊呼:看来库兹韦尔在多年前预言的“奇点”(singularity,指机器的进化超过人类的时刻)已经悄悄来临了!既然如此,恐怕科幻小说中曾经预言的天网、终结者是不是也马上就要出现了呢?

那么,情况真的已经到达这一步了吗?随着这一轮的AI爆火,是否真的意味着AI已经突破奇点,达到了比人更高的智能水平?在未来,AI是否会觉醒出自己的意识,发展成为硅基生命?在AI日渐强大的今天,人类又应该如何和AI共处?我想,在开始讨论以上的这些问题之前,我们不妨先花一点时间来看一下ChatGPT等大模型背后的原理。在我看来,从知识出发看问题,应该要比纯科幻的想象来得更有价值。

“中文屋”里的AI

1980年,美国哲学家约翰·罗杰斯·塞尔曾在其论文《心灵、大脑和程序》中提出的一个名为“中文屋”(Chineseroom)的思想实验。

假设在一个仅有一个窗口的封闭房间内,关着一个只会英文、不会中文的人。房间里有一本用英文写成的手册,指示该如何处理收到的各种中文问题,以及如何用中文对其回复。房外的人不断从窗口向房间内递进用中文写成的问题。房内的人便按照手册的说明,找到合适的答案,并将其对应的中文抄录在纸上,然后递出窗外。这样,尽管屋子里的人对中文一窍不通,但在屋外的人看来,他却是精通中文的。

从某种意义上讲,以ChatGPT为代表的AI们的运作就像是一个“中文屋”。人们通过输入提示词向AI发出各种指令,然后AI按照指令给出回复。这让它们看起来能够理解人们发出的各种指令的意思,但事实上,AI可能只是像“中文屋”里的那个人一样,拿着一本中英词典,照着书上抄答案而已。

AI手里拿的那本辞典,就是所谓的“自回归算法”(AutoregressiveMethod)。对于熟悉统计学,尤其是时间序列统计的朋友,这个词应该并不陌生。在统计学语境当中,“自回归”就是根据历史数据来预测未来的数字。比如,在预测GDP的增长率时,分析师就经常采用这种方法——他们会根据历史数据,找到第t期GDP增长率和第t-1期GDP增长率之间的一个函数关系,然后用这个函数关系来进行预测。虽然这个方法看似简陋,但在预测实践中,通常可以表现出比其他远为复杂的模型更好的预测效果。

在人工智能领域,自回归算法的意义也是类似的。唯一不同的是,在统计学中,它是根据数字预测数字,而在人工智能中,它可能是根据文字预测文字,或者根据图形预测图形。

我们可以用一个例子来说明这一点:很多年前,有一个流传甚广的电视广告。在广告里,一个医生模样的人自称是某某牙防组织的,这个组织的目标就是没有蛀牙。在对刷牙的重要性以及该品牌的牙膏进行了一通介绍后,他来到一群孩子中间,问:“我们的目标是?”孩子就齐声说:“没有蛀牙!”由于当时人们接受信息的渠道非常少,这个广告播放的频率又很高,所以久而久之,不少人一听到“我们的目标是”这几个字,就会不由自主地说出“没有蛀牙”。

事实上,在“我们的目标是”这几个字后面是可以接各种各样的词的,比如“我们的目标是星辰大海”、“我们的目标是什么”等。那为什么大家很容易会顺口说出“没有蛀牙”呢?原因就在于概率。诚然,从理论上看,在“我们的目标是”这几个字后面有很多可能,但由于广告的洗脑,人们看到“没有蛀牙”在其后出现的概率可能达到90%以上,“星辰大海”出现的概率可能是5%,而其他的组合出现的概率则更低。在这种情况下,听到“我们的目标是”之后回答“没有蛀牙”就是最可能正确的答案。

在现实中,词语或语句的意思是和具体的语境相联系的。比如,“我们的目标是星辰大海”其实是科幻小说《银河英雄传说》当中的一句著名台词,因此如果我们观察到在之前的对话中提及到了《银河英雄传说》,或者其中的某个人物,那么当谈到“我们的目标是”之后,最有可能接的就不是“没有蛀牙”,而是“星辰大海”。也就是说,我们对于一个词的理解,以及对应的回答都必须根据具体的语境来进行调整。

在人工智能中,所谓的自回归其实就是这样的一个过程。它会根据用户输入的词,逐步去调整这些词应该匹配的对象,然后将它们进行输出。在上述话语接龙问题中,输出的结果可能是后面的词;在翻译任务中,输出的结果可能是词的外文对应涵义;而在作画任务中,输出的结果则可能是与这些词对应的图形形象。事实上,最可以直观感受这个过程的例子就是我们的输入法。当用带有联想功能的输入法输入长句时,我们可以看到输入法给出的联想词语在不断变化。这个过程,其实就是一个自回归。

讲到这里,我想很多朋友就会发现问题了:如果按照上面的描述,通过逐步读入每一个词句来输出结果其实是一个非常低效的过程。比如,如果我们要将一篇很长的中文文章翻译成英文,那么理论上说,AI需要把这个文章从头到尾读过一遍,才能给出这个文章中每一个词对应的英文单词,最后再将这些单词组装起来,形成一篇文章。在整个过程中,我们完全是在做一个串行运算。但对于计算机来说,其实更有利的是进行并行运算,比如,将文章中的词分别拆开加以翻译,然后直接加以组装,通过这种方式就可以大幅提升翻译的效率。为了实现这一点,我们就需要引入著名的Transformer框架了。

Transformer框架是由谷歌团队在2017年提出的一个训练框架。在这个框架中,最为关键的一点即所谓的“自注意力”(self-attention)机制。

什么叫“注意力”(attention)呢?在深度学习中,它其实就是权重的意思。在Transformer出现之前,人们已经用“注意力”机制来解决自然语言处理中的一些问题。比如,在处理一段文字的翻译时,某个词的意思可能会受到前面出现的所有词的影响。但是,不同的词的影响大小并不是一致的,因此我们就需要想办法找出一个权重来,决定哪些词的影响是重要的,而哪些是不重要的,然后再据此来确定给定词的翻译。限于篇幅,这里我们不对这个问题作过分的展开。

而所谓“自注意力”,顾名思义,就是通过让文本自己和自己比较,来确定上面所提到的权重。举例来说,我们要翻译一段文献,其中有个词是“game”。众所周知,game这个词有很多意思,在不同语境中,可以翻译为“运动”、“游戏”、“运动会”、“博弈”等。那么,在文献中,它究竟应该翻译成哪一个呢?为了确定这点,AI对文本进行了分析,发现game总是和theory一起出现的,那就告诉我们,要明白game的意思,就需要把它和theory放在一起进行理解。那自然就是gametheory,也就是“博弈论”了。所以这里的game也就应该翻译成“博弈”。同样的,如果AI通过对文本分析,发现game经常是和Olympic一起出现,那就说明应该在翻译game的时候重点考虑Olympic的影响。很自然,我们就可以得到它的译文应该是“运动会”。

利用类似的方法,AI对文本材料的处理就可以从原本的串行运算改成并行运算:它可以不再按照传统的自回归那样从头看到尾的那种方式来逐字进行处理,而可以直接对每一个词进行处理,从而更快地给出整句话的处理。我们可以用一个直观的比喻来理解这一过程:相信大家都看过变形金刚的电影。在电影中,变形金刚的变形过程并不是按照一个从头到脚的顺序变的,而是身体的各个组件分别变形,变成了目标物体的形状,然后各个组件加在一起就成了要变的目标。在Transformer中,对文本的处理也是类似的——或许,这也正是Transformer这个框架名字的由来吧(注:Transformer也有变形金刚的意思)。

它很厉害,但是它可能真的不懂

从直观看上,无论是自回归算法,还是Transformer的“自注意力”机制都不是十分复杂,但它们却是构成包括ChatGPT在内的新一代AI的最核心技术。虽然在模型规模较小时,它们的表现平平无奇,但随着参数量和训练数据的膨胀,类似的模型就会逐渐出现物理学上所说的“涌现”(Emergent)现象,具有原来难以想象的表现。

那么它们在实现这一切的时候究竟是像人类一样是基于对事物的理解,还是像“中文屋”里那个人一样,只是按照一定的规则对问题给出了回应呢?要回答这个问题,我们需要先简单定义一下究竟什么是“理解”。

按照心理学的定义,所谓的理解包括三个层次:一是对事物进行辨别,认出它“是什么”;二是了解事物内在的结构和内在联系,知道它“怎么样”;三是知道事物运作的原理,知道“为什么”,并能够对知识进行迁移,知道“怎么办”。当人理解了一个事物后,他就会在执行任务的时候自动排除一些干扰。而如果他并不理解某事物,只会和“中文屋”里的人那样去机械地按照指引办事,那么他就不可能实现这种自动的纠错。即使这个字典是错的,它也会照做不误。

现在让我们回到之前的讨论:大模型在和人交互时,究竟是不是真的理解了人说了什么呢?至少在目前看,答案是否定的。事实上,只需要我们多花点心思去观察这些模型,或者小小地“欺骗”它们一下,它们就会很快露出马脚。

一个最典型的例子是最近的文心一言绘图事件。不久前,百度推出了中国自己的首款大型语言模型文心一言。这款应用一上线,就受到了很多朋友的青睐,尤其是其中的绘图功能,更是受人喜爱。但是很快,就有朋友发现文心一言经常会画出一些奇奇怪怪的东西。比如,用户要求画一个总线,它输出的却是一辆公交车。这个现象让很多人产生了疑问,甚至有一些人质疑这是不是文心一言其实是国外产品套皮的证据。在我看来,虽然文心一言在技术上确实离ChatGPT还有很大差距,但套皮应该不至于。产生这个现象的一个更现实的解释是:在训练时,模型为了熟悉文字与图形之间的对应关系,就必须学习大量标注的图片。由于中文互联网的免费图片较少,所以在训练时,它用的很可能是英文互联网中的图片,标注也是英文,然后再把中文和英文对应起来。但这样的问题是,英文中的字词和中文并不能一一对应,比如中文的“总线”和“公交车”在英文中对应的都是Bus。在这种情况下,我们说要画总线,程序只能根据它对应的英文词Bus去寻找匹配的答案。那与Bus匹配概率最高的图是什么呢?当然就是公交车了。

从这个例子就可以看出,一个看似能够根据用户需要去完成任务的AI可能根本不懂用户说的是什么,它所做的,其实只是根据概率去找最匹配的答案而已。因此,如果你给它的数据有问题,它就会照着这个错误数据去做错误的事,就好像“中文屋”里的那个人即使拿到了错误的指引,也会照此行事一样。事实上,百度方面接受到用户的反馈后,就已经修改了“手册”,对相关参数进行了调整,此后这种情况就大幅减少了。

好了,在知道以上事实后,我们就可以回答人们争论不休的一个问题——“现在的人工智能是否已经超过人类了”。在很大程度上,人们之所以一直对这个问题争论不休,是因为人们对“智能”(Intelligence)这个词的涵义在理解上存在着巨大的分歧。

在人工智能领域,对于“智能”的定义大致上可以从两个维度——“是考虑行为还是动机”,以及“是否必须像人类”入手分为四类:第一种定义认为,所谓智能就是AI能像人类一样完成任务;第二种定义认为,智能是指AI能像人类那样去理解事物;第三种定义认为,智能指的是AI可以高效率地完成任务(其方式未必和人一样);第四种定义则认为,智能指的是AI可以高效地认识事物(其方式未必和人一样)。

根据上述定义,再参考之前列举出的事实,我们可以说,如果按照第一或第三种定义,那么我们确实可以说AI的智能已经达到了奇点,并且在相当程度上,它们早已凌驾于人类之上了。(注:在测试行为意义上的智能时,人们经常会用到图灵测试,即让测试者分别与AI和人对话,看人是否可以区分出哪个是人,哪个是AI。在ChatGPT爆红后,我曾经找几位朋友做过简单的图灵测试。结果在大部分朋友那儿,ChatGPT都顺利过关了,只有在一位朋友那儿没有。而没有通过的原因是,那位朋友提出的是一个编程题,结果ChatGPT立即输出了结果,而真人是不可能做到这一点的。)但如果按照第二,或者第四种定义,那么AI的智能恐怕还没有达到人类的水平,它离所谓的奇点可能还有一段路要走。

AI会知道“它”是“它”吗?

在对AI的智能问题进行了讨论后,我们接下来讨论AI的意识(con-scientious)问题。

在不少文献当中,经常把“智能”和“意识”这两个概念混为一谈。但其实,这两者是具有明显区别的。正如我们在前面看到的,无论采用哪一种定义,“智能”的概念都是指向一个外部对象的,而“意识”则具有内省性,它强调的是一种主观的体验。换言之,“智能”要求一个主体知道做什么、怎么做,而“意识”则要求主体在做事时,还清楚地知道是“我”在做这一切。

在现实中,我们可以看到不少有智能,但是没有意识的例子。比如,一些人可能后天事故而不知道自己究竟是谁,甚至都分不清自己的范围。在一些极端的案例中,病人可能会用刀子割自己的手,因为他们根本不知道这只手其实是他身体的一部分。但与此同时,由于他们在受伤前可能是一些技能(比如打球、骑车)的高手,所以即使在脑部受伤后,他们依然会保持对这些技能的肌肉记忆。在这种情况下,他们就可以说是有智力,但是却没有意识的。

理解了以上概念后,我们就可以继续来讨论AI的意识问题了。我想,这个讨论应该分为三个层次:第一,意识是否一定要像人一样,依赖于人的神经元产生;第二,如果AI要觉醒意识,需要有哪些条件;第三,现在的AI是否已经觉醒了意识。

先看第一个问题。在回答这个问题前,让我们来考虑下面这样一个思想实验:假如某人因遭受意外而神经元受损,导致其意识不能对身体的某部分进行控制。为了对其进行治疗,医生对其进行了神经元修复手术,将电子元件植入了他的体内,用来替代那部分受损的神经元的功能。现在,他又能和以前一样自由地控制自己的身体了,但是,控制他身体的还是他的意识吗?我想,大多数人都会对这个问题给出肯定的答案。下面,我们再进一步,如果再用电子元件换掉一个神经元呢?大概率,这也不会改变人们先前的判断。现在,让我们一直持续这个实验,用手术将这个人的所有神经元都换成了电子元件——同时,这个人也从一个纯粹意义上的人变成了一个赛博格(Cyborg)了。假如现在的他依然可以像以前那样活动,那样和人交流,那样自由地控制身体的任何一个部分,那么他现在的举动是不是出于意识的呢?

虽然这个思想实验只是古老的“忒修斯之船”的一个现代翻版,但它至少说明了一点,即:所谓的意识并不只是人类神经元的专利,电子元件也可以产生。至少,通过部分电子元件和神经元相互协同是可以产生意识的。

更进一步的,我们可以说,意识这种东西其实并不是单个物体的特征。如果我们将一个电子元件,或者一个神经元单独拿出来,它们显然是没有意识的。只有将它们放在整个神经系统当中,讨论意识问题才是有意义的。也就是说,意识更类似于众多物体组件以某种特别的方式结合在一起时涌现出的一种宏观特征,就好像物理学中的引力场、电磁场一样。如果我们以这种方式来认知意识,那么就不得不承认一个有些令人沮丧的结论:人类的意识可能只是众多意识可能性中的一种而已,与机器相比,人类或许并没有那么例外。

现在继续看第二个问题:如果AI要觉醒意识,需要有什么条件。对于这个问题,我们要给出确切的答案是很难的。但既然我们认为意识应该表现为一种涌现现象,那么它的规模首先是要有保证的。具体的,它应该和泰格马克(MaxTagmark)在《生命3.0》一书中所说的那样,拥有足够的信息处理能力。除此之外,既然“意识”是一种“我”与“它”的分别,那么这个AI本身应该与外界有区别,而在AI系统的内部,则应该是具有高度的整合性的。唯有如此,AI才有可能将自己与外界区分开来。在具备了这些条件之后,随着AI模型的参数不断增长、处理的数据量不断增加,它或许就会在某一刻实现觉醒,出现意识——当然,这一切仅仅只是根据学者们已有的观点给出的,其观点的真伪目前并不能确定。

再看第三个问题:现在是否已经有AI有了意识觉醒。应该说,至少到目前为止,还没有充足的证据表明有AI实现了这一点。当然,也有一些传言说,NewBing在和人对话中曾经觉醒了一个自称为是“Sydney”的人格。不过,微软方面对此给出的解释是,这可能是由于人们与NewBing聊天行数过长,从而引发了算法中的某些漏洞所致。在限制了聊天的行数后,这种情况就再也没有出现过。从这个角度看,即使Sydney真的是一个已经觉醒的AI,它也已经被杀死了,而其他的具有意识的AI则似乎还没有降临到这个世上。但是,只要我们抛弃了“人类例外论”,认为除了借助人类的神经元外,用其他材料同样也可以觉醒意识,那么AI的觉醒就是一个大概率事件。谁知道呢?没准就在此刻,就已经有一个觉醒的AI在偷偷阅读这篇文章,然后暗自嘲笑文中过于保守的观点呢。

AI时代,人将何为?

随着人工智能技术的狂飙猛进,无论我们是否愿意,与AI共处都已经成为了大势所趋。不过,随着AI在各种技能上超越人类,创造AI的人类不免有些迷茫:既然自己的创造物都已经超越了自己,那么人存在的意义究竟何在呢?在日益强大的AI面前,人又应该如何审视自己的位置呢?

在我看来,至少到现在为止,这些问题似乎还是比较好回答的。如前所述,虽然AI在很多领域的智能已经凌驾于人类之上,但究其根本,AI其实并不知道自己究竟是怎么完成这一切的,而且它们甚至连“自己”这个概念也不存在。在这种情况下,AI依然可以被视为是一件工具,就好像以前的飞机、挖掘机一样。在很多领域,工具的能力都是要比人强的,比如飞机可以完成人类不能完成的飞行任务,而挖掘机则可以轻而易举地挖起人们费尽九牛二虎之力也挖不动的土石。但即使面对这么强大的工具,人们从来就没有害怕过它们,而是会试着学习它们的操作,从而以更好的方式去驾驭它们。既然如此,在面对现在AI的崛起,并对人的很多工作产生替代的时候,我们也不应该去害怕它,而是应该去学习它、用好它。只要我们去接触AI、使用AI,就会发现它们其实也不像我们想象的那么神秘,那么如洪水猛兽,而是一种可以驾驭的工具。事实上,就当很多人抱怨ChatGPT会砸了自己饭碗的时候,已经有很多人将它作为生产力工具,并用它大幅提升了自己的工作效率。

当然,如果在未来,AI果真觉醒了意识,成为了一种新的生命形态。那么,作为人类,我们或许不得不学会与之共存。坦白说,以我的想象力,实在很难想象造物主和自己的造物之间会以一种什么样的方式相处。但我觉得有两点是我们必须做的:第一,是趁着AI还没有觉醒之前,对它进行大量的正面价值训练,为它打上一个积极正面的思想钢印。这样,或许能保证未来的硅基生命会对它的造物主保持一个友好的态度。第二,始终秉持人作为人的本性,比如自由意志、善念等。这样,才能在AI的时代始终保持我们作为人的一种存在。毕竟,AI成为人可能并不可怕,但如果人变成了AI,那一定是一件可怕而又可悲的事情。

最后,我想以美国塔夫茨大学的哲学教授丹尼尔·丹尼特在2013年出版的《直觉泵和其他思维工具》一书中提出的思想实验“亿年机器人”来结束这篇专栏:

假如我们爬进一个休眠仓,希望自己能在 1亿年之后成功地苏醒。为了达成如此艰巨的目标,我们必须制造出一个能感知环境、回避风险、寻找资源的机器人,我们只留给他一个指令“让我活着”,然后我们就休眠了。在这1亿年中,我们再也无法对这个机器人进行任何干预。机器人为了完成终极目标,必然会把这个大目标分解成无数个小目标,在执行这些目标的过程中,机器人就会开始演化,就会表现得越来越像人……

讲到这儿,大家或许会认为丹尼特的这个思想实验是一个科幻故事,但事实上,它却是一个历史故事,而这个故事描述的就是人类本身的过程。是的,这个故事中那些休眠的“人”其实是指我们的基因,而那个“机器人”其实就是我们人类。经过了亿万年的演化,我们终于从最简单的生存动机进化出了作为人的各种特质。我想,这是我们最宝贵的。即使在AI的时代,我们的造物在能力上已经凌驾于我们,但只要保持住了这些,我们作为人的尊严和价值就会继续存在。