文 / 焦李成


本报告内容分三个方面,一是AI为什么会成为大家关注的焦点;二是它到底带来的机遇和挑战是什么;三是我们应该怎样面对它。


1 AI新焦点


2022年11月OpenAI公司开发的智能聊天机器人ChatGPT成为全球热议话题,让大众见识到了人工智能的力量。那么,它到底给大众带来了什么?人工智能影响了人类生活的哪些方面?这个热潮不仅是简单聊天机器人带给我们生活的改变,更重要的是新一轮技术革新和产业革命是否在新浪潮到来的前夜,这是值得我们思考的问题。

ChatGPT引发了产业界“大咖”的热议和关注(见图 1),它不仅是一场技术的创新与应用,为人工智能注入了新的活力,更重要的是它为人工智能的发展带来的机遇和挑战,这是我们需要关注的。ChatGPT在带来了人工智能商业化契机的同时,也将刺激更多的技术创新。ChatGPT为人机交互注入了新的活力,但要做出真正的“类人”的人工智能应用,其技术还有待提升。因此,ChatGPT一定会带来更深、更多、更宽广的技术创新浪潮,这才是推动社会向前发展的动力,所以各领域的科学家都很重视它。


从ChatGPT到GPT-4经过了一段很长的历史,它是科学研究和技术积累的结果,从这个意义上来讲,2018年GPT到2023年的GPT-4每一步都有技术的革新和技术的长进(见图2),但ChatGPT还处于初级阶段,目前只能作为工具辅助人类工作不能代替人类,所以从现在开始还会有技术的革新,我们更需要去面对。对学术界来说,更多的是要重新再认识,要更多地思考下一步大模型技术创新的突破点在哪里。

人工智能技术下一次突破点在哪里,深度学习的理论和技术会怎么影响这个进程。

吴飞教授指出,ChatGPT是一个现象级创新产品,它的本质仍是以深度学习为代表的人工智能技术长期发展、积累的结果,距真正模拟人类的思维还非常遥远。所以,GPT-4不完整、不完善是必然的,大家感兴趣是客观的,说明我们任重道远,尤其是学术界要有清醒的头脑,记住这个技术还需要我们不断的努力去完善。

ChatGPT是一场“虚火”,还是颠覆性技术革命?2023年的“两会”上科技部王志刚部长说到,ChatGPT 从源头来看是自然语言理解、自然语言处理两个技术,引发大家关注,在于它是一个大模型,对应大数据、强计算、好算法。因此,虽然 ChatGPT带来的变革如此迅猛,但它仅是大模型技术,而推动技术产业的更新不仅只有大模型的技术,所以它并不代表人工智能的全部,也不代表人工智能的将来。

没有理论的突破就不会有今天的技术,ChatGPT的成功源于自然语言处理领域70 年发展的长期积累。Foundation models,我更认为它是一个基础模型。人工智能技术基础理论发展的重要突破,最先是在自然语言处理领域,它能够让机器像人一样非常自然地和人类进行对话,但对声音、语言、文字、图像这些人类交流最自然的信息处理起来相当困难,从而促使了人工智能第三次浪潮的兴起。

大模型具有大量的参数和复杂的结构,通常在强大的算力支撑下利用海量数据集下进行训练,表现出强大的通用性,在各个领域展现出了强大的生命力。当然我们要清醒的认识到,人有智能、聪明,也绝对不靠大数据、大训练、大模型解决问题。

在人的知识处理中,有一部分是计算,但更多的是知识启发的推理,包括决策、逻辑的处理等功能在大模型中还远远不够,更多要体现为Foundation models。拥有两个特性:一个是它的涌现,一个是它的同质。深度大模型的涌现能力强,能够实现从量变到质变。因为涌现是非线性深度网络,深度网络是由许多神经元相互连接组成的一个大系统,涌现是它的基本特征,是大模型的固有特征;同时也是群体智能行为和复杂思维的基本机理和表征,也是人脑感知和认知,或者类脑感知和认知的基本特征。所有这些才构成了感知和认知。因此它是本质性的,对于大模型来说更是如此,因为它是高度复杂的非线性网络。而我们多数人关注的是它的训练,很少人关注它的动力学过程。所以,从因果到涌现再到下一代人工智能,需要我们去思考这些本质性的东西。既然是一个Fundamental,这时你就会思考本质性的非线性现象和动力学带来的问题。

ChatGPT成功从技术上来讲,既然是大模型技术就离不开两个核心方面,第一个是Transformer模型。Transformer最早来源于电力系统中的变压器,今天的 Transformer已没有变压器的含义,“大变活人”或者叫做“变形金刚”也不足以形容其本身具有的能力,是ChatGPT突破的关键技术之一。另外一个是基于类人反馈的强化学习(RLHF)方法,一定要有反馈、沟通才去做。

上述技术的成功主要有下述四个关键技术。

关键技术1 Transformer的强大表征能力为GPT的成功起到了关键作用。GPT的本质,大模型技术的核心突破是自监督的学习,大语言模型的核心基础同样是 Transformer,这是自然语言处理能带来突变性飞跃非常重要的特征。Transformer 强大的表征能力和学习能力,是以前的深度学习、方法、算法,或者深度学习模型所不具有的。

关键技术2 根据人类偏好校准生成奖励模型,并对 GPT 模型的“回答”进行评分。

关键技术3 强化学习的原理和基本思想。强化学习对开放的环境、变化的环境有不断交互学习的、举一反三的能力,这是人类能够不断成长的最本质特征之一。从这个意义上来讲,对照我们处理的场景和问题,恰恰是不谋而合的,所以它是大场景,自然强化学习得到了更好的关注。如果在AI for science模型恰恰描述了有空间、有时间的动力学过程,它也同样是核心的关键技术之一。

关键技术4 提示学习方法。提示学习就是你的经验、知识怎样能嵌入到训练过程中,实现最优解。从这点来说,提示学习不是简单名词意义上的,它更多是知识和经验的运用。

ChatGPT、GPT-4之所以能突破,是因为采用了一系列深度学习的新技术,包括无监督学习、有监督学习、多任务学习,以及基于人类反馈的强化学习,所有这些发展是今天的必然结果。尽管ChatGPT取得了不错的进展,但它仍然处于发展初期,依然存在一些技术特点和局限。比如训练时间长、资源消耗高、准确性有待提高、容易存在误导性等10个问题,因此它还需要不断研究、改进、解决和完善。


2 挑战与机遇

ChatGPT认为认知智能的发展分为五个阶段,即知觉和感知阶段、表示和推理阶段、自主学习阶段、创造性思维阶段、自然交互和社会化阶段。ChatGPT自我评分只达到了中间的自主学习阶段,这个阶段距人类真正学习的模式和模型还有相当大的距离,还需要进一步研究和工作。自然语言处理和ChatGPT技术,只是中国人工智能学会论证人工智能领域众多研究方向中的一个,只是人工智能技术理论和基础技术主要研究的、所要发展中的一条,而不是人工智能的全部。从这个意义上来讲,我们还需要更多、更全面地发展人工智能。记住,离不开ChatGPT,当然也不能只靠ChatGPT,所以我们需要更深的去思考。

目前,ChatGPT还没有通过人工智能图灵测试(当然,迄今为止还没有人工智能模型真正通过图灵测试),针对实际变化场景仍有很多工作要做,我们要努力去研究它、发展它、应用它。基础不牢,地动山摇。ChatGPT 的数理逻辑计算能力薄弱,对基础数学和逻辑思维等的处理能力、辨伪存真能力都有待加强。此外,ChatGPT 代码生成存在局限性。ChatGPT促进了 AIGC 与代码生成的碰撞融合,可进行代码生成、代码错误检测修复、代码优化、代码理解等任务,但是也依然存在一些局限。

GPT-4促使了通用式人工智能,以前大家认为有数据就够了,而数据再多在大数据同样也是小样本,同样也是不完整的。从表征来讲还只是系统一部分功能和既定的表征,从这个意义上来讲我们更需要去做。实际中,数据感知获取时只是一部分,不够怎么办,生成;经验知识不够怎么办,生成。所以,生成智能、生成知识变成了未来人工智能发展非常重要的一部分。

如果回到创新源头,数据和知识协同学习、推理、联想、记忆,以及情景感知到认知才是人工智能的本质和基础。其实ChatGPT对诗的理解、对情景的理解、对情绪的理解、对情感的理解应该与我们相差相当大的距离,这就代表了现在人工智能大模型技术和我们还有相当大的距离。

我们离不开搜索,但我们的生活、我们的创新、我们的思想、我们的情感不能紧紧依靠搜索。人人都能搜索到这种情感,那你的感情、真挚程度可能就要提出一些怀疑和疑问;如果感情都能这样重复的,那它的真挚度有多少。另外有伦理的问题、道德的问题,偏见的问题,我们需要面对它,而不是因为这是负面的就排斥它。

波士顿动力从1982年开始到现在经过40年还在发展。2022年,给机器人手里拎两个袋子都不行,今天它就有自己找工具递给上面的人这样的智能出现,但它缺乏环境的感知、认知、推理和决策的能力。40年弹指一挥间,但40年对人工智能来讲,大脑和运动装配仍在路上。

ChatGPT发展的十大公开问题有先进性、自主学习性、体验性、普及性、可扩展性、可解释性、安全性、推理性、创新性和生态稳定性,也包括其他信任、伦理、道德、法律等方面的问题,值得我们研究,也值得我们期待,更说明这个基础还有待于进一步加强。

GPT-4是一个大型多模态模型,可以准确地解决难题,虽然在许多现实世界场景中的能力不如人类,但在相关专业和学术基准上展现出类人的水平。比如,相对前面ChatGPT在文本、图像处理方面是一个新的里程碑。我还要特别强调的是,GPT-4的成功离不开OpenAI研究的团队,团队的合理分工、协同、清晰的构架,以及坚实的研究方向和明确的目标任务是他们成功的关键,而且是坚持一直把它做成。从这个意义上来讲,它对我们的研究和技术的应用也提出了相应的启示。GPT-4有它的优势,也有它的问题和局限,就像刚才我讲ChatGPT一样,同样需要我们去做。

面对人工智能和大模型技术的来临,我们要热情的拥抱它,我们要有三个变革,一是用平常的心去对待它,更要有敬畏的心对待它,这样才能把所有问题的负面影响减少到最小。同样在教育界,我们需要拥抱它,以平常心和创新的能力去做。

目前,自然语言处理还是不完整的、不完善的,因此也是有发展空间和潜力的,况且整个人工智能领域。自然语言处理仍然面临很多风险,这时应对的策略首先应该是心态,心态会决定一切。

大模型的技术同样对大模型多模态学习带来了新机遇,因为它是视频技术发展的动力,这里同样需要去做。一个是微软在做的Visual ChatGPT也希望扩展到影像,因此有了以扩散模型为代表的视觉模型,从文本到视觉。Google的VIT模型,也是在做视觉,大家不要仅看参数有多少,要看它的功能扩展。Meta发布的SAM 大模型也在关注视觉任务。而用一个模型打遍天下是不可能的,尤其是在影像和视觉领域、一个模型就能把所有问题都解决是天方夜谭。盘古大模型是华为在努力做的事情,百度也在做文心一言的模型,阿里和商汤在做跨语言、图像多模态大模型,都在路上。此外,清华也做出了一个多模态扩散模型;我们也在做遥感的大模型和医学领域的大模型,效果还不错。

另外,ChatGPT 对教育的冲击很大,教育版的ChatGPT 怎么做,我们要守正和创新;医疗领域对我们来讲是挑战的领域,又是充满魅力的领域,也是需要我们去做的领域。所以,大模型是通用的计算机,比尔·盖茨说它可以和通用的计算机相比较。这时候边界在哪儿、脑子在哪儿,脑子和手怎么并用,手和大脑怎么嵌套,这是解决从语言到影像再到视觉模型的基础。当然在政、产、学、研、用、商各领域更需要我们去做很多事情,对企业的机遇是不言而喻的。


3 思考与展望

从图灵测试到人工智能经历了很多事情,例如,老三论是系统论、控制论和信息论,这里讲的模型包括耗散论、突变论和协同论,一直到现在的本体论、三世界和小世界,所有这些都是非线性动力学现象和群体智能现象的一个体现,而感知、认知、学习、推理和决策永远是人工智能的核心。我们要计算、要感知、要认知,从感知到认知还有漫长的道路要去走,所以说离不开人工智能。人工智能图灵奖的获得者在思考如何进行推理,脑科学诺贝尔奖的获得者在考虑“人如何思考”,生物进化类诺贝尔奖的获得者也在考虑“生物是如何优化和进化”的,物理领域诺贝尔奖的获得者启发了我们在思考人工智能深度学习、深度网络大模型物理本质是什么,所以说下一代人工智能是我们的主题。可解释、鲁棒、安全、自适应、创造性、迁移性,我们怎么去应对这样的挑战才刚刚开始。

深度学习也不是一天就有的,下一代深度学习讲了一个可解释、可通用还远远不够。这时候我们怎么去做,基金委最近下发的十大重点培育项目所列题目就表明了下一代该怎么做;机器人领域有工信部17个部门提出的要求;在场景创新领域,六部委提出了10个场景示范,这些都是国家层面的考虑。所以突破在哪里、问题在哪里,技术我们还需要去发展,从这个意义上来讲,从感知到认知涉及到方方面面,心理、哲学、语言、人类工程包括到神经,我们更需要协同发展。所以,源头创新一定是围绕本质性问题,我们还在路上。


(参考文献略)

选自《中国人工智能学会通讯》

2023年第13卷 第4期