ChatGPT 风靡全球,引得无数大厂竞折腰。在过去六个月间,究竟是什么让 ChatGPT 于一夕之间爆红?其背后蕴藏哪些技术实现?如果想要复刻 ChatGPT 的成功,又需要满足哪些条件?中国有机会做出自己的 ChatGPT 吗?我们距离通用人工智能(AGI)还有多远?
怀揣着种种疑问,在最新的一期《开谈》栏目中,我们邀请到了长期耕耘于知识图谱、自然语言领域的 360 人工智能算法专家的刘焕勇,同济大学百人计划专家、特聘研究员、博士生导师王昊奋,达观数据副总裁、高级工程师王文广,齐聚线上,围绕 ChatGPT 这一现象级应用,进行了深入探讨,也希望通过这一场酣畅淋漓的分享,为身处在 AI 新时代中的工程师、开发者带来一些思考。
CSDN 付费下载自视觉中国
ChatGPT 为什么会引起轰动?
王文广:ChatGPT 是去年 11 月底发布的,发布之后引起了“蝴蝶效应”,在人工智能领域激起千层浪,几乎每个行业都在谈论 ChatGPT。那么,它在技术和应用上到底踩中了什么节点,能够让全世界各领域的人为之兴奋。不管是大模型还是聊天机器人都不是新的东西,那么 ChatGPT 到底有什么过人之处,能够使它在这个节点爆发?
王昊奋:GPT 大火的现象类似于 2016 年的 AlphaGo。这次的 GPT 能够将过去几年的一些冷淡或进展性较弱的工作推向新的高度,成为人们讨论的热门话题。特别是大模型,这里特指一些预训练模型,包括语言模型、图像模型和多模态模型等,一直在持续推进。对话系统也不断发展,从早期的个人助手助理,到问答引擎,再到聊天机器人和智能音箱,也在持续发展。
为什么这次 ChatGPT 能够引起如此大的关注?其中原因有几个。
首先,它的能力非常强,之前我们都是在垂直领域内进行对话,而在开放领域内表现不佳。之前的模型理解能力存在很大局限性,一个特别明显的问题就是,问着问着就会回答说“我不懂你在说什么” 或者 “我不知道什么意思”。ChatGPT 在回复过程中,它的回复内容非常长且多样化,甚至可以拒绝回答一些敏感话题。它能够根据人的干预和反馈进行优化动态调整回复内容,这使得用户体验得到了很大的提升。
各行各业都在谈论 ChatGPT 的原因有很多:首先,GPT 具有类似于一个行走的百科全书的特点,对各行各业的知识有一定的了解。此外,除了能够做简单的问答聊天外,GPT 还可以完成自然语言任务以及生成代码等工作。它开启了一个 AIGC 新时代。AIGC 就是让人工智能来生成一些内容。之前可以用文本生成图片,现在也可以用文本生成文本、用文本生成代码或其他任意形式的数据。
GPT 的成功也得益于大量的数据和预训练,这使得它的性能得到了大幅提升,参数量呈现出指数级的增长。此外,大模型达到一定规模之后,从量变达到质变,产生涌现现象也使得 GPT 具有了复杂推理和新任务处理的能力。这些能力使得 GPT 可以在少量示例下完成任务,类似于人类的举一反三的能力,对应到 In-Context Learning 的能力,甚至无样本的直接开挂能力。
GPT 引入了大规模强化学习,使得它可以与人的价值观和偏好进行对齐,进一步提升了生成的质量和多样性。从而能够达到一个至少初步看来,可以使用的效果。这是 GPT 能够成功的技术方面的原因。
营销也是 GPT 模型引起轰动的重要原因之一。首先,OpenAI 本身非常善于营销,像 Sam Altman 等人都在这方面做得非常出色。在这个过程中,他们非常了解互联网上存在的饥渴营销方式,这包括微软 Bing 的 waiting list (候补名单)策略,这些策略在很多方面都能够让用户产生期望感。其次,GPT 模型可以通过收集用户的提问,以一种 prompt 的提示形式来进一步优化模型和发现新的场景,从而进一步提高运营效率。这种策略可以形成一个类似于互联网的部署飞轮,从而使得 GPT 模型可以快速吸引更多的用户,形成更多的线上真实情况输入和数据,进一步拉大与后来者的差距,这与谷歌在搜索引擎领域的成功有着相似之处。GPT 模型还有其他技术方面的优势,具体内容可以进一步探讨。
刘焕勇:我认为 ChatGPT 之所以能够引起轰动,主要有六个方面的原因:
▶ 第一,GPT 已经完全超越了 UIE(信息抽取的大一统模型)的范畴,真正实现了以深度学习的方式将多个模型大一统。对于工业界的落地应用而言,这是一个重大的突破。在使用 GPT 之前,曾使用过一种很火的叫 UIE 的工具,该工具将多个任务处理为一个统一的处理方式。然而,GPT 的出现将这种处理方式扩展到了一个更高的层面,成为了一个“全能”的工具,可以用于编写代码、发送电子邮件、制作表格、对话等等,甚至可以解决数学问题和编写公式。
▶ 第二,GPT 是从自然语言处理 (NLP)领域发展而来,实现了从垂直领域到开放领域的转变,开放域需要标注很多语料去做,现在我们给 ChatGPT 少量的 promot 它就能做得很好,对于企业或个人在开放领域的落地应用具有推动作用,能够节约成本,尤其是大家比较关注的标注成本。
▶ 第三,GPT 能够以问答(QA)的方式进行对话,回答流畅自然,这主要得益于 GPT 对上下文的管理。在使用中我们发现,它上下文特别流畅,它在理解语境和上下文刻画方面做得非常好。甚至你调戏 ChatGPT 时,你说它错了,它不但不认为自己错了,还会为自己辩解,这其实说明它已经具备一定的思辨能力。
▶ 第四,GPT 预示了生成模型的大爆发时代已经来临,它已经能够解决许多任务。
▶ 第五,GPT 实现了更好地与人类的互动,有优点类似于马斯克的机器人那种更好地和人类互动的反馈。
▶ 第六,从使用者的角度来看 ChatGPT 能够打动用户的是它实现了从企业到个人助手的转变,ChatGPT 可以作为助手解决用户的问题。这种平民化的服务吸引了许多人,即使在社区中,许多人的家人也在使用 ChatGPT 来解决问题。
ChatGPT 会不会产生自我意识?
王文广:在这种趋势下,ChatGPT 是否会产生自我意识?
刘焕勇:关于意识这个问题,有一篇来自一个国外的学术机构的很火的文章。该文章认为,语言模型已经具备了意识。
但是,在回答这个问题之前,我们需要先定义什么是意识,对于人而言,它可以感知周围的事物并进行思考。然而,像这种语言模型,虽然在现象级的意识表现上接近,但从本质上来说,它只是一个模仿人类语言的模型。
在生产过程中,它只是在根据给定的语料逐词生成文本。虽然它内部使用了技术搜索算法,但它仍然停留在语言概率性问题的层面。因此,与我们真正意义上的意识相比,它仍有很大的差距。
王昊奋:首先,关于“意识”,行业并没有一个明确定义,因为这个问题涉及到多个学科的交叉。
目前,人工智能是以数据驱动为主的,而深度学习则是当前人工智能时代的主要技术。除此之外,神经科学和认知科学等学科也在探讨意识的机理和基础理论,但是实践和实验远远领先于理论,因此我们看到的更多是现象。虽然我们不能下结论说这些现象就代表了 ChatGPT 已经具有意识,但是对于探索意识这个问题仍然非常有意义。
在人工智能方面,即使是无监督学习也可能引发某种形式的智能体或触发意识的迸发,从而实现通用人工智能(AGI)。对于大型语言模型的出现,它的基础是简单的自监督任务,通过预测下一个 token 或者下一个词的方式来不断地进行自回归模型训练。这种模型可以从互联网上获得大量的语料库,包括各种代码。这种简单统一的自监督范式使得这个模型可以完成大量数据的训练,这是向前迈出的一步,相比之前非常依赖监督的技术来说进步非常显著。
其次,需要探讨意识是怎样形成的,GPT 里面用的是 alignment,这就用到了大规模的强化学习,包括本身的奖励评分和策略优化的算法。如果大家有机会用到 New Bing 你就会发现它在所谓的观察方面更加出色。无监督学习或自监督学习,打下了很强的基础,强化学习面对外部环境的反馈,和人交互的时候,更加拟人化,并形成各种人设和表现。这是因为它具有上下文理解的能力,可以刻画非常长距离的上下文。
在这个过程中,GPT 模型的变化会随着不同的输入和反馈而发生变化。从观察来看,它是一个无监督或自监督的基础基座,加上强化学习优化后好像具有了一定的意识。但是,这种意识是如何形成的还需要进一步研究,需要脑科学和其他科学家的帮助来解读和揭示其背后的真正可解解释。与此同时,GPT 模型基于 2017 年谷歌的 “Attention is all you need” 的 Transformer 模型,其多头自注意机制和跨层协同对应到归纳、复制、挖掘各种模式、改写等能力,这些能力可能让其产生类似于涌现的意识。但目前这方面的研究还相对初期,需要更多地探究和解释。
因此,我们还需要更多的研究来了解什么是意识,以及 GPT 模型是否有意识。
强化学习和大模型结合如何擦出更多火花?
王文广:大规模强化学习说起来很容易,但是做起来非常难。强化学习上一次获得较大关注还是在 AlphaGo 那会。AlphaGo 是基于强化学习和围棋规则的输入,通过自我对弈不断学习成长,最终演变成AlphaZero,能够击败全世界最顶尖的围棋选手的 AI 系统。说明强化学习非常强大,但是在自然语言处理方面以往的研究很多,但是真正发挥效果的不多。但是这次 ChatGPT 出来以后,人们发现强化学习和大模型结合起来,能够产生非常惊艳的效果。
这里面有没有一些值得学习的点和未来的研究方向是什么?
王昊奋:强化学习是人工智能中的一个分支,相较于传统的有监督学习和无监督学习更为复杂。在强化学习的过程中,需要定义智能体、环境以及奖励等概念,这也是训练强化学习模型的难点。强化学习在游戏领域得到了广泛应用,例如象棋、德扑、麻将等等,还有一些游戏公司使用强化学习模型来做决策或协同。然而,对于非游戏领域的应用,如何评价模型的回复好坏是一个挑战,因为场景相对复杂、主观性较强。为了解决这个问题,需要建立一个评价模型,并且该评价模型依赖于大量高质量的训练数据。虽然 ChatGPT 在技术细节上没有公开,但是可以参考其前身 InstructGPT。
关于问答语料的奖励函数模型,有许多需要注意的细节。首先,可以参考之前的一个变种版本—— InstructGPT,这个过程中有很多工作,包括对奖励模型中分数或奖励函数的相关性、流畅度、安全性等指标的控制。由于生成模型本身具有一定的随机性,可以通过调整温度等参数获得多个结果进行排序,但其排序结果的一致性和打分需要依赖于受训练过的人和相关的标注规范。
然而,在过去的训练中,这些方面的工作做得不够好,导致了一些问题的出现。例如,由于暴露偏见的问题,一些策略可能只是局部最优解,难以训练出一个好的策略,很容易训练出不好的策略,回答特别机械或者胡说八道。此外,在保持混淆度低、相关性好的同时,涉及到的一些敏感问题使得模型更难训练。从算法、数据标注以及工程等方面,这个模型都需要做出很多突破。虽然它使用的技术不是最新的,但它善用了以前的强化学习技术,在很多方面都取得了成功。因此,我们需要从中思考并借鉴相关的经验。
刘焕勇:强化学习是一个通过奖惩机制不断试错的过程,它的应用在棋牌游戏 AI 等领域已经有了一定的成果。
不过,强化学习目前还存在两个主要问题:
其一是难以训练,即使使用 GitHub 上面代码进行训练,都很难收敛。
其二是数据标注的质量问题,包括标签的设定和数值等方面。
为了解决这些问题,像 OpenAI 这样的公司雇佣廉价的非洲劳动力来标注数据。目前 OpenAI 精确的数据标注量还没有公开,我们预估这个量应该会很大。对于国内的相关研究人员来说,如果使用强化学习进行算法研究时,也会面临这些问题。尤其是随着强化学习的代码公开,门槛降低,各大公司将竞争奖励机制的数据标注和定义规范,以及评估标注数据的质量等方面。因此,强化学习在未来的发展中仍需要解决这些问题。
中国有没有机会做出自己的 ChatGPT?
王文广:想做出 ChatGPT 并不是一件容易的事情。它是一个 AI 的大工程,并不是三两个算法同学外加几台服务器就可以搞定的。到了 ChatGPT 的时代,它本身是一个非常大的工程。为了帮助模型训练,微软专门给 OpenAI 提供了他们的超级集群,OpenAI 的算法工程师需要在集群基础上把各种算法组合起来。很多算法也不是 OpenAI 自己搞出来的,Deep Mind 在强化学习方法做的也非常深,但是 OpenAI 将这些都融合在一起。还包括从非洲找廉价劳动力进行数据标注,还可能有一些在公共渠道中无法获取的其他信息。这些组合起来就是一个非常大的工程,对我们做出媲美 ChatGPT 的模型来说是一个很大的挑战。
中国在其他领域做出很多成功的大工程,比如“两弹一星”、高铁等,那么在 AI 领域中国是否能够延续这样的神话?中国有可能做出媲美或超越像 ChatGPT 这样的 AI 出来?
刘焕勇:回答这个问题时需要考虑多个因素。比如,我们在做量化分析时会使用多因子模型。这个问题包括很多因素,其中最重要的两个因素是外部和内部环境。
在外部环境方面,比如我们现在做知识图谱方面,国外有 Palantir,而国内也有很多公司在做和 Palantir 类似的研究,但是由于外部环境的问题,这个问题实际上具有一定的风险性。
另一个因素是内部环境,一般来说,我们会从数据、算法和算力这三个方面去考虑。
在算法方面,特别是在近几年来的开源浪潮下,有更多的开源代码被发布,包括一些公益的和科研机构的代码,这使得算法的问题不大。此外,中国也在这方面投入了很多,包括科研机构的开放和强大的编码能力。
在算力方面,虽然需要花费大量资金,但是这个问题也可以得到解决。然而,硬件方面的算力可能会过滤掉一些公司,只有有一定资历的公司才有能力去做这样的事情。
除了算法和算力,数据也是一个重要的因素。例如,从 GPT-1 到 GPT-2、GPT-3 再到 ChatGPT,国外的这些模型的效果非常好,我们可以看到现象级的涌现效果。中国的智源、浪潮等公司也做了很多模型,但与 GPT 它们在用户体验上的差距仍然很大。这个问题实际上源于数据,因为在深度学习中,有一些规律需要遵守,例如我们需要准备什么样的数据来训练模型。由于数据的困难程度很高,这成为了一个巨大的壁垒。数据多样性及规模是中国企业在进军人工智能领域时需要攻克的主要难题。大规模数据的积累是企业进军人工智能领域的首要条件之一,而多样性数据则是关键之二。以 GPT 模型为例,它几乎什么都能干,该模型训练时所使用的数据分布十分广泛,包括书籍、对联、网上对话以及论文等不同来源的数据。而这种广泛的数据来源保证了模型在多个领域中的应用能力。对于中国企业而言,如何解决数据多样性问题也将成为其发展人工智能的重要挑战之一。
数据的质量对于人工智能技术的发展至关重要。在如何防止生成有害或敏感信息方面,我认为,首先,在模型训练前需要加入一套固定机制进行过滤,而训练完成后,还需要通过一次过滤来确保模型生成的信息符合规范。
中国企业在发展人工智能技术时需要关注外部环境和内部环境两个大方向。在政策方面,政策支持可以帮助企业营造良好的生态环境,同时,企业也需要通过提高算力、算法和数据方面的能力,需要解决数据质量问题。对于中国企业而言是有机会做出媲美或超越像 ChatGPT 这样的人工智能工具的。
王昊奋:随着科技的不断发展,大型工程的复杂度也变得更高。在人工智能时代,由于从机械到电子再到信息数据时代,变量也变得更多,因此优化问题也变得更加复杂。在工程领域,大家都关注国外的一些公司,例如 OpenAI 以及其他一些制造大型模型的国外公司,它们都在使用分布式的机器学习训练框架。而对于大数据时代,过去有 Spark 和 DataBricks 等公司。现在又出现了一些新的公司,推出了如 Ray 这种开源的分布式机器学习框架。这些框架的使用虽然简单,但是要在系统层面实现优化却非常困难,因为在多机多卡的情况下,不仅需要考虑数据的并行,还需要考虑模型的并行、MoE 的变形等复杂因素。此外,在机器学习的过程中还需要考虑 pipeline 流水线等优化,这也是一项重要的工作。在智源青园会中,潞晨科技推出了一个名为 Colossal 系统,它也是一个开源的项目。通过这个系统,可以将显存的使用量降低,从而减少使用卡的数量,同时仍然可以进行训练。这需要对体系结构进行优化,以及对存储和计算进行优化,这也是很多老师们正在研究的方向。
在如今的人工智能系统中,单纯讲算法已经不再具有太大的意义。对于人工智能系统而言,底层的一些框架、异构计算等都非常重要。因此,未来的工程师需要掌握的知识点也会越来越多。现在一些公司已经从最初的做 AI 转向做 AI 系统。在这个 AI 系统中,很多底层的技术都非常重要。这些技术包括之前使用的各种开发框架,例如 Torch 等,以及曾经非常热门的异构计算,即神经网络的虚拟机。
此外,在大模型时代中,分布式机器学习框架和优化策略也非常重要。这些技术需要软硬件结合,而且很多都是从机器学习领域的很多优化策略中演化而来的。对于大模型来说,如何高效地训练模型和部署模型也是非常关键的问题。在微调模型方面,近年来,像 Stable Diffusion 这样的高效方式已经使得微调变得更加容易。这种技术的发展不仅在图像领域有很多应用,而且也会逐渐渗透到大规模语言模型领域中。除了微调和精调,人工智能技术的发展还需要解决强化学习的价值观的问题。
随着人工智能技术的发展,ChatGPT 成为了人们关注的热点话题。然而,对于想要进入这个领域的人来说,并不是所有人都适合从事通用的 GPT 模型的研究。相反,更多的人可能会从事垂域的类 GPT 模型的研究。在这种情况下,模型特化变得尤为重要。因此,我们需要大量的基础软件来配合计算力,例如操作系统、编译器、数据库等。
同时,数据也成为了人工智能领域中非常重要的元素。从以模型为中心的 AI 转变为以数据为中心的 AI,已经成为了人工智能发展的趋势。在 ToB 领域,如果我们没有足够的数据或者无法获取数据,那么如何更新模型、优化模型、发现问题以及快速部署都将成为难题。此外,云计算和边缘计算的协同也会在这个过程中发挥重要作用。为了解决数据量不足的问题,我们可以采用数据增广或者数据合成的方法。对于大模型来说,模型规模的增大会导致互联网数据被消耗殆尽,因此只能通过自我生成数据来继续训练模型。就像游戏中的 NPC 和 NPC 之间相互对话。
同时,算力也是实现这一目标的必要条件,但不是最卡脖子的东西。一些国家队、互联网大厂、活下来的现金充裕的 AI 公司、游戏公司以及区块链领域的老手都有可能成为人工智能领域的领军者。然而,基础软件和生态系统建设的缺失可能会成为阻碍人工智能发展的最大瓶颈。相比之下,算力反而不是最大的瓶颈。我国在超算领域的积累和相关尝试为人工智能领域的发展提供了有力支持。但是,我们还需要更加畅通的基础软件和开源生态系统,以便更好地推动人工智能技术的发展。
简单来看,我们首先是要在算法上进行创新和优化,其次是数据的质量与治理,最后则是信念和坚持。
另外,英文是互联网上最主流的语言,英文的数据更多而且质量相对较高,但是高质量的中文数据不足。因此,数据的质量和治理是中国版 ChatGPT 发展的一个制约因素。OpenAI 在人工智能领域的成功经验是,即坚持创新和信仰,并且不断积累经验和技术。这也是中国版 ChatGPT 需要学习和借鉴的。中国版 ChatGPT 需要坚持信念和有信仰,这在学术界和科研领域尤为重要。
中国版 ChatGPT 需要走出自己的路,并反向输出,否则就会永远跟随别人的老路走下去。这是中国版 ChatGPT 发展的一个大问题。中国版 ChatGPT 需要在数据、游戏规则、工程和生态等方面寻求创新,并不断优化和改进自己,才能做出一个真正有竞争力的人工智能产品。
中国谁最有希望优先做出最接近 ChatGPT 的产品?
王文广:做出 ChatGPT 有些难度,但是要引领一个技术,要在创新层面走出一条道路,就对团队的要求非常高,就会难上加难。那么,中国谁最有希望优先做出最接近 ChatGPT 的产品?
王昊奋:国内有多家公司都在研发类似 ChatGPT 的产品。百度 3 月份也推出自家版 ChatGPT,成为国内首个推出该产品的公司。百度由于其搜索业务积累了大量数据,对用户行为也有深入了解,正在做文心大模型且已经有了飞桨 PaddlePaddle 等基础框架,因此推出类 ChatGPT 的产品具备一定的基础条件。当然和百度这种情况类似的还有很多,只是目前还处在静默期,都在努力去做出这样一款产品。
我们需要走出中国特色。因为 ChatGPT 并不完美,也存在一些如准确性和真实性等方面的缺陷,这也是为什么微软急于将其与其它产品(如 Bing)相结合的原因。在行业细分太细的情况下,ChatGPT 可能存在一些难以判断的问题,因此各行各业都在努力结合自己的特点来开发相应版本的 ChatGPT。例如,网易即将推出某款游戏试水其 ChatGPT,司法、金融和医疗等领域也都在研发相应的版本的 ChatGPT。但同时,抄作业容易,抄完作业后如何做变革,如何做出一个具有垂域特点的 ChatGPT,由于 OpenAI 或者说全世界没有给出一个标准的解法,需要根据以往的经验结合前面讲到的数据、算法、工程、产品和运营,让这个飞轮转起来,才能看到很多的东西。
从 OpenAI 的角度来看,ChatGPT 并没有一个明确的商业模式,而对于商业公司来说,盈利模式是必须要考虑的问题。这也是谷歌等公司无法完全放弃搜索和广告等业务的原因之一。像谷歌的 Bard 出来之后,大家对谷歌的宽容度并不高,都认为谷歌应该可以做得更好,怎么会出现这种错误。其实这种错误 ChatGPT 也会犯。如果国内一些巨头公司做出来之后也会面临相似的问题。在已经出现了像 ChatGPT 这种比较难超越的标杆之后,国内巨头该怎么做也是一个值得思考的问题。
当然,ChatGPT 的出现也面临着一些挑战。首先,训练一个大型的人工智能模型需要耗费大量的时间、资源和资金。此外,运营这一技术也需要巨大的投资。据悉,每一条查询的成本约为一美分,这也意味着需要一定的优化才能实现盈利。
在一个 SaaS 的商业模式下,利润是至关重要的。创业者需要通过各种手段来确保自己的产品能够带来一定的利润。因此,除了技术问题,还需要考虑其他非技术因素对于商业模式的影响。
如何确保自己的产品不仅仅是一个技术问题,还涉及到很多非技术的因素。除了抄作业之外,创业者需要进行微创新和开创性的探索,以便在市场上占据一席之地。这些探索的过程可能需要自己去不断挑战和探索,后面一定会有一些经验甚至是最佳实践产出。或许很多商业公司不愿意披露这些信息,但是我相信一定会有一些开源机构或科研机构会将这些信息陆陆续续揭露给大众,以便更多人可以进入这个领域,从而产出一些新的范式上的变革。
大家要以发展的眼光看待这件事,貌似 OpenAI 好像抢占了先机,其实就像冰山一样暗流涌动,国内很多科研机构和大厂都在开展相关工作,说不定什么时候一家就会比另外一家更好。如果这个市场足够大,也不可能出现一家独大,后面一定会出现百花齐放、百家争鸣的现象。
刘焕勇:大家都有机会,而且 ChatGPT 可能会有很多版本,如很多垂类的版本,这样大家做出来的机会更多。只要大家有意愿,并且能够坚持解决上述问题,都有机会做出来。现在谈论“谁最有希望优先做出最接近 ChatGPT 的产品?”为时过早,现在是一个大变革的时代,谁也说不准,静待花开即可。
王文广:其实现在只是刚刚开始,随着 ChatGPT 的出现一石激起千层浪,引发了整个社会的讨论。现在那么多聪明的人和资本已经投入到这个领域,国内的研发也处在加速阶段,对整个社会发展起到促进作用。由于这个变革比较大,我写一个“人工智能江湖的倚天屠龙记” 系列来讲述人工智能的发展。GPT 就像一把屠龙宝刀,屠龙宝刀初出江湖,引起江湖纷争。
ChatGPT 出来以后,对知识图谱方面会造成哪些影响?
王文广:谷歌也很快推出了类似的 AI 模型 Bard。谷歌在 AI 领域的积累也非常深厚,不管是大模型、强化学习还是针对 ChatGPT 引发的情景学习、思维链等相关技术大都谷歌先发表出来的。但是作为一个搜索引擎巨头,推出这种东西对自己反而是一种威胁。一方面革了自己广告的命,但是广告占谷歌收入较大比重,如果没了广告收入从哪里来,是一个很大问题。另外一方面,大众对创业小公司比较宽容,但是对巨头容忍度更低。同样的东西谷歌推出来如果“胡说八道”大家就很难接受,股价暴跌一千多亿。如果是 OpenAI 推出来的,则可能一笑了之。
知识图谱是用来解决大型语言模型“胡说八道”的一个非常好的工具。谷歌的 Lamda 模型就是知识图谱的一个典型例子。这些模型能够检索外部的知识来支撑回复中的事实性内容。举了一个例子,即三元组,这是知识图谱中最常见的一个东西。谷歌拥有全球最大的知识图谱,这使得大型语言模型能够引用知识图谱来回复问题,这是非常好的方法。
搜索引擎并不适合用来解决事实性问题。当你使用搜索引擎搜索一个问题时,它会返回一大堆结果,你很难判断哪个结果是正确的。因此,知识图谱如果是通过一个比较严格的标准去构建的话,它就可以成为一个非常强大的事实库,从而避免或减少事实性问题的出现。
那么 ChatGPT 出来以后,对知识图谱方面会造成哪些影响?
刘焕勇:其实知识图谱(KG)的构建和应用中,时效性和完备性都是非常重要的。而在不断探索的过程中,人们也在逐步发现,知识图谱的构建并不是一件容易的事情。特别是在构建通用域的知识图谱时,需要从非结构化文本中提取出结构化数据,而这个过程又存在着多样性和不确定性等问题,因此需要考虑如何保证文本的准确性和可靠性。
语言模型中的知识图谱的应用过程中,有一种新的方法:就是将知识图谱中的知识表示融入到语言模型中,然后在训练的过程中让模型去学习。这种方法可以有效地提高语言模型的准确性和时效性,同时也可以通过对模型输出结果进行修正来提高模型的性能。
不过,知识图谱的构建和应用中还存在着一些问题。比如,知识图谱中可能存在错误的信息,这些信息如果被加入到知识图谱中,就会导致知识图谱的准确性受到影响。因此,呼吁大家要在知识图谱的构建和应用中注重信息的准确性和可靠性。
知识图谱的时效性和准确性也并未得到很好的解决,这是 ChatGPT 和知识图谱的通病。那么 New Bing 是怎么做的呢?目前还没有一个权威的说法。我猜测 New Bing 可能是先从知识图谱中找到相关的实体或概念,然后进行聚合和摘要,再丢到语言模型里面去进行处理,最终输出结果。但具体实现细节仍未确定。在这个过程中,涉及到了多个技术,如知识图谱的融合和对齐技术等,这些技术可能也被应用于 New Bing 的产品中。
我认为技术之间的相互掰扯和融合是一个亟待解决的问题。New Bing 备受关注,但其背后的技术和实现仍有待进一步研究和探索。对于如何解决时效性和准确性等问题,也需要更多的技术创新和实践。在技术融合的过程中,ChatGPT 和知识图谱这两个技术具有共通之处,未来或将在实际应用中发挥更大的作用。
王昊奋:随着 ChatGPT 等大规模语言模型的出现,对于人工智能行业,特别是自然语言处理、知识图谱以及信息检索等领域,将会产生很大的冲击。很多原本需要耗费大量时间和精力的工作,现在可以通过这些模型来快速完成,从而提高工作效率。
从更加抽象的角度来思考,我们可以发现,LLM 对于 KG 的影响主要有三个方面:LLM 为 KG 提供了更好的基础模型,即第一个 LLM for KG;LLM 与 KG 的结合可以带来更加强大的应用,即 KG for LLM;LLM 与 KG的并行应用方式有两种,即 KG + LLM 和 LLM + KG。
如果不考虑对称性,这两种组合方式是不同的。这些变化会对人工智能行业带来更多的创新机遇和挑战。因此,我们需要不断地学习和探索,以应对这些变化带来的挑战。
采用了 LLM(大语言模型)后,知识图谱的工具链将会发生革命性的变化。原来繁琐复杂的生产工具链将会被简化,利用自然语言交互接口,用户可以更简单快捷地获取所需的信息,这样能够吸引更多的受众群体。同时,由于LLM 具备多任务处理能力,其问答和推理等方面的能力也将大大提高,使得知识图谱的应用领域更加广泛,而且能够更全面、更准确地构建知识图谱。
不过,目前的知识图谱仍存在很多问题,比如一阶、二阶、高阶知识、常识知识、时空域知识等等,都需要进一步完善和优化。从共性化到个性化,从领域专业的知识到更细粒度的知识,随着 LLM 技术的不断发展,这些问题也将逐步得到解决。
我们会发现中国翻版的很多技术并没有比外国原版更好。当真正的 LLM 来临时,我们是否能够真正做得比外国更好,是所有人都应该认真思考的问题,而不仅仅是将其视为一场危机。我们需要看到这个系统的机遇和挑战,以及在这个过程中我们需要做哪些事情。有一些事情我们可以不去做,有一些事情我们需要跟随这个系统一起前进,而有一些事情则是新产生的。在之前的交流中,我们已经列出了一些需要去做和不需要去做的事情。
当然,不可能重复所有的事情,我们需要自己思考并听取不同人的反馈和意见。此外,针对于ChatGPT 这样的技术,它本身会存在很多幻觉和谬论,因此我们需要关注它的时效性和来源出处的真实性。这对于医疗和决策辅助领域尤为重要,因为在这些领域中我们需要考虑是否真正信任这个系统。所以,我们需要思考这个系统的来源和真实性,以及如何去验证它的结果。这是一个需要深入思考的问题。
我们看到某个结果之后,要探究其发生的原因的过程中,知识图谱可以发挥重要作用,因为它包含了很多演绎、推理和溯因推理等方面的知识。这对于理解一些复杂的过程是至关重要的,例如我们所熟知的 A + B 的过程。我们需要考虑的是,如果我们将知识图谱作为另一种重要的来源,那么它是否能够与大量数据和参数共存?这是目前许多人正在探索的问题。其中一个比较有前途的方向是和神经符号结合,重要的一点是要解决参数量过大的问题。例如,如何在参数规模较小的情况下实现与 175B 参数相同的效果?如何将知识图谱中的知识外化或卸载,以便将大型模型变小并使用外部知识作为辅助源?这些都是当前正在探索的问题。
前面我们提到现在很多人都在做类似 ChatGPT 的产品,在 “模型即服务(Model as a Service)” 的大背景下,这些大模型如何进行有效管理与协调已经变得尤为重要。或许可以设计与之对应的“控制机构”或“中控机构”,负责任务管理与知识分配。当然,这需要依靠较为专业化的“任务知识”来支撑,而非纯粹的事实知识或事件知识。这些知识更趋于动态性与流程性,具有较高的灵活性。
就这个角度看来,所谓“知识图谱驱动下的 LLM 超级自动化” 似乎正是较为合理的解决方案。这种方式在许多 toB 场景中会发挥重大作用,其发展潜力极其广泛。
刚才我们仅提供了“A for B、B for A、A + B” 三种范式,每一种方式都有其独特价值所在。重要的就是需要沿着这一思路继续深思熟虑。虽然一开始可能感到一切都无从下手,但相信若能适当继续前进,必然会发现全新的可操作空间。就如进入一条隧道,光看见前方似乎暗无天日,但只要继续广而又深地走下去,必然会找到出口。这时,你就会发现柳暗花明又一村,发现有很多东西可做。
我认为大家不应该排斥大语言模型(LLM),也不应该认为大语言模型训练不了。就像早年的人对 AI 的态度一样,他们可能不懂 AI,觉得 AI 和自己没关系。但是事实上,当 AI 时代来临时,你是无法阻挡它的,所以我们只能积极拥抱它。
即使你无法训练模型,至少你可以编写 prompt(提示词),现在提示词工程师都已经成为了一个工作岗位。在许多情况下,通过提供一个 prompt,模型已经能够回答很多问题,并取得了很好的效果。因此,我认为无论在哪个层面,都有大量的工作和值得做的事情,可以对任何技术、场景和应用做出颠覆性的贡献。关键在于你是否有意愿去了解、思考和与周围的人交流。这样你就可以发现很多新场景,例如在科学领域的 AI 应用,以及自动驾驶和智能座舱等领域。当然,由于时间有限,我无法对每个事物都进行解读。这只是我的个人观点,不一定特别成体系,但我希望能够引发更多的思考。
AGI = 大模型 + 知识图谱 + 强化学习?
王文广:在 ChatGPT 出现之前, RPA (机器人流程自动化)并不容易被不懂相关技术的人使用,但现在通过知识图谱和大模型的支持,可以通过自然语言描述业务逻辑,生成自动化流程,从而真正实现自动化。这是一个非常大的机遇,因为微软的 Power Automation 也在做类似的事情。
如果我们忘记过去,只看现在,我们会发现一切都是机会。对于不同的公司和组织来说,ChatGPT 可能是机遇,也可能是危机。ChatGPT 对 OpenAI 和微软来说是一个机会,而对谷歌则是危机并存。
从个人技术成长的角度来看,我们不应该过于沉迷于历史上的技术和概念,而是应该从目前的技术水平出发,思考如何利用它们实现个人价值和目标。当前的技术发展充满了机遇,例如可以利用技术进行个人博客的推广、营销以及其他各种有益的事情。此外,技术的发展也为创业等更大的事业提供了良机。因此,我们应该积极抓住这些机遇,发挥技术的作用。
在讨论人工智能的发展方向时,我们已经涉及到了知识图谱、大模型、强化学习等多个方面。对于熟悉人工智能历史的人来说,这些技术实际上是人工智能三大范式的总结:连接主义、符号主义和行为主义。而强化学习则是行为主义研究的重点之一。知识图谱和神经符号学则继承了符号主义的思想,而大模型则代表了连接主义的成果。这三个方面的组合已经在一些产品中得到了应用,当然 ChatGPT 目前没有将知识图谱集成进去,但是像谷歌的 bard 和 Meta 的 Toolformer 等。从认知科学、认知神经科学等角度来看,人类智能可能就是这三个主义的组合。
因此,我提出了一个公式:AGI(通用人工智能) = 大模型 + 知识图谱 + 强化学习,这可能是通用人工智能的基础。虽然这个公式可能不完全准确,但它可以启发我们思考人工智能的未来发展方向。
王昊奋:这三个参数可以作为一个未知函数的三个变量。大模型虽然已经证明了其性能的优越性,但是它存在一些其他的问题,比如站在 ESG(环境、社会和公司治理)的角度而言,它对环境不友好的内容。其次,知识图谱并不一定是体现知识的唯一方式,因为数据和知识需要相互支持。知识的组织表征和推理能力是知识图谱中的重要方面。最后,一个合格的智能体不仅需要知识和相对聪明的系统,还需要持续进化。行为主义、强化学习、巨声智能等方法都是重要的要素,它们之间存在千丝万缕的关联。
因此,一个合格的智能体需要具备获得认知能力的大量数据和学习知识的能力,还需要具备持续学习的能力,并且可以从感知、认知、决策三个方面进行综合考虑。
另外,更重要的是将 GPT 这个个体部署到各个领域中去,例如数字人、助理和虚拟人等,形成一个复杂的社会结构,类似于人类社会中的群体行为和属性。这种情况下,对于多个智能体的协作、竞争和互补等复杂行为的涌现现象,需要考虑更大的社会范畴。因此,定义单个智能体的能力需要叠加成多个智能体,或者考虑整个社会域中的一些智能体,这将会更有意思。
总之,GPT 这个概念可能会在文化广泛传播的情况下扩散到更广泛的领域。
刘焕勇:我们不需要急于对通用人工智能下定义。其实在 GPT 出现之前,我们对这个东西并不知晓。就当前时间来看,它可能是一个最好的范例,但其中仍然存在很多问题。如果我们进行一些映射,例如对于一个智能体,它可能具备一定的模仿能力,就像小孩一样,他们有模仿能力。这种模仿能力实际上可以连接到当前的大规模语言模型,该模型通过大量的训练可以模仿人类的语言表达形式。知识图谱会有一些常识性的东西,它能规范并且控制住这种模仿能力。
另外,强化学习实际上是一种有反馈的学习方式,可以与周围的人产生各种关系,这种反馈意识可以帮助它更快地学习。如果将这个过程持续下去,至少有一些模仿,那么我认为这是一个比较好的范式。但是其中存在的问题,在不久的将来可能会有其他解决方案出来。
王文广:我们知道现有的模式,包括两位老师也都认为,至少目前比较智能的智能体应该将这三大主义融合在一起,包括知识图谱、大型语言模型和强化学习的组合。虽然我们不知道它的确切组合方式,但某种组合对于当前的智能体来说是必要的。在现实中,包括骨科和病理学等领域也正在融合这三者,这已经在某种程度上实现了。
未来,我相信国内的许多公司都在努力制造类似百度的文心一言等智能体,他们也在考虑如何将这些点融合在一起。
如何做到和 GPT 同级别或者超越它的大模型?
王文广:做到至少与 GPT 同级别,甚至超越它的大模型,这个难度有多高?我们需要多少资金才能实现这一目标?
王昊奋:要想实现至少与 GPT 同级别、甚至超越它的大模型,难度非常高。
这是因为在训练大模型时需要大量的数据,并且数据要具有多样性,涉及到的任务数也要丰富,每个任务所涉及的样例也要足够多。另外,还需要强大的算力支持,通常需要使用大量的 GPU 来进行训练。对于数据量,例如 GPT-3,其训练所需的 token 数量达到了 5000亿,从 davinci 到 text-davinci,我们可以看到训练中使用了大量来自包括维基百科、图书等数据。对于 ChatGPT 这样的模型,还需要大量的对话数据和问答数据作为输入,这是一个动态变化的过程。token 的数量是决定了模型的容量因素之一。数据的多样性,包括涉及的任务数,每个任务当中能看到的例子的不同等,也非常关键。要想出彩,还需要遵循 scaling law (标度律)。
第二点是算力方面,GPT-3 训练需要 1 万个 V100 GPU,根据 V100 和 A100 的算力计算,相当于 3000个左右的 A100,1000块 这样的卡在公有云上训练一个月可能也能训练出来。原本训练一次需要花费 460 万美元,现在可能就变成了 150万美元左右,不过之前总的训练费用大概是 1000 万美元。大家如果去看 OpenAI 首席执行官 Sam Altman 的访谈的话就会发现,未来随着可控核聚变等技术的应用,数据和算力的成本会逐渐下降。也有很多架构方面的优化,例如英伟达推出的 H100 显卡,这相当于是大模型与硬件的摩尔定律比怎样可以做得更好。
此外,另外一个重要的事情是 ARK Invest (方舟投资) 的报告,他们对这一领域做了许多预测。基本上可以考虑到 2030 年左右,同等规模的模型训练成本可能会降低 60 倍或 50 倍。更多详细内容需要大家去阅读报告了解。大家还可以关注英伟达这种机构,了解显卡本身的进化情况,如多卡集群。通过模型和显存的优化,成本一定可以做到更低。
刘焕勇:大规模模型训练需要以经济代价和时间成本为基础,我们应该以发展的眼光去看待这个问题。
经济代价包括模型规模、使用的硬件(如 A100卡)数量以及训练时间等因素,这些可以通过计算来得出具体的成本,大家可以去看一些权威解读。
除了经济代价,时间成本也是一个很大的问题。因为模型训练需要很长的时间,而且需要花费大量的人力和物力来标注、定义和收集数据。时间代价可能会因为不同的人而有所不同,如果时间周期拉得很长,这个代价就会很大。我们可以查看一些报告,例如数据集标注的时间和花费,来计算出时间成本。时间成本带来外部资本的变化,也是一个需要考虑的问题。
我们应该用发展的眼光去看成本和代价的问题,并将其分为不同的阶段和领域。如果我们要做一个完全通用的 ChatGPT 生成模型,那么它的成本将会很高,难度也会很大。
因此,我们可以选择分阶段和分领域的方式来研发 ChatGPT 模型。比如我们不要求它可以话题,只可以聊天就可以,这样成本就会比较低。例如,我们可以在第一个阶段解决 QA 问题,第二个阶段解决代码生成问题,第三个阶段再解决绘制表格和计算公式的问题。这样做的好处是成本会比较低,接受度也会比较高。
虽然 ChatGPT 让人耳目一新,但是我们最好先不要做过多评判谁会先做出来,以及实现的难度有多大的问题。我们应该扎扎实实从技术角度去实现,不管是学术界还是工业界,应该把这个技术应用好,把底层的基础设施建设好,走出一条中国的道路才是我们需要关注的问题。
王昊奋:从用的角度来看,从 ChatGPT 出现以后,尤其是 ChatGPT 整合到了 New Bing 以后,三大流派至少有了一个比较夯实的基座,在上面做一些延伸的事情,开启了一个新的阶段。我相信会有很多有趣的场景会被挖掘出来。从自建的角度来讲,我们如果想造一个和 ChatGPT 类似的东西的话,多说无益,做就可以了。上半年会有若干和 ChatGPT 类似的产品出来,但这并不是终点,这只是一个起点,最后一定能走出一条适合我们的道路。垂类的 GPT 的难度和价值还未被真正解锁,这才是我们下一步要去探索和开启的东西。
王文广:我写了一篇《从Transformer到ChatGPT,通用人工智能曙光初现》文章。随着 ChatGPT 、 New Bing 和谷歌的 Bard 出现,我认为融合了行为主义、连接主义和符号主义的通用人工智能的雏形已经出现。
未来我们还要不断研究如何将这三者更好地组合起来,帮助我们实现更加通用的智能,帮助人来提升智能化水平。我们希望社会能够发展越来越好,生活能够更加美好。我们能够每天最好工作四个小时、每周工作三天,其他的所有事情交给 AGI 来实现,那么我们的日子就过得舒服,就能够去享受我们的生活。希望随着大家的能力,曙光可以变成正午的阳光!
今天《开谈》节目到此结束。