人工智能开启狂飙进化路,见智研究(公众号:见智研究Pro)特邀中信证券研究部高级副总裁【丁奇】一起来聊聊人工智能GPT4的最新进展,并将核心内容整理如下:

摘要:

1、多模态带来成本的提升是非常正常的。

2、科技越往后成本会越低。从长远来看,OpenAI 的边际成本将无限趋近于 0 。

3、人机交互界面的改变是GPT3.5开始被产业界重视的原因

4、多模态4.0的本质:所有的文字,语音,图像,视频都可以抽象成一组向量。GPT本质上就是一个向量的输入,通过它的相关性输出另一组向量,从而转换成图像、语音或者视频,本质上是一样的,不同的是所消耗的算力资源。

5、现在其实有两个革命,一个是能源革命,基于锂电池,从过去的化石能源到我们的现在的锂电能源。另一个革命就是以ChatGPT为代表的 AGI通用人工智能,未来在有了更灵敏的机械反馈后,机器人就是最大的一个应用场景,但数字人一定会比机器人更先应用。

6、 AI演绎路径:肯定是先软件后硬件,先云端,后端,最后是边端。

正文

丁奇:微软将GPT4嵌入Bing、Office全家桶这是一次天作之合。GPT4的核心就是多模态,能够生成文字、图像和视频,这对搜索引擎和办公有非常大的促进作用,像搜索引擎的核心需要的不仅是链接,而是答案, GPT4就可以直接生成我们想要的具体关于某个问题的答案。

我们平时一般通过办公软件、PPT、Word、Excel来生成内容,现在GPT成了非常强大的助手,比如一键生成PPT,极大促进了办公效率。所以我们认为微软和OpenAI合作必将对生产内容带来革命性的变化,也希望国内相关办公软件尽快推出相关的功能,让人享受到办公的便利。

见智研究:如何看待GPT4 的运行成本?

丁奇:首先GPT4现在并没有公开论文说参数到底是多少,不过360董事长周鸿祎先生根据GPT4的效果做了一个预估,可能是万亿量级的参数。不过这点对于成本来讲还没有那么重要。

另外,过去的计价和现在的计价,都是基于token,现在的单位计价贵了30倍左右(过去是1000个token0.002美元,现在是0.06美元)。为什么会更贵了?因为token的计价方式不同。通用计价方式是你看输入的参数,现在输入同样词更贵了,因为不能光看输入端的成本,还要看输出端的成本。过去的输入和输出都是文字,所以成本是比较低的。而GPT 4.0输出完全可能是图片,甚至以后是视频,输出量是大幅增加的,所以多模态带来成本的提升是非常正常的。

见智研究:GPT 3.5 Turbo为什么能做到参数量更多,但是价格反而更低?

丁奇:3.5相比3.0,核心参数在调优后是有所下降的。成本可以分为两块,一块是训练成本,一块是推理成本。从3.0之后,模型是做好了一个大概的训练,很多成本是有所摊销的,到了3.5之后,大家摊的更多的是推理成本。

科技就是这样的,在一开始的时候肯定是贵的,因为它有大量的研发投入、大量的基础设施投入。当然越往后它会越便宜,因为用的人越多,成本也会分摊的越多。

所以OpenAI 说,从长远来看,它的边际成本是无限趋近于 0 的。其实就像我们现在的搜索引擎一样,现在点一次搜索成本是极其低的。只不过 4. 0相比过去的 3. 5生成的内容不一样,图像、视频对网络带宽、计算量消耗很大,所以短期成本也会提升。

见智研究:GPT4发布后,如何看待之前版本的价值量?GPT1、2、3、3.5到4代大模型的演进变化是怎样的?

丁奇:1. 0 是 2018 年出的, 2. 0 是 2019 年出的,但是其实在产业界没有激起太大的水花,都是 transformer往 NLP(自然语言理解)上的尝试。过去在NLP上大家体验效果其实不太好的,比如语音的转写,翻译效果其实是不太尽如人意的。

过去的人工智能,它的主要算法是基于CNN, RNN, LSTM这三种。它在模仿人的神经元,认为信号是从一个神经元传递到另一个神经元的,也就是从一个单词找到相邻单词之间的相关性。这种方法在图像上特别有效,因为从图像上来讲,相邻的颜色,纹理都会很相似,也诞生出了人工智能的CV领域。

但是像语音、文字就不一定是相邻相关的,需要结合上下文的语境,甚至在前几章就可能埋了伏笔,需要对上下文要有一个完整的记忆和解读。关键就是如何让机器能够实现语境理解。

Transformer 架构提供了一个非常好的思路。既然我们生活中的理解、智慧、经验跟很多东西都相关。那就把参数组扩大,一直扩大到十亿或者是几十亿的范围。这样就能从各种各样的训练数据里找到更多的相关性。

之前Transformer 架构没表现出厉害的特质,本质上只是做一个统计相关。当它只有 1. 17 亿参数的时候,也就是GPT1.0,大家也没有觉得多了不起。到 GPT2. 0 的时候,大概 15 亿的参数,大家也觉得好像也没有什么特别大的突破。GPT3.0 到 3. 5,大家就发现发生了本质的变化。当它的容量扩到上千亿参数的时候,可以想象关联了多少知识在里面,这个时候它的准确率就有一个飞跃。所以直到GPT3.0 和 3. 5 问世才被产业界真正开始重视起来。

3.5 跟 3. 0 的根本区别在于改变了人机交互的界面,这是非常大的一个突破。InstructGPT能够更好的将语言模型和人类的意图、偏好进行匹配,并且在反馈的机制上进行微调。而 4. 0的本质就是多模态了。

见智研究:多模态是如何实现的?

丁奇:无论中文还是英文,常用词也就上万个词,完全可以用矩阵做一个编码。图像其实是由像素点形成,每一个像素点是由三种颜色涂在一块,是三个数字的小矩阵,把若干个矩阵连在一起,就会形成一个大矩阵。图像本质上就是这样的。

每一个语音就是一个正弦波,对它抽样,它也变成一组数字视频,其实就是一张图像把它叠起来,所以本质上所有的文字,语音,图像,视频都可以抽象成一组向量。GPT本质上就是一个向量的输入,通过它的相关性输出另一组向量,向量转换成图像、语音或者视频,本质上是一样的,不同的是所消耗的算力资源。所以为什么能实现多模态?因为本质上都变成了一组矩阵,所有的东西都可以抽象成一组矩阵,这是能变成多模态的底层原因。

其实我们做Transformer 也好,做这GPT也好,根本目的是想使用一个通用人工智能( AGI)做到在不同的情境下都能用。过去都是专用人工智能,比如专门做人脸识别的,专门做车牌识别的,或者专门做工业检测的,都是在某些专业领域的。人机交互一定是多模态的,这也是为什么 4. 0能够让业界感到欢心鼓舞,这是意味着我们离 AGI 更近了一步。

见智研究:GPT4应用具有怎样的想象力?

丁奇:搜索一定是落地的第一个场景,比如New Bing最先接入;其次就是办公软件,比如office365;电子邮件、视频会议也是生成内容类的场景。此外,像服务机器人、智能客服也是非常好的应用领域。

现在其实有两个革命,一个是能源革命,基于锂电池,从过去的化石能源到我们的现在的锂电能源。另一个革命就是以ChatGPT为代表的 AGI通用人工智能,未来在有了更灵敏的机械反馈后,机器人就是最大的一个应用场景。

数字人一定会比机器人更先应用。因为机器人受掣肘的地方比较多,包括续航、关节自由度等等,落地的困难要大很多。如果是数字世界里面的一个数字人,它的到来可能就会快很多,比如主持人、直播带货、数字明星等等。

此外,对游戏行业的影响也很大,特别是能够直接大幅降低游戏的开发成本。用AI画图能够极大提高游戏创意师的工作效率。

未来AI机器能够替代很多简单的工作,所以人的创意,人的思想就变得特别重要。所以我们觉得对于内容创意者会带来特别大的需求提升。

见智研究:AI 产业是硬件迭代的速度更快,还是应用侧发展会更快?

丁奇:我觉得要分两个阶段,初期一定是应用会更快,现在海外有很多的企业都接入了API 接口。国内也有百度的文心一言,后面也会开放API 接入很多的应用。

现在看起来国内和海外的发展路径非常类似,有一两个企业做出一些通用的大模型,接入API后向上层的应用软件进行拓展,就可以极大提升效率。Office365 就是一个很典型的代表。

硬件的迭代要取决于几个条件。云端的硬件就是以GPU 服务器为代表, 国内相比英伟达还是有一定差距的,不是短期之内能够迅速追上的。而云端,我们相信以后在端侧也会有一些智能硬件,这些端侧硬件现在的计算能力、内存能力,肯定是难以支持千亿参数的大模型。

而一些应用变得智能,也需要对大模型去做剪枝。可能对参数范围进行圈定,在特定领域有特定应用,从一个大模型变成一个专用领域的特定模型,使得一些边缘侧的智能硬件也可以用。

我们认为首先起来的是云端的软件,以一种 SaaS 化的方式给大家提供。其次就是云端的硬件,因为云端的硬件要怎么去做,其实已经有标杆在那里了,只是大家要踏踏实实地基于路径去做。

后面才是端侧怎么做,现在 open AI 也没有答案,大家现在的精力也不在这上面,但我们相信未来的这些硬件一定会被智能化的,所以路径肯定是先软件后硬件,尤其是先云端,到后端,最后是边端。