出品 | 搜狐科技

作者 | 潘琭玙


3月15日凌晨,GPT-4强势空降。

此前的 ChatGPT,用户只能输入文字,而 GPT-4 实现了识别图片内容并给出答案,能读取“梗图”,并准确说出“笑点”。此前大众所期待的能写诗、写歌、会说笑话的AI在短短几个月内成为现实。

OpenAI将GPT-4称为“里程碑”式的模型,它是否如宣传的那般智能?与此前的GPT系列模型相比,它到底在哪些方面有所改进?在实际落地场景的应用以及对于上下游产业又将产生哪些影响?对此,中信建投的分析师在GPT-4沟通会上一一给出解答。

“客观而言,GPT-4与GPT-3.5的区别在于,从此前单纯的文本输入到能够同时接受图像和文本的输入。”中信建投人工智能首席分析师于芳博表示。

他指出,GPT-4将图片转化成新向量,然后在其技术模型中进行推理,进而输出文字答案。但总体而言,GPT-4的技术原理与训练机制,基本上与GPT-3.5一致。

针对GPT-4的创新,于芳博表示,首先在于其强大的识图能力,“客观上来讲,它的OCR技术已经非常强了,可以识别很多手写的内容。”在官方提供的案例中,像物理题内也有很多图片,GPT-4能够自行识别图片,并按部就班将正确答案输出。

对此,中信建投电子研究员庞佳军指出,GPT-4实现了将图片的识别与文字生成这两个技术相结合。他从底层算力支持的角度上分析,会更加关注显存和计算的开销。多模态实际上是以算力为基础,又增加了其他的编解码模块来提升时效性。

再往后发展,若GPT的迭代能够实现将视频和更多更大尺寸的图像接入进来,庞佳军认为,“到那时芯片完成任务所需要的视频编解码和图像识别能力要在现有的芯片规格上进行进一步的提升。” 他也提到,龙芯中科在近期表示,他们面向算力的芯片正在增强芯片的图形计算能力和AI计算能力。

另外,中信建投传媒与互联网分析师杨晓玮提出,GPT-4的图片识别能力将有助于游戏、虚拟人、图片和视频相关领域的发展。在游戏行业,AIGC技术将有利于降本增效,压缩游戏制作成本和制作周期。另外,也有助于游戏体验的升级,提升与NPC的对话交互的实时性。在虚拟人赛道,GPT-4将辅助虚拟人从单纯表形到表意的进阶,提升对话交谈和交互的逻辑性。

在图片识别能力之上,OpenAI的演示中最令人意外的一幕是GPT-4通过识别一张手写的网页草图,在十秒内便输出了可运行的网页代码。对此,于芳博认为,“这意味着我们许多通过笔和纸简单勾勒的内容创新,或许可以通过GPT-4实现真正意义上的业务落地。”

此外,GPT-4的文字输入和输出能力更强,目前其可实现的输入文字大概可以达到32,000个tokens,对应文字是2.4至2.5万的文字水平,此前GPT-3.5仅能做到3000字左右。对此,中信建投计算机联席首席分析师金戈表示,有两个应用场景很契合GPT-4这一更新,一个是办公软件场景,另一个是视频会议场景。

他指出,微软的Teams、zoom等视频会议软件已经接入部分AI功能,能够实现会议纪要的整理与会议模板生成。事实上,GPT-4能够解决的问题是降本增效,而GPT-4在视频会议与办公软件上的应用能够提升会议与办公效率。

另外,OpenAI也提及在其预训练的过程中,GPT-4的上下文长度已经达到8192毫米,也就是说滑动窗口更大,它在整个学习的过程中,上下文的学习更广泛,也能够关联更多内容。

同时,于芳博指出OpenAI训练过程中的“划时代意义的创新机制”,是构建了一个可预测的深度学习堆栈,用千分之一至万分之一的计算量,在训练的过程中对模型性能进行准确预测。若模型水平无法企及预期可以及时中断,再进行调整,因此能够加速训练时间,节省成本。

但基于此,GPT-4模型的参数量相比起GPT-3.5将会多几倍以上。此前,有消息称,“GPT 3 有 1750 亿参数,而接下来的 GPT4 的参数高达 100 万亿。”OpenAI很快辟谣,OpenAI相关团队成员证实,GPT4 的参数量仅会比 GPT3 稍大一些。于芳博指出,“GPT-4的参数量级我们推测会是千亿级但接近万亿。”后续伴随着图片的输入,模型越来越大,对于算力的需求,或将呈倍数增长。

对此,中信建投通信分析师刘永旭也表示,这将会极大地影响算力网络基础设施。他指出,传统的数据中心里的网络架构会倾向于“重算力,稍微轻网络”的形式,而对于人工智能所需要的AI数据中心,会使用“既重算力也重网络”的架构,相比较而言,交换机与光模块的数量都会提升。另外,在光模块方面,预计CPO方案的技术演进和产业化应用,可能会随着人工智能计算需求的提升而加速推进。