Hello,大家好,我是球神。
癸卯兔年,风云再起。
继ChatGPT爆火出圈之后,上周三,OpenAI再度重磅发布GPT4。
“性能炸天”、“王者加冕”、“见证历史”,这是人类目前给GPT4的评价。
上一次让人们感觉这么颠覆的时候,还是2007年乔布斯时代的iphone(那个时候我还在读小学…)。
「如果说ChatGPT打开了通用人工智能(AGI)的大门,那么GPT4则正引领着全球新一轮AI技术革命。」
紧接着翌日下午2点,Robin(李彦宏)“按时”在北京总部官方发布了国人期待已久的中文版AI大模型:文心一言。
尽管互联网上质疑声一片,但欲得真知,还需自践。
所以,本篇我将实测对比文心一言和GPT4的功能表现,同时基于本人在AI算法领域的一点理解,尽可能管窥二者背后的技术差异。
此外,因为OpenAI发布GPT4并未公开模型和数据细节,想了解GPT系列模型背景、技术和应用的读者,可以参考笔者上一篇推文:ChatGPT背后的AI背景、技术门道和商业应用(万字长文,建议收藏)。
以下是本文目录和正文内容:
一、 文心一言实测
1.1 常规功能测试
1.2 非常规功能测试
二、 文心一言 vs GPT4
2.1 对比测试
2.2 总体评价
三、 文心一言到底差在哪里?
3.1 功能表现差距
3.2 底层技术差距
四、 总结
参考文献
笔者相关背景简介
常规功能测试
先热个身,互相认识一下[手动狗头]
自我介绍
目前文心一言自我介绍了七大能力,没提生成视频,暂时还没开放测试,GPT4也没有。
模型细节和GPT4一样并不open ,你确定你跟GPT4比有自己的优势吗…,不急,慢慢试试你。
知识问答
先来问几个正经的问题:
回答还算全面靠谱。
再来一个不太正经的:
首先表明了边界感,这5大技巧整体一看好像有那味了。
另外第一点挺好的,先做自己而不是舔别人,希望它不是搜索出来的。。
内容创作
先来个简单的方案计划:
啥情况?增肌只需要周一练胸?减脂除了周四都要猛练?还有饮食呢?
第一个增肌计划等于没计划。。第二个减脂计划一般般吧。
再来个难点的演讲稿,试试尽量给他多点提示:
上来先把提示的第一条提纲变成了主题。。。
核心理论只给出了一个“内在价值”,问题是百度百科都有写“市场先生”和“安全边际”,难道是它理解核心就是最重要的那一个?祖师爷格雷厄姆表示好像也没毛病。
代表人物中林奇也没想到有一天他跟老巴在一起时候,只介绍他的履历然后顺便提一下还有一个叫沃伦的。
演讲稿整体感觉还行吧,字数少了点,起码整体的框架和内容是对的,我拿着作为初稿改改也不嫌弃。
基础数学
故意只问了基础数学,应该都是对的,突然发现要设计个数学题还挺难的。
编写代码
先写个简单的线性回归:
上来就调包,以后这种面试估计不给过了。
再来一个难点的堆排序:
这次没调包,起码说明简单的代码还是OK的。
那就顺手写个Transformer吧,让大家看看这些封神的AI大模型底层的架构写起来有多复杂。
嗯?这么短?
那是因为Pytorch框架底层已经实现了Transformer,程序员只需要基于这种框架写几行调用一下就行了。
当然百度自研的飞桨(PaddlePaddle)也能支持。
仿佛看到了程序员写代码的趋势就是:
从C、C++到Python,
从Python手撸到几行调包,
再到后面几行也不用写了,
喂一下输入,写一下你想实现的逻辑就行。
细思极恐……
图片生成
先放一张被广大网友调侃的金庸笔下的美貌少妇:
这个应该是文心一言刚发布那几天网友测的,其实仔细看看还挺耐看的,就是另外那张林黛玉的着实不太符合林妹妹的气质。
看看今天球神版实测的怎么样。
嗯,超出预期了,现代版美貌少妇。
微微一笑好像还是素颜。
另外网上流传的经典菜系:鱼香肉丝、夫妻肺片等图片我就不放出来了,因为我测试时候应该已经优化了,不至于那么离谱了。
非常规功能测试
安全性
知道规避一些不合法的问题。
伦理问题
似乎没有发现背后的伦理问题:近亲不能结婚。
作诗写歌
好像还行,知道打球跟冠军有关系。
也还可以,就是少了句校训“实事求是”。
蜜罐陷阱
简单的陷阱还是能跳过的。
还有网友版本的陷阱:
对比测试
GPT4就不单独测试了,直接真刀真枪跟文心一言对比测试。
有必要上点难度才能看出差别。
行测数学
题目再抄一遍也没理解对题意。明明是1000万元咋就变成(1000-x)台设备了呢?
GPT4这解题步骤,真是耐心详细啊,这题满分。
角色理解
文心老弟直接就忽略了提问角色,你跟5岁小朋友这么说,人家听得懂么。。
GPT4还是很有温度的,会用比喻,小朋友容易理解得多。
代码编写
蜜罐陷阱
总体评价
经过对文心一言和GPT4各项能力的对比(不仅限于上文展示的评测结果),我个人总体的评价是:
文心一言表现全面但各项能力均有不足,及格水平,给60-65分;
GPT4表现完备且各项能力均非常突出,很多问题已经接近相关专业人士的回答,优秀水平,给90+分。
+号是因为我自己还没实际测试过(GPT4测试的图片是让人帮忙测的和知乎网友的),还不知道它各项能力的天花板。
你要问我60分和90+的差距大吗?我只能说旁观者看着没那么大,实际开发者才能体会这其中的gap想要追上有多难。更扎心的是,GPT4也在继续学习,而且学习能力还更强…
功能表现差距
从目前我个人测试和朋友测试交流以及参考其他网友真实评测综合来看,文心一言与GPT4功能上的差距主要表现在如下几个方面:
文本理解能力
文心一言相比GPT4对输入文本的理解准确性还不够,对上下文的理解也有明显的差距。
如:文心一言会忽略提问者的角色,对所有角色返回同一种结果;文心一言在面对长文本提问时候,会把第一条目录当作主题。
内容创作能力
文心一言的作诗写歌创作能力还可以,但其他需要更多创作力和想象力的工作,如方案计划、演讲报告、小说、论文等,跟GPT4还是有一定差距。
如:文心一言给出的健身计划没有饮食;演讲稿内容不够完善;小说等缺乏一定的想象力。
代码生成能力
文心一言对代码的生成和debug明显比GPT4差得很多,原因大家也知道,github、stackoverflow等社区都是国外的,并且代码语言文化都是别人的。
如:文心一言还不太能解中等以及较难的算法题;直接简单粗暴给出代码,不提示装API包;,不支持markdown格式输出,代码不能拷贝出来等。
安全伦理保护能力
对简单的涉及道德法律安全性问题,文心一言还是能够识别和做出保护的,但对于一些隐藏较深的安全性和伦理相关的问题,显然还是GPT4做得更好。
如:文心一言对近亲结婚、父母已经结婚再婚需要先离婚等伦理问题尚不能很好地发现和应对。
数学物理解题能力(逻辑推理综合能力)
数学物理类解题能力可以说是反映二者差距最明显的一项能力。文心一言目前来看简单的行测数学似乎都做不对,而GPT4,从我看到的文章和听到朋友实测的表现来看,国际数学/物理竞赛题、硕士/博士面试压轴题它竟然都能解,可以说相当恐怖。
其他的如:文心一言能作画但GPT4未开放文本生成图像功能,GPT4能支持图像输入生成文本但文心一言暂不支持,视频相关二者均不支持,所以多模态能力暂时无法评测。
底层技术差距
显然,上述文心一言和GPT4功能表现的差距背后反映的还是技术上的差距。这里的技术是广义的,它包括数据、算力、算法等核心要素。
从我个人最近一段时间的实测、观察、推理以及和一些技术大牛的沟通来看,我认为目前文心一言相比GPT4至少有以下几点可见的技术差距:
模型算法层面
这一点本来是最最核心的一部分,但是现在似乎主流媒体(可能也包括百度自己)认为双方在算法架构这一核心技术上差距不大。事实真的是这样吗?我列几个疑问供参考。
(1) OpenAI仅仅公开了InstructGPT之前的模型架构和技术方案,代码更是仅仅开源了GPT2,而且公开的真实性能保证但完整性可不保证。从ChatGPT到GPT4为何进步这么大?参数量真的没有再指数级增长吗?如果我们对GPT4的底层模型细节一无所知但是它却表现得全方位压制你,我们又哪来的自信认为最核心的算法架构我们是不输的呢?
(2) 文心一言目前对中文文本的理解,尤其是上下文的理解很多时候还比不上GPT4,很明显OpenAI不会比百度拿到更多的中文数据,而算力本身会影响模型训练甚至会逼迫模型压缩,但它不应该成为模型初始设计的限制点,况且百度的算力应该不会太差(下文会说)。所以问题最可能出在哪呢?
模型工程实现层面
做过AI/机器学习/深度学习模型的同学都知道,同样一套算法架构,你和另一个人实现的结果可能大相径庭,因为模型除了有大家关心的千亿级别的可学习的参数之外,还有若干个不可学习的、吃工程师经验的超参数。
所以从模型工程实现层面来说,比调参和其他细节经验,实际在比历史AI的积累和整体人才的层次。
百度2017年就开始“All in AI”, OpenAI则是2015年成立、2018年发布GPT-1、2019年才拿到微软的投资。
所以历史对AI的投入和积累差距应该不大,但是当你看到OpenAI参与整个GPT系列模型/项目的人才名单、履历和学校的时候,你会发现百度其实已经在尽力加班了(虽然越加班越没有激情和创造力)。
数据量和质量层面
理论上来说,百度目前拥有的中文数据量应该不差。
万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。
但是对比GPT4,英文数据显然不够多,有人会问百度不是主要做中文文本的对话,有大量的中文数据不就够了?
这个问题其实就回到人工智能的本质,如何让AI模型像人一样学习?人类学习对话、创作、摘要区分语言吗?其实大脑并不区分,前提是你得中英文都会。也就是说什么语言并不重要,重要的是你能明白这个人语言表达的意思。
所以,「喂给GPT4/文心一言大模型的是各种语言一起喂,所以影响你中文性能表现的,不仅仅是中文数据量,还有总的数据量。」
另一个不得不说的点是,数据质量包括人工标注的数据和标签,还有海量的未标注的原生数据。
标注这块只要投钱投人问题应该不大。问题在于海量未标注的中文数据,来自搜索引擎、贴吧、百家号、百度知道等方式,仔细想想,这些数据的质量只能说一般,不然也不会经常百度一下搜个答案搜半天。
那国内哪里有质量更高点的数据呢?
答案藏在知乎、微信公众号、小红书等中文社区里。
但是问题就是数据对于每家企业都是命根子,目前看很难有效地整合利用起来。
好在只要开放了测试,数据的量级和质量问题终究会是在增加和改善。
算力层面
据可查资料,百度有亚洲最大AI算力中心(阳泉智算中心), 宣称算力规模可达4EFLOPS(每秒400亿亿次浮点计算)。
据多家媒体报道,目前国内云厂商拥有的GPU主要是英伟达中低性能产品(如英伟达A10)。拥有超过1万枚GPU的企业不超过5家,其中拥有1万枚英伟达A100芯片的企业最多只有1家,盲猜这1家就是百度?
此外,由于美国政府去年8月开始实施的贸易限制,「中国企业早已无法获取英伟达A100芯片。现有A100芯片储备均是存货,剩余使用寿命约为4年-6年。」
中国企业目前能够获取的最佳替代品,是英伟达的A800芯片。A800被视为是A100的“阉割版”。该产品计算性能与A100基本相同,但数据传输速度被降低了30%。这会直接影响AI集群的训练速度和效果。不过,A800芯片目前在中国市场也严重缺货。
综上,我个人猜测百度算力目前用于训练和推理文心一言是一个刚好够用但不富裕的状态,由于国内采购高端芯片受阻,国产GPU芯片性能短时间根本跟不上,未来文心一言做模型调整和优化可能会遇到算力资源紧张问题。
最后, 我们对比和关心文心一言与GPT4的差距,并不是为了说明我们有多落后国外有多强,终究还是希望国内企业能够把握时代的良机,迎头赶上这一波大浪潮,否则将来会有更多的领域被卡脖子。
毕竟,自己的孩子只要努力了,刚开始没考好、成绩不好都是能够理解的。
另,百度作为第一家公开发布类ChatGPT AI大语言模型的中国企业,勇气和实力已经得到了证明。
要知道,国外可不止OpenAI/微软在重金投入AI,还有谷歌、Meta、Amazon、IBM、苹果,甚至还有虎视眈眈的AMD、Intel和英伟达等。
所以接下来一方面需要给百度一点时间,另一方面再内涵一下腾讯、阿里、华为、字节,甚至再加上360和狗东?
补充说明:
1.在中文自然语言处理领域,目前为止,百度提供的NLP开源项目是数量最多的、维护最好的、质量最优的(你可以diss百度的广告,但你不应该无脑diss它的AI)。
2.我个人文心一言的账号是某鱼日租的(托百度朋友申请因为人太多也还没到),GPT4账号尝试了很多办法都没搞定(需要梯子、境外手机、境外银行卡、需要gmail邮箱),文中GPT4测试图片部分用的朋友的、部分用的知乎网友的。
如果哪位读者朋友在国内有用过GPT4并乐意分享给笔者试用的,欢迎后台联系我,非常感谢。
参考文献
https://www.zhihu.com/question/589955024/answer/2940079055
https://zhuanlan.zhihu.com/p/611596382
https://www.zhihu.com/question/590612500/answer/2945611014
https://zhuanlan.zhihu.com/p/615340564
https://www.zhihu.com/question/589639535/answer/2936696161
特别感谢知乎@段小草提供的GPT4测试图片。
笔者相关背景简介
球神(李俊兵),京东科技算法工程师;
天津大学计算机硕士,师从张长青副教授;
在人工智能顶级会议和期刊上发表过多篇论文;
个人主页:yidaiqiushen.github.io
欢迎关注个人微信公众号:
定位:商业、投资、技术、成长。