被外界誉为“中国版ChatGPT”的百度“文心一言”,于3月16日正式上线。而就在前一天,微软发布了ChatGPT的最新版本——GPT-4,强大的产品功能迅速燃爆全球。在万众瞩目之下,百度毅然选择抢占先机,迎难而上。百度董事长李彦宏坦言,对标ChatGPT,门槛是非常高的,但百度仍然是全球大厂中第一个做出对标ChatGPT产品的企业



作为百度基于文心大模型技术推出的生成式对话产品,文心一言和ChatGPT到底有着怎样的实力差距?用事实说话,Stepone基智云作为文心一言首批内测用户,给大家带来了真实的使用测评。

文心一言VSGPT-4

文心一言用户界面▽▽▽



GPT-4用户界面▽▽▽



通过对比,我们可以看出文心一言相对GTP-4来说更加场景化,会为用户提示使用场景,用户体验更加便捷。不过,对于顶级科技产品,less is more,智者见智,咱们主要还是看功能,下面我们来分别向两个产品来提出相同问题,看一下二者分别会交出怎样的“作业”。

语言理解

文心一言▽▽▽

感受下语言理解能力。



测一测上文理解能力和相对简单的创造能力。



感受下翻译能力,但是只翻译了成语,而不是上文的一句话。



看一下,图片生成能力,图片的意境你满意吗?



文章生成能力,小智实测,还挺快的。



Robin在发布会上为我们展示了语音生成能力,还是四川方言,我们来测一下吧!



然而,文心一言并没有唱,而是让我们去平台搜。可能是提问的姿势不对,让我们再试一下!



貌似还不可以,是不是文心一言只支持说话,不支持唱歌?

https://www.zhihu.com/video/1620072102027046912

终于成功了,发音还蛮标准。

GPT-4▽▽▽

下面,我们将同样的问题,复制到GPT-4。

让我们看一下整体效果。







通过对比,我们可以看到,GPT-4确实有着强大的语言理解能力,但是并不能直接生成语音、图片,中文知识库并没有文心一言全面。不过,OpenAI公司旗下的DALLE和Whisper可以分别完成AI绘画和语音生成任务。

逻辑推理

文心一言▽▽▽



GPT-4▽▽▽





仔细推算一下,文心一言的结果并不正确(答案:蜘蛛5只,蝉6只,蜻蜓7只),GPT-4并没有算出答案(蝉是1对翅膀,所以GPT-4没有解答出来)。 今天发布会上,李彦宏表示虽然这样的提问还不能保证全部都做对,但是已经十分强大了!

代码编写

文心一言▽▽▽



GPT-4▽▽▽



二者都具备代码的编写和修改能力,GPT-4的回答更加细致到位。

知识产出

文心一言▽▽▽





GPT-4▽▽▽





在这里,GPT-4更理解问题的意图,并给出了相对符合要求的建议。但是在生成答案的过程中,出现了数次的卡顿,而目前文心一言的内测体验十分的流畅。两款产品都没有主动询问用户的性别、身高、体重等,也没有给出食物的具体分量,想要达到这样的效果应该还需要大量的训练。

场景应用

将文心一言和GPT-4应用到智能客服场景效果如何?

文心一言▽▽▽



GPT-4▽▽▽



通过对比应用场景的解决方案,即使文心一言回答的很全面,但是GPT-4相对更加贴合实际场景,能够把自己角色定义为客服,给客户相对便捷的回复。

最后,大家十分的关心二者的区别,谁的AI能力更强大,那么下面我们来问一下他们的“自我认知”。

文心一言▽▽▽



GPT-4▽▽▽



(存在bug,文心一言并非腾讯的产品)

百度对AI的投入可以追溯到10年前,这次百度将长期的投入和积累“打包”于文心一言,业内反馈褒贬不一。

Stepone基智云CTO白峻峰认为,文心一言作为大语言模型,从发布的五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成,已经基本具备了逻辑推理和生成,作为目前数据训练来讲,表现还是很不错的。接下来从开放内测到公测,逐步去增强人类反馈、强化学习,未来大有可期。作为百度文心一言的首批用户,Stepone基智云目前正在积极内测体验中,后续将会第一时间为大家带来更多真实的使用反馈,敬请期待。