首先,将 2023 年称为 AI 纪元在我看来也没什么不合适的:虽说 ChatGPT 在去年就已推出,但真正在国内大火还是在今年的事情;而在这个月,OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型,又让一大波基于 OpenAI 的二次开发的工具类软件大火;在今天,微软在发布会上再度宣布将把 ChatGPT 整合进 Microsoft Office 套件中。一时间,AI 仿佛成为了最近最「潮流」的词语。

而如果我们将时间倒回两年之前,就能看到其实百度早在 2021 年就已经入局 AI:文心大模型的第一个版本早在 2019 年就已发布,此后的每一年都会发布一个新版本。不过直到 ChatGPT 在国内大火后,百度才推出了自己面向公众的自然语言处理工具——文心一言。

2021年【百度世界】大会上,李彦宏和撒贝宁交流百度关于AIGC的探索

「文心一言」是什么?

百度官方介绍:

文心一言是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。 文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

为了更好的了解文心一言的能力,我们不妨就来试试文心一言「主打」的这五个能力,看看他们的能力分别是怎样的。


1 文学创作能力

在这个 Prompt 中,如果想要生成一个满足条件的、生动的爱情故事作品,难度适中。而且比较考验 AI 把控情感和主题线索的能力。

来看看文心一言的表现:

总的来说,文心一言在文学创作方面,与其说是「爱情故事」,倒不如说是第三人称叙事,还远远没有达到文学创作基础的门槛,前后逻辑不太相符,基本能勉强实现 Prompt 中的指令。不过文学创作方面本身就比较困难,因此也可以理解。

2 商业广告能力

在中国特色的社会主义生活中,我选择了双十一节日中的广告词,每年一次的双十一活动,不少创新型的广告风格,但有些真的是「可圈可点」,丧失了广告词的精髓。在这里,我们来看看文心一言的广告创造能力:

明显出现了问题,不符合最后一次prompt的提问,想要的答案应该是想ChatGPT那样,会揣摩人提问的方式,比如:

「ChatGPT」已然比「文心一言」高出一个层次,然后 GPT-4 模型在这种要求的商业广告能力上也显得力不从心,看来商业广告的生成还是有很大难度。需要继续积累数据,训练模型,逐渐提高此方面的能力。

3 数理逻辑推算

为了去更好地验证「文心一言」的数理逻辑,简单从初中数学和逻辑思维两个角度去提问。

看上去还有很大的提升空间,现在已经有很多人测试过,在这里不做过多赘述。

很明显有问题,基本不符合prompt的指令要求,这个回答,竟一时让我不知从哪开始反驳。可见「文心一言」的 AI 模型目前连最基础的数字运算都还不完善。再来看看「ChatGPT」的回复:

总的来说, GPT-4 还是有一定的的逻辑能力。

4 中文理解

这个在我最初的理解中,应该是文心一言的强势部分。毕竟「ChatGPT」中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上,我选取了白话文、古诗文、典故三种中文形式进行测试

1)白话文理解

在白话文的测试中,我就选去情侣之间经常说的一句话:

在这句话里,「你给我等着吧」有一种略微的威胁、生气以及有些开玩笑的语气成分在。来看看「文心一言」对于这句话的理解能力:

在这个测试中,文心一言比我想象中的,类似于「意思是是在等待另一方」的回复要更加正确一些。但是相比于 GPT-4 模型的更加完善、全面的解释,文心一言显然只体会到了其中略微威胁、生气的情感。

2)古诗文理解

在这一个部分中,我选取了《茅屋为秋风所破歌》的「安得广厦千万间,大辟天下寒士俱欢颜」一句。

对于这种非常经典的内容,理解都还不错。

3)典故理解

本次我用选择「沉鱼落雁,闭月羞花」的典故来测试。

可见典故理解的算是基础,实际上没有理解「沉鱼落雁,闭月羞花」的具体意思,正确的理解应该是每一个分别有一段故事。

5 多模态生成

多模态生成应该是文心一言相比于「ChatGPT 」的优势(我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型)。

对于常见的 Prompt,文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格,但是可以通过 Prompt 来改变风格。可惜在生成过程中,还是犯了文心一言的老毛病:不严格遵循 Prompt 的要求。尤其是下面第二幅图,只画出了「一个人」,其他的要点都没有展现在图片中,这是目前文心一言一个很大的问题。

但是对于一些要求奇怪的 Prompt,比如「请你画一只热爱中国的猫」,他就会完全傻掉:

可见「文心一言」的多模态生成还有很多提升的空间。至少先让生成的画作能严格符合 Prompt 的要求吧。

4 总结

通过上面实际体验的截图,可以看出文心一言文字的生成质量还欠缺很多,并且多模态生成的图片也有提升的空间。但文心一言也有自己的优势,例如可以在国内网络环境下直接体验、可以生成图片等功能。

百度作为国内最早入局 AI 的企业,但最终效果不尽人意,其实也间接说明了国内互联网环境的一些遗憾,例如充斥着大幅无意义的内容。

而且,国内互联网很难提供一个合格的训练环境。例如知乎作为国内最大的问答平台,并没有提供一个反选「最佳回答」的选项,而有些知乎问题的最高赞往往是一些抖机灵的答案,给 AI 训练增加了很多难度,因此文心一言目前效果不尽如人意也不完全是百度的责任。

或许再给百度一段时间,文心一言的模型能做得更加优秀。相信文心一言也能随着迭代,克服不足,让亮点更亮。正如《离骚》中所写的:路漫漫其修远兮,吾将上下而求索。