本文一共分为三个部分,文心一言的使用测评、关于文心一言的一些思考以及能够更快的拿到邀请码的小技巧(彩蛋在最后,不要走开~),我在17号就拿到了文心一言的邀请码,拿到之后立刻开始了我的体验,不过在展示测评开始前,还是想写一些文心一言的边界:
- 文心一言的回答最多支持5次重新回答
- 单次输入prompt最多为1024个字
- 在界面停留5分钟没有操作后会自动刷新进入新的对话
- 目前暂不支持视频和语音
一、文心一言使用评测:
百度 CEO 李彦宏在这次发布会展示了文心一言的五大能力:文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成,我们就根据它的能力展开测评。
- 文学创作
文学创作上它能理解我的意思,文章内容来看丰富度和故事性还是缺失一些,初中到高中的水平吧。据称,文心一言的对语义的数据量训练已达万亿级网页数据和数十亿的搜索数据。
- 商业文案创作
商业文案的创作表现挺优秀的,经常用于商业文案创作的博主又多了一个好用的工具,再也不用苦苦想文案了。没有灵感的时候可以来一言生成内容,再结合自己的特质加工,大幅提升了要经常写文案的人效率。
- 数学逻辑推理
这是一道人大附中的考题,答案是“骑士”,测试了几道题这里就不都放了。总的来说文心一言的数据逻辑推理能力还是偏弱的,不过推理能力本就是AI界的难题。
- 多模态测试(仅图像):
目前文心一言还不支持视频和语音,在图片的生成方面我觉得还是不错的,特别是中国风的图(有邀请码的强烈推荐体验一下)。还有就是目前的谣言也很多,目前生成的图形都是1:1的,有些甚至用长图去造谣,所以还请各位看官,理性看待,对我们自己的产品还是多加一些信任。
目前网上已经传出了文心一言很多段子了,有些确实很幽默,例如“夫妻肺片”“展示的是一对夫妻的肺,“车水马龙”展示的则是一辆车在马路上载着一条龙。对中文的理解并没有我们期待中的深刻,仍停留在表面意思。当然也有传闻说是“汉译英”再传给Stable Diffusion,这一点我们不得而知。
- 中文理解
中文理解来说,总体还算不错。它能回答你的问题,但是并不是那么的智能。水平的话对标的话大概就是GPT3的水平,不过有一些文章还存在未标注的情况,看来百度这一次上产品是有点赶了。
二、怎么看待文心一言?
- 从技术上看,文心一言和GPT都用了有监督精调、人类反馈强化模型(RLHF)和提示(prompt),并且也是基于Transformer预训练模型,并且使用自适应学习率调整策略,这种模型可以通过大量数据进行训练,从而提高模型的泛化能力。
- 从数据上看,文心一言的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,在语言方面,百度表示文心一言使用了1000亿条中英双语数据进行训练。
- 从产品上看,文心一言目前的水平大概是chat-GPT3的水平,现在对标chat-GPT确实有一定的差距。特别是在数学推理、语义理解、角色扮演这些方向来说。目前文心一言场景主要是用于智能客服、智能写作、智能推荐等领域。
- 从体验上看,响应速度上是很不错的,对一些文本能力也有认知水平,在对语言的理解力和回答的准确性表现都很好。
总的来说,虽然仍有不足的地方,但是从它的回答上还是能看出百度沉淀下来的技术能力和创新实力,这也是为什么这篇文章我没有和chatGPT对比的原因。对比国外的产品我们还有很长的路要走,但是我依然对国内AI产品抱有信心。毕竟由于XX原因open AI并没有对中国开放,在研究语言模型的路上,也只有这些大厂具有研发“类GPT”的实力,也只有他们研发出来了,我们在使用这些产品才能更加便捷和普惠。
在在文心一言的发布会上,李彦宏也承认,测试文心一言时,还是有很多不完美的地方,但因为市场有需求,大家都希望早一点用上最新最先进的大语言模型,所以在此时就推出。我觉得在这个时候能推出也能自证中国有研发语言模型的能力和实力,只是发展速度会慢一些。这两个月国外的AI产品推出都很惊艳,能这个时候推出已经很有勇气了,我们应该给国内的产品更多的鼓励和支持!
三、彩蛋
看到很多人都在排队等文心一言的邀请码,这里有个方法或许能帮助你更快的拿到。通过企业端去申请API接口,百度会发一个邮件回答你现在企业版暂时没开放,再给你发一个个人版的邀请码体验(我也是通过这个方法拿到的,但是现在不知百度有没有改规则),下面附上文心一言企业版申请链接:https://cloud.baidu.com/survey_summit/wenxin.html?track=C816552