百度文心一言,是中国版的ChatGPT吗?
文心一言发布会网友评论:
- 百度在让人失望这件事上,从来没让人失望过!
- 技术原理一句没有,商业价值滔滔不绝。
- ChatGPT?CheatGPT!
- 难怪暴跌,还没看两眼就困了,没话可以直播咬打火机,股票起码还能涨一点点。
哈喽,大家好,我是松露,一个不务正业但也不误正业的非正经程序猿。
3月16号,我看了百度文心一言的发布会,emm…怎么说呢?整场下来,我印象最深刻的就是李彦宏那身白衬衣、白腰带和白皮鞋。
3月19日,我终于从朋友这里,获得了百度文心的内测机会。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kmgSdFeA-1679216294440)(http://oss-qiniu.kujiajia.xyz/image-20230319135029547.png)]
于是,我迫不及待的和文心一言展开了一场深(肤)刻(浅)的对话交流。
怎么说呢?这种感觉就像去看了一场国足比赛,就是你明明预测到了结局,但还是抱有着一丝期待。
为了保持客官公正的态度,我从以下四个维度来分别测评:
- 高质量文本生成
- 逻辑推理计算
- 代码编写能力
- 多模态生成
如有小伙伴有更多想看的内容,也可以在评论区留言,我会在后面持续补充。
一、高质量文本生成
对于一个大语言模型,为用户提供有用和高质量的文本生成服务是最基本的能力。
无论是需要写文章、编故事、解释概念、提供建议或回答问题等,都需要生成高质量的文本。
下面,我们来看一下两款产品的测评。
在这里,我让他们来帮我生成一段吃烧烤的文案。
这是文心一言的回答:
而这,是ChatGPT的回答。
明显可以看出来,无论是生成字数、语言连贯性、语句准确性,百度文心都没有给我一种眼前一亮的感觉,只能够说是中规中矩吧。我感觉是勉强能够及格的水平,毕竟它能够输出这样一段完整的话,就挺不错的了。
反观ChatGPT,它一开始出圈就是因为高质量的文本生成能力,这个我就不多说了, ChatGPT甚至还能帮你一本正经的写一篇胡编乱造的学术论文来,甚至连参考文献能够给你伪造出来。
所以说,结论一目了然。
二、逻辑推理计算
我们再来看一下,两款AI模型在逻辑推理计算上面的对比。
在百度文心的发布会上,李彦宏演示的是鸡兔同笼问题,这个问题太常规了,三年级小朋友都知道。
所以我就挑了几道,早期我给学生上课讲的逻辑推理题,看看它们的表现又是如何。
问题1:喝汽水问题
第一道题是数学计算问题,题目是这样的:
夏天到了,小卖铺开始搞优惠卖汽水。1 瓶汽水 1 元钱,但是 3 个空汽水瓶可以换 1 瓶汽水。小明现在有 10 元钱,那么他最多可以喝到几瓶汽水呢?
以下是ChatGPT的回答:
然后,这是文心一言的回答:
可以看出来,ChatGPT是理解了这道题的意思,然后也算出来了14瓶水(我在上课的时候,99%的同学算出来也是14瓶水),但是正确答案是15瓶水,少算了1瓶。
📢 注意
正确答案是15瓶水,这道题在最后有一个脑机急转弯思维在里面,欢迎大家可以在评论区留言讨论。
对于文心一言给出的答案,我只能说,还能够买半瓶水吗?这么明显的常识性错误。
而且,文心一言给出的计算方法也是不对的,可以看出,它并没有真正理解这道题的意思。
问题2:称水问题
然后,我又问了一道世界500强面试经常会问的称水问题,题目是这样的:
假设有一个池塘,里面有无穷多的水。现有 2 个空水壶,容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。
我们来看下ChatGPT的回答:
然后,这是百度文心的回答:
可以看出,ChatGPT生成的答案是完全正确的,虽然前面第1步和第2步重复了,但后面的逻辑和步骤都是正确的。
但是,文心一言给出的答案,确实是一派胡言啊,和答案完全没有一点关系。
问题3:职业问题
然后, 我又问了一道纯逻辑推理的问题,看看两款产品的逻辑推理能力如何。
题目是这样的:
小王、小张、小赵三个人是好朋友,他们中间其中一个人下海经商,一个人考上了重点大学,一个人参军了。此外他们还知道以下条件:
- 小赵的年龄比士兵的大;
- 小张的年龄比大学生大;
- 小王的年龄和大学生的年龄不一样。
请问这三个人中谁是商人?谁是大学生?谁是士兵?
这是ChatGPT给出的回答:
这是文心一言给出的回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jwOygQiX-1679216298113)(null)]
两个模型最后给出的结果都是错的,但是他们错的地方不一样。
ChatGPT前面的推理都是正确的,只有在最后结论的时候出错了,导致最终答案是错的。
而文心一言,在第一句的推理,就是完全在胡说八道。
所以说,通过上面三道逻辑推理题,我们可以发现,ChatGPT无论是在计算还是逻辑的理解上,都远超于百度文心。但是,ChatGPT毕竟是生成式预训练模型,所以它的逻辑能力还是并没有达到非常高的水平,简单的逻辑推理是可以做的,对于稍微复杂的推理问题,ChatGPT就会在后面越说越离谱,最后也把自己给绕进去了。
三、代码编写能力
作为一款能让程序员失业的语言模型,我们来看看它们的代码水平如何。
我们分别让它们生成一个后端代码和静态网页,看看效果如何吧。
编写纯后端代码
我让它们写一个简单的排序算法。
这是ChatGPT给出的回答:
然后,我们来看看文心一言的答案:
它们采用的是不通过的算法,ChatGPT给出的冒泡排序,文心一言给出的是快速排序,两个都是常见的排序算法,所以说这一块没有太多可以对比的。
但是接下来,它们的区别就非常大了。
编写静态网页
然后,我让它们编写一个静态网页,这个网页能够实现MD5加密。
这是ChatGPT给出的回答:
这是文心一言给出的回答:
可以看出,百度文心一言给出的代码并不是前端代码,还是Node.js的后端代码。
然后,我把ChatGPT生成的代码保存成HTML文件后,用浏览器真的可以打开,而且也确实是我想要的效果。
所以说,文心一言是会写代码,但不多!看了文心一言的前端代码生成能力,我感觉我的前端岗位,起码还能够保住3~5年!
而ChatGPT依托于Github这个宇宙第一的代码库平台,生成的代码质量也是很高的。
四、多模态生成
现在,文心一言的多模态生成模块,只能够画画、播放语言,但不能做视频。所以,我就对比了两款模型在AI图片生成方面的能力。
我让它们来帮我生成一个《孙悟空大战超人》的图片。
这是ChatGPT生成的图片:
这是文心一言生成的图片:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-72zK7TXm-1679216298122)(null)]
可以看出,文心一言并没有理解我的需求,我要的是《孙悟空大战超人》,而并不是《孙悟空和超人的结合体》。
总结
刚开始,我是满心期待百度能够一洗以往的「黑料」,为我们大众带来有价值的产品,这样也能够打破国外的技术壁垒。但是,在我使用下来后,我发觉可能我一开始的期望过高,导致现在挺失望。可转念一想,百度也算是国内第一个吃螃蟹的公司,率先发布的大语言模型,这份勇气也是值得称赞的。
因为,我们希望看到的在AI领域出现百花齐放的局面,而不是现在的ChatGPT一花独放。对于我们普通人来说,大厂之间的良性竞争和技术内卷,才有可能创造出普及大众的优秀产品。就像早期的小米手机,它的出现拉低了中国智能手机的市场价格。
我记得很清楚,我刚上大学的时候,主流的是苹果和三星,而且手机价格都不低。国产品牌只有魅族和酷派在小打小闹,上不了台面,导致国内没有一款真正有竞争力的产品。直到小米手机上市,才真正带来了为我们消费者带来了性价比高的智能机,而性价比极大的提升了国产手机的竞争力。
在小米以前,国产手机就是垃圾的代名词,人人都想着买外国牌子。自从小米1爆红后,消费者会把注意力转移到性价比更高的国产品牌上来,这也加速了智能手机的普及。
所以说,对于百度文心一言的这次发布,虽然没有撼动ChatGPT在大语言模型市场的地位,但是作为国内第一个率先硬刚ChatGPT的互联网企业,已经领先了其他同行。对此,我们也多一点耐心、理解和信心。
希望未来有一天,我们能够用上谷歌、微软、苹果、百度、腾讯、阿里、字节…各大互联网大厂研发的便宜又好用的AI产品!
写在最后
最后,有一点我想说,也是最近网络上一直热议的问题,那就是:人工智能如果导致就业减少,多余的人类应该如何生存?
以下是ChatGPT给出的回答:
这是一个复杂的问题,涉及到众多方面,包括政策、教育、文化等。以下是几种可能的解决方案:
- 转向人类需要的领域:随着自动化技术的发展,一些传统的工作岗位可能会被取代。因此,人们需要转向一些机器难以替代的领域,比如创造性行业、艺术、文化、教育等。这需要教育体系、社会文化和政策支持等多方面的努力。
- 重视职业培训和终身学习:人工智能技术的发展需要不断学习和更新知识。因此,人们需要注重职业培训和终身学习,以保持自己的竞争力和适应能力。政府可以提供相关的培训和补贴,帮助人们适应新的就业形势。
- 推动基本收入制度:基本收入制度是指政府给每个公民提供一定的收入,以保障人民的基本生活需求。这可以减轻部分人因就业岗位流失而面临的经济困难。不过这种制度需要政府的大力支持和社会的共识。
- 推动社会创新和创业:人工智能技术的发展也会催生新的商业模式和机会。政府可以通过支持创业、鼓励创新等方式,帮助人们创造新的就业机会和经济增长点。
总之,人工智能的发展对就业形势带来了一定的挑战,但也同时催生了新的机会和方向。我们需要采取多种措施来应对这一挑战,以保证人们的生存和发展。