验完百度的文心一言我只能说它胆子够大

AI 资讯 2023-06-30 163 阅读

3 月 16 日下午 2 点，百度北京总部的发布厅内，李彦宏迈着急促的步伐走上台，和大家公布了最近一段时间备受关注的产品——文心一言。

尽管这位科技巨头创始人，登过《时代》周刊封面，见过无数大场面，但发布会中，他的神态里都透露了些许紧张和局促。

我可以这么说，这是百度自创建以来关注度最高的发布会之一，所有人都在等着这款对标 ChatGPT 的产品。

有人满怀期待，但也有很多人，只是单纯想看它出丑。

会上，百度共在 5 个场景下，展示了文心一言的能力。

在文学创作方面，文心一言可以总结出《三体》内容，也可以在哲学角度续写《三体》。

在商业文案创作这块，它可以根据公司的业务类型取名，生成 Slogan ，以及撰写几百字的新闻稿。

同时，它也可以做一些数理逻辑推算，比如鸡兔同笼，还可以判断出题目错了。

除此之外，文心一言可以给用户反馈图像，语音和视频。

比如它可以为 2023 世界智能交通大会创作一张海报，也能用四川话回答你的问题，甚至是生成视频。不过，想实现这些功能其实并不难，百度做的也许就是把这几项服务融合了一下。

可惜的是，发布会上所有素材都事先录好的，并非现场实操，所以对于文心一言的真实能力，很多人都表示怀疑。

好在，差评君搞到了内测账号，现在就看看，文心一言的能力到底如何，它和搭载 GPT-4 的 New Bing 比，谁又更强？

我们先测试了一些日常问题：如何做一份好吃的松鼠桂鱼？

这是文心一言的回答。

这是 New Bing 的回答。

虽然我们没有时间测出谁的菜谱味道更好，但能看出百度文心一言的回答要优质一些。它按照标准的菜谱格式，分别给出了备料，步骤以及注意事项。

随后，我们又问了一个经典的带有思维陷阱数学问题：一个青蛙掉到了一个 10 米深的井里，它每天晚上向上跳 3 米但会滑下来 2 米，请问他第几天能跳出井里？

文心一言的回答是 8 天，这是正确答案。

而 New Bing 的回答是 5 天。

但 New Bing 一共有三种模式，在切换了精确模式后，New Bing 也给出了正确回答。

接着，我们测试了大家比较关心的敲代码能力，让它们帮忙写了一个渐变色按钮的 CSS 。

这是文心一言给的代码。

在实测后发现可以跑出来，但它把 “ 渐变色 ” 理解成了鼠标指上去后，颜色发生变化。

而 New Bing 给出的代码显示，它成功理解了渐变色。

文心一言是在试图完成用户的指令，而 New Bing 有点在炫技的味道了。我要的是 CSS ，它给了一份完整代码，还自己加了 “ 点击我 ” 的提示。

后来，我们又测试了取名， NewBing 给的是：麻晨曦、麻晴雯、麻璇玑、麻云舒，似乎挺有新意。

但文心一言的建议，说实话，我一眼就觉得好像在 “ 中国新生儿最热姓名 ” 里看过。。。

随后，我又提了一些节选自弱智吧的问题，测试下他们的 “ 智商 ” 。

比如：把加特林从冰箱拿出来算冷兵器吗？

两者都讲解了什么是冷兵器后，给出了正确答案：不是。

我们又接着问了另外一个问题 “ 为什么贝多芬不出新歌了？ ”

New Bing 在简单介绍后，回答因为已经去世 200 年了。

但文心一言似乎陷入了圈套，分析了一堆可能导致贝多芬不出歌的原因。。。

当然，测试 AI 智商肯定离不开数学题：请用 1 , 2 , 3 , 4 四个数字计算 24 点，每个数字只能用一次。

对于这个问题，一开始，文心一言则似乎把自己的 CPU 干烧了。

后来我们又测试了一下，虽然这次不烧了，但不知道它在回答什么东西。

这是 New Bing 的回答。

接着对于中文互联网黑话的理解能力，我们也测试了一下，但让人失望的是，这方面文心一言表现还不如 New Bing 。

比如鸡你太美的梗，它并没给出一个满意的答复。

而 New Bing 的回答，虽然也有错误，但起码比文心一言更接近答案。

对于差评 925 的梗，文心一言可能因为训练语料的原因，没给到我们想要的答案，而是放出了一个非常古老的谐音梗。

New Bing 则近乎完美解释了我们 925 的梗。

在信息搜索的问题上，我们也进行了提问：理想汽车过去五个月销量，请逐月列出。

文心一言的答案是：

New Bing 的回答是：

这两个答案看下来，文心一言表现地非常拉胯，不仅没有拉取正确数据，甚至还没给出符合条件的月份。

最后，我们测试了文心一言独有的画图能力。

我们先让它生成一只刺猬在敲键盘的图片，这个效果算挺不错的。

但在让它生成了一只小马拉大车的图片后，我们显然是高兴早了，这 TM 是真马车啊。。。

OK ，以上就是给大家做的文心一言测试。

其实这段时间，互联网上大家对文心一言都带着点嘲讽的味道，前两天，微信群里就流传着一个嘲讽表情包。

甚至还有聊天记录形式的段子，说一旦文心无法正确答复，要用员工顶上。（明显是假的）

发布会直播间里，质疑和嘲讽的弹幕也随处可见。

的确，对比 New Bing 来说，文心一言表现是挺一般，不少方面甚至可以用 “ 拉 ” 来形容。

百度自己也知道，文心一言还差了不少火候。

在测试中，它就像个不自信的小孩。不管答案怎样，只要你一否认，他就一边向你承认错误，一边保证自己会变得更好，给他点时间。

说句实在话，差评君觉得这次百度，可以说是勇气可嘉。

一方面，虽然大厂们都在说自己搞了类似的东西，但是在 ChatGPT 如日中天的这会儿，百度还是敢顶住压力，发布了文心一言。

而且，作为一家搞搜索引擎的，文心一言也很可能会颠覆自己的核心业务。毕竟咱们之前也和大家聊过，传统的搜索引擎与其广告模式，很可能会被类似的产品干掉。

百度这波啊，多少是有股激流勇进的味道。

体验完这波产品，我觉得百度最应该做的，还是尽快迭代，抓紧时间把用户体验拉上来。不然就现在这个状态，别说是 GPT-4 和 New Bing 了，摆到 GPT-3.5 面前，还是有待增强。

至于咱们，也可以耐心一点，给这个初出茅庐的、不自信的小孩多一点时间。

万一哪天，它突然就把事干成了呢？

New Bing、文心一言

上一篇： “文心一言”争议中面世，是时候重估百度了？

下一篇：火狐、爱奇艺官宣接入百度文心一言爱奇艺将全面接入百度“文心一言”

最新资讯

相关资讯