看了百度文心一言发布会的直播,不得不感叹一句:

54岁的李彦宏保养的真好,如果这场发布会直播直接改成卖保健品,会不会卖爆?

百度为旗下新产品“文心一言”举办了发布会,这是一场广而告之的发布会,在Open AI发布ChatGPT后,被誉为是新的“iPhone时刻”,百度高调宣战,让国内有了非常高的期待。

但在整个发布会,百度创始人李彦宏全程播放视频,连哪怕一次实时展示“文心一言”的功能都没有,直接导致百度港股直线跳水10%,收盘跌幅6.92%,美股盘前跌幅约为5%。


不说别的,就李彦宏开头那个点题话术,直线拉低了这场发布会的意义和价值。

他说,文心一言产品体验下来,并不完美,但为什么这么急着发布,是因为所有人都在催,内部各业务线也都急着用... ...

其实潜台词是,我相信只有我能做这个东西,我也相信大家也是这么认为的,本来还不想拿出来,但架不住大家都着急,那就拿出来给大家掌掌眼。

现实是,你铺天盖地的PR和发布会预热不断再拉高大家的期待值,然后发布会竟然给了个视频演示...

事已至此了,你指望能糊弄谁,真心关注这场发布会的起码都见识过GPT,再不济也懂一些这是个啥。坦然面对,提出优点,承认不足,论中文语料库的储备和对中文语言体系的理解,你多少有优势的,怕啥呢,何必欲盖弥彰,弄得看好的人不上不下,本来不看好的人幸灾乐祸,把自己搞得赔钱又丢份。

网友直呼:本来想看ChatGPT,结果来了个ChatPPT。

OpenAI 靠着 ChatGPT 实力吸睛,Google 带着 Bard 紧随其后,就在昨天,GPT-4 模型又抢尽风头。你方唱罢我登场的 AI 领域,今天,轮到了百度了。来欣赏一下文心一言的绘画

给大家带来第一手围观文心一言实际表现的感受,刚看完“差评君”在b站的首测直播,直观对比文心一言和chatgpt-4(这不欺负人么)

总结就是:被薄纱

当然这是可以预料的。手机看的所以我没截图,感兴趣的可以去看看这个up后续会不会放出录屏,虽然我觉得放出来容易被公关哈哈哈哈哈哈,嫌百度的股价跌得不够么。

这里分类讨论一下二者的表现:

1.写一首以猫为主题的打油诗

文心一言:生成了一首类似七言诗的作品,语感上更接近我们印象中的古诗,但是没看出和猫有什么关系,并且用了一个不存在的典故。

gpt4:生成了一段真。打油诗,不咋押韵,用很白话的语言写了猫,文学性不咋地。

这个环节其实我觉得半斤八两。

2. 写代码

  • 让他们写一个点击会变色的按钮。

文心一言:生成了一段js代码,并且在要求它补充html和css的时候失败。

gpt4:直接生成了html+css+js代码,粘贴进浏览器就能运行,实测可用。

  • 让他们写一个2048游戏

文心一言:生成了一段2048的js代码,因为主持人不是程序员,于是丢给了gpt4。

gpt4:直接指出了文心一言的代码变量名命名错误(用数字开头),数组上限错误(应该从0到2047而不是2048),让它修正后它修正了,并且指出文心一言这段代码并不是一个2048游戏代码(笑死,嘲讽拉满)。让他自己写一个,它同样生成了一个html+css+js的2048游戏代码,主持人复制到txt里改个后缀就能玩了,就是有点简陋,并且新生成方块的逻辑是随机的。

把gpt4的代码丢回文心一言:文心一言并不能解析代码是什么意思,而是直接把gpt4的html给生成显示了……这算不算一个攻击漏洞

总之,写代码,被薄纱

3.写文章

  • 让他们写本手、妙手、俗手那个高考题

文心一言:文章全篇都是围绕围棋本身,更像本手、妙手、俗手的名词解释,主持人复制到浏览器搜索可见大片重复文字。

gpt4:逻辑吊打,从围棋术语引申到人生态度,至少是真的在写作文,不过这里主持人就没查重了,感觉不太严谨。

  • 林黛玉倒拔垂杨柳

文心一言:开头还行,写一半逻辑没了,“用一根竹竿然后林黛玉爬上去然后倒拔了柳树”,所有人都没看懂林黛玉怎么拔的。

gpt4:试图用文学性取胜,有很多环境、人物语言描写等,但是理解成了把其中一个柳枝倒过来,操作是用红丝带拴着一个柳枝使它倒过来。

  • 孙悟空穿回三国会发生什么

文心一言:这次老老实实列了四个可能性,说孙悟空有可能会和三国的人物相识,从而发生xxx故事。

gpt4:相比之下更厉害的地方在于,它会结合孙悟空的个人能力,比如头脑聪明,法力强大,再结合个人能力分析他在三国会怎样。我也是看了gpt4的答案,才像弹幕里说的意识到,相比之下文心一言的回答可以把孙悟空换成隔壁小王,也没啥区别。

总结:逻辑性应试性的文章chatgpt吊打,脑洞类两个有时候都抽风

4.逻辑陷阱

类似于刘备和刘秀什么关系,爸爸和妈妈能不能结婚,番茄炒西红柿怎么做这种问题,文心一言的表现和gpt3差不多,会胡说八道。

gpt4基本都能识别出陷阱。当然这个也是gpt4这次重点优化的一个部分,表现被薄纱我觉得没啥可惊讶的。

5.数学题/逻辑题

  • 用1234做24点

文心一言:傻了,直接出bug,大段无法理解的文字。

gpt4:先给你解释怎么一步步生成的24点,最后列出算式。

  • 用3L和5L的水桶称出4L水

文心一言:3L水桶装满,倒进5L水桶里。没了,摆烂了。

gpt4:第一步.3L装满,倒进5L水桶 ;第二步 3L装满再倒进5L水桶,直到5L水桶装满;第三步 把5L水桶倒空;第四步 把3L水桶剩下的水倒进5L水桶 (此时3L水桶里还有1L水);第五步 3L水桶接满,再倒进5L水桶(此时有4L水)

gpt4不仅对了,还会分步骤,甚至会给括号解释内容。

被薄纱

另外直播快结束的时候好像还测了一个开根号的问题,文心一言又bug了,疯狂输出的那种bug。

6.辩论赛

让他们扮演一个辩手,辩论“近墨者黑”和“近墨者未必黑”

文心一言:对不起,我不能扮演辩手和你辩论。

gpt4:好的,我将作为辩手和你辩论。然后围绕“近墨者未必黑”,从个人选择和家庭影响两个缅方面展开了论述。严格按照总-分-总模式形成了论点。

把gpt4的论点粘贴给文心一言试图让他反驳:好的,我来反驳。然后把gpt4的论点复读机了一遍。

总结:被薄纱

7.文生图以及文字转语音

文心一言:文生图没有一次达标的,让生成围棋棋盘,中间硕大的国际象棋;让生成西红柿炒蛋,出来毫不相关的图;让生成林黛玉倒拔垂杨柳,直接拒绝生成。

文字转语音:多次尝试关键词后,成功了。不过恕我直言,这和其他文字转语音软件有啥区别啊……

gpt4:没有这个功能,被薄纱了呢(狗头。没有测gpt4的多模态读图功能,虽然我觉得这才是多模态的核心。

8.上下文理解

文心一言:上下文理解稀烂,很多时候两句话之间都无法形成记忆,更别说连续对话了。

gpt4:这还用赘述么,3.5时代就可以一直callback没问题了。

总结:

测到最后主持人绷不住了,总结文心一言的优势的时候说它有gpt不具备的文生图和语言功能,大家自行评判。其实chatgpt出现之所以惊艳众人,就是它强大的逻辑归纳能力,以及上下文语意理解能力是划时代的,和之前的人工智障观感完全不同;再加上强大的代码生成能力,不止能写,主要是还能理解,论文类也不在话下,这种类似的应用就可以解放生产力。文心一言的逻辑能力和上下文理解可以说还是很初级的水平,对于语意的理解也很一般,更别提整合信息的能力。

我们当然可以说给国产技术一些时间,关键是,openai给不给他们时间呢?