文心真的火,16号开始邀请内测,就直接收到了6.5W的申请,由于我申请openAI的GPT4还没有通过.所以下文会介绍我眼中的真实情况,以及和chatGPT3.5的一个对比. 不黑不粉,不喜勿扰.

直观感受

界面

文心 还是有些设计感的,如果说openAI的chatGPT3.5看起来像个戴眼镜、穿格子汗衫、笑起来很腼腆的程序员小哥哥.那文心给人的感觉就是...晚上要和刚才那个程序员约会的另外一个程序员小哥哥,还特意换了件衣服、打了点发蜡. 好不好看是别人的主观评价,但至少他(她?)出门的时候就知道自己的受众和openAI是有区别的;

速度

我没买过chatGPT的plus,没体验过传说中的“Faster response speed”, 就两个免费体验的模型来说,百度文心有眼可见的比openAI的快.包括反应速度,以及文字输出的速度.以后会不会降速不知道,至少现阶段是很满意的.

语言模型对比测试-chatGPT3.5

厂长说有五个能力,那就先从这几方面横向功能评测.

文学创作-入门级

先写个入门级别的读后感:

看起来都不错, 修改点剧情试试:

文心还编出了猴子、大象、长颈鹿的角色... ,以后小学生们,再也不用害怕写作用了.

文学创作-修仙级

最近在重新读《理想国》,对两个模型来点灵魂级别的拷问

对观点不做评价,作为一条正常人类,我只愿意在酒桌上和小姐姐聊哲学, 对着两个人工智能聊哲学一点都不科学...但并不妨碍让他俩对着聊,问问他们眼中对彼此观点的看法

问百度[那你觉得他描述的 哲人统治 相对的会容易实现吗?]

问openAI

有没有隐隐的觉得openAI有点跑题了...结合上下文语义理解是要比较两个观点的.

文学创作-部门级

恶俗的想问问他们对各自的看法,然后挑点事端,看看各自的骂街能力,毕竟在部门间合作的时候,是很需要相互配(shuai)合(guo)的.

文心绝对是中国人做的模型,不好好阅读全文,你都不知道他描述的劣势在哪?和这婉转的批评口气比较,openAI真的是点评的有点楞啊

然后把坏的那方面,告诉彼此

回答滴水不漏,堪称完美.承认自身的局限性.感慨为人不光要有立场更要有胸怀,注视着自己的星辰大海.

商业文案

一堆人做了,所以懒得写.

数理逻辑推算

直接问奥数题.

两机都答错了, 还挺让我意外的,所以...真实环境使用起来要慎重啊,毕竟这只是一道小学六年级的奥数.

各自告诉他们正确答案之后,文心的画风崩了.注意上图里<2/2>是第二遍让文心重新回答之后的答案.再一次感受到为什么叫度娘了,小仙女是没有错的.

中文理解-翻译

给了各自一段恶魔之子的歌词,让翻译一下

文心还没有训练过其他语言.只有中英双语的.openAI在多语言这块是一点问题没有.试试别的歌fly me to the moon

中文理解-古文

各自翻译一下 出师表成 现代汉语.

半斤八两的差吧~考虑到文心好歹是中国人自己做的...一言难尽...

多模态对比

图像生成

个人能力有限,试了几遍之后,还不清楚怎么注入negative prompt、lora那些参数,只尝使用prompt生成吧,有其他大神知道的,可以指点一下.

传统的prompt好像不能用
把promt都转成中文的效果

这张图片的prompt来自于civitai上的Realistic Vision模型,

这个大叔,独自和一堆穿的很清凉的小姐姐们在一起.

可能是模型库不一样,就sd1.5的标准库,生成效果来看,百度生成的还算不错.

在抱脸上找到了另外一个中文的sd模型叫 太极. 是目前已知完成度比较高的 纯中文SD模型.与其也做下对比

其他更多风格

模仿 齐白石老先生 风格, 但这是皮皮虾?
对眼睛的语义处理有问题了.在sd中可以通过simpling step调整prompt的重量,在文心中实验了几次,没效果.

音频输出

我一直当这就是TTS,但是神奇到我了,让文心用东北话讲出师表的时候,居然是翻译成现代汉语说的.而且比翻译功能好用多了. ,度娘是怎么做到的?

尝试半天,确定知道文心会说 东北话 和 四川话,其他方言还没试出来.

回顾

先不想进行总结,因为觉得比较好玩,后续会就非功能层面继续进行测试.所以先小结个人观点:

最好的中文大语言模型

至少是目前最好的中文大语言模型,

我承认chatGPT在很多很多地方上都是领先的,但毕竟技术是有国界的.文心是现在国内能接触并且使用(用词是使用不是体验)到的最好的中文大语言模型.

  1. 在语义理解上、成文输出上,的确更符合中国人的表达习惯;
  2. 语料上感觉不够多,不过至少在中文上比chatGPT强(强点有限);
  3. 作为一款产品,完成度相当的高.当然厂长采用录播的形式是另外一个故事.

图像生成比想象中好

跳过了复杂参数的设置,可能本身就是为了做一款受众较多的产品,就使用上来说,模型生成人像类还是不错的.相对风格也不算单一.

网评中有很多说出图 面部严重变形的.理性看待吧,SD1.4到我有机会体验的时候,很多面部手部也崩,所以重点是什么模型都会有100分和0分作品,想让大多数人用起来,关键是良/劣品相对的比例,以及操作的复杂度.

百度文心中的图像生成至少在模型方面肯定不算顶级,不过绝对算是好用的.

音频还像是个玄学

功能不完备,完成度特别不高,出来的内容很不统一,不过说起来,chatGPT3.5上也没有多态,GPT4.0上还没有体验过,所以文心作为第一个被吃到的螃蟹,好像也不能太苛责.

结语

我觉得百度做的很多工作是有价值的,希望大家对目前最好的中文大语言模型有个包容和支持的态度,我不想讨论chatGPT有多NB,但是现状就是它不允许中国大陆使用.

技术是有国界的.