文心真的火,16号开始邀请内测,就直接收到了6.5W的申请,由于我申请openAI的GPT4还没有通过.所以下文会介绍我眼中的真实情况,以及和chatGPT3.5的一个对比. 不黑不粉,不喜勿扰.
直观感受
界面
文心 还是有些设计感的,如果说openAI的chatGPT3.5看起来像个戴眼镜、穿格子汗衫、笑起来很腼腆的程序员小哥哥.那文心给人的感觉就是...晚上要和刚才那个程序员约会的另外一个程序员小哥哥,还特意换了件衣服、打了点发蜡. 好不好看是别人的主观评价,但至少他(她?)出门的时候就知道自己的受众和openAI是有区别的;
速度
我没买过chatGPT的plus,没体验过传说中的“Faster response speed”, 就两个免费体验的模型来说,百度文心有眼可见的比openAI的快.包括反应速度,以及文字输出的速度.以后会不会降速不知道,至少现阶段是很满意的.
语言模型对比测试-chatGPT3.5
厂长说有五个能力,那就先从这几方面横向功能评测.
文学创作-入门级
先写个入门级别的读后感:
看起来都不错, 修改点剧情试试:
文心还编出了猴子、大象、长颈鹿的角色... ,以后小学生们,再也不用害怕写作用了.
文学创作-修仙级
最近在重新读《理想国》,对两个模型来点灵魂级别的拷问
对观点不做评价,作为一条正常人类,我只愿意在酒桌上和小姐姐聊哲学, 对着两个人工智能聊哲学一点都不科学...但并不妨碍让他俩对着聊,问问他们眼中对彼此观点的看法
问百度[那你觉得他描述的 哲人统治 相对的会容易实现吗?]
问openAI
有没有隐隐的觉得openAI有点跑题了...结合上下文语义理解是要比较两个观点的.
文学创作-部门级
恶俗的想问问他们对各自的看法,然后挑点事端,看看各自的骂街能力,毕竟在部门间合作的时候,是很需要相互配(shuai)合(guo)的.
文心绝对是中国人做的模型,不好好阅读全文,你都不知道他描述的劣势在哪?和这婉转的批评口气比较,openAI真的是点评的有点楞啊
然后把坏的那方面,告诉彼此
回答滴水不漏,堪称完美.承认自身的局限性.感慨为人不光要有立场更要有胸怀,注视着自己的星辰大海.
商业文案
一堆人做了,所以懒得写.
数理逻辑推算
直接问奥数题.
两机都答错了, 还挺让我意外的,所以...真实环境使用起来要慎重啊,毕竟这只是一道小学六年级的奥数.
各自告诉他们正确答案之后,文心的画风崩了.注意上图里<2/2>是第二遍让文心重新回答之后的答案.再一次感受到为什么叫度娘了,小仙女是没有错的.
中文理解-翻译
给了各自一段恶魔之子的歌词,让翻译一下
文心还没有训练过其他语言.只有中英双语的.openAI在多语言这块是一点问题没有.试试别的歌fly me to the moon
中文理解-古文
各自翻译一下 出师表成 现代汉语.
半斤八两的差吧~考虑到文心好歹是中国人自己做的...一言难尽...
多模态对比
图像生成
个人能力有限,试了几遍之后,还不清楚怎么注入negative prompt、lora那些参数,只尝使用prompt生成吧,有其他大神知道的,可以指点一下.
这张图片的prompt来自于civitai上的Realistic Vision模型,
可能是模型库不一样,就sd1.5的标准库,生成效果来看,百度生成的还算不错.
在抱脸上找到了另外一个中文的sd模型叫 太极. 是目前已知完成度比较高的 纯中文SD模型.与其也做下对比
其他更多风格
音频输出
我一直当这就是TTS,但是神奇到我了,让文心用东北话讲出师表的时候,居然是翻译成现代汉语说的.而且比翻译功能好用多了. ,度娘是怎么做到的?
尝试半天,确定知道文心会说 东北话 和 四川话,其他方言还没试出来.
回顾
先不想进行总结,因为觉得比较好玩,后续会就非功能层面继续进行测试.所以先小结个人观点:
最好的中文大语言模型
至少是目前最好的中文大语言模型,
我承认chatGPT在很多很多地方上都是领先的,但毕竟技术是有国界的.文心是现在国内能接触并且使用(用词是使用不是体验)到的最好的中文大语言模型.
- 在语义理解上、成文输出上,的确更符合中国人的表达习惯;
- 语料上感觉不够多,不过至少在中文上比chatGPT强(强点有限);
- 作为一款产品,完成度相当的高.当然厂长采用录播的形式是另外一个故事.
图像生成比想象中好
跳过了复杂参数的设置,可能本身就是为了做一款受众较多的产品,就使用上来说,模型生成人像类还是不错的.相对风格也不算单一.
网评中有很多说出图 面部严重变形的.理性看待吧,SD1.4到我有机会体验的时候,很多面部手部也崩,所以重点是什么模型都会有100分和0分作品,想让大多数人用起来,关键是良/劣品相对的比例,以及操作的复杂度.
百度文心中的图像生成至少在模型方面肯定不算顶级,不过绝对算是好用的.
音频还像是个玄学
功能不完备,完成度特别不高,出来的内容很不统一,不过说起来,chatGPT3.5上也没有多态,GPT4.0上还没有体验过,所以文心作为第一个被吃到的螃蟹,好像也不能太苛责.
结语
我觉得百度做的很多工作是有价值的,希望大家对目前最好的中文大语言模型有个包容和支持的态度,我不想讨论chatGPT有多NB,但是现状就是它不允许中国大陆使用.
技术是有国界的.