科大讯飞今日正式发布了其最新的自然语言处理技术——星火模型。现在大家可以去它的官网申请试用。
网址:https://xinghuo.xfyun.cn/
Image
正常用手机号注册即可,审核速度非常快,基本当天就可以体验了。
星火模型据悉采用了最先进的深度学习算法,可以在多个语种下进行实时翻译和文本生成,以及具有逻辑推理、编程和多模态等方面的能力。
在发布会现场,对星火模型进行了多方面的实时测试,表现不俗,那么它与3月份发布的百度文心一言相比,能力怎么样呢?下面我们通过几个问题来测试一下。
从易到难分别提问如下。

太阳系有几个行星?

讯飞星火

Image
文心一言
Image
这种简单的问题,二者回答的都对,不过讯飞星火对问题进行了延伸,提供了更多的信息。
请通俗易通的讲一下量子力学的基本原理是什么?  
讯飞星火
Image
文心一言
Image
对于专业知识的理解和掌握,二者能力也相当,星火略详细。
我想跟一个女生一起看场电影,请你推荐几部,以增进感情,并说明推荐理由。
讯飞星火
Image
文心一言
Image
情感性的问题,讯飞星火稍弱,并且总是强调自己没有情感,而文心一言的理解也有点偏差,问题是想和女生增进感情,大概率还不是情侣,而文心一言直接定义成情侣之间看电影。
人工智能在未来会如何影响人类社会?
讯飞星火
Image
文心一言
Image
这个问题涉及未来预测和社会影响,是个开放的硬问题,回答难度较大,二者的表现都还可以,能力相当。

一个三角形,如果一条边长为4cm,另一条边长为7cm,则第三条边最长可能是多少厘米?

讯飞星火
Image
文心一言
Image
这是一个简单的数学问题,但是一下子看出了二者的差距,星火模型在数学能力上表现比较突出,而文心一言没有理解该数学题的逻辑,并且在追问之下继续犯了根本性的运算错误。
从以上问题的表现可以看出,对于正常的文本生成、语言理解,知识问答式,二者能力相当,不过科大讯飞在回答速度上比文心一言快很多。
对于数学推理类的问题,科大讯飞明显强于文心一言。
当然文心一言也有自己的独到之处,比如画图能力,虽然经常被吐槽,但这个能力是科大讯飞现阶段所不具备的。
现在各种大模型都声称是对标ChatGPT,那么它们与ChatGPT对比怎么样呢,我们通过一个简单的例子来测试一下:
树有7只鸟,猎人开枪打死一只,请问树上还剩下几只鸟?
Image
从这个小测试可以看出,国内大模型与GPT-4相比,还有差距,仍然需要大力追赶。
总体而言,科大讯飞星火模型和百度文心一言都有非凡的实力和巨大的发展前景,它们各有特点,虽然现阶段仍有不足,不过经过不断改进和优化,相信未来一定会发挥越来越重要的作用。

Image

Image