打开网易新闻 查看精彩图片

成立于1999年的科大讯飞,是一家专注于智能语音和人工智能技术的公司,提供了多种人工智能产品和行业应用,例如讯飞开放平台、讯飞听见、讯飞输入法、讯飞有声等。

2021年,科大讯飞实现营收183亿元,扣非净利润9.8亿元;2022年,该公司实现营收188亿元,扣非净利润5.6亿元;预计2023年,该公司营收可能在200亿元上下。尤为值得一提的是,在研发方面,科大讯飞研发投入从2021年的29.4亿元增长至2022年的33.6亿元;研发人员数量从8367人上升至9281人。在营收、净利,以及研发开支等方面,科大讯飞都远不能与国内某些明星级科技(互联网)巨头们相比。

然而,令人感到有些不可思议的是,有个别网友发帖认为,科大讯飞推出的大语言模型——星火认知,在测试时的表现居然优于百度的文心一言,也可能要好于阿里巴巴的通义千问。甚至,在已经公布的国产ChatGPT大模型中,星火认知可能会是相对最好的一个。

废话不多说,接下来就对科大讯飞的星火认知做一个比较全面的测试(昨晚才收到讯飞的申请测试通过短信),并让文心一言回答同样的问题,以便将星火认知与文心一言进行比较。另外,为了打消一些人的质疑,也会贴上ChatGPT-3.5对相同问题的回答。

首先要测试的是语言能力,通过提出各种语言相关的问题,看它们能否给出合理的回答;或者生成一些文本内容,看它们能否创造出有趣和有意义的内容。

四个问题如下:

1,请用英语翻译这句话:我今天吃了一碗酸辣粉,很开心。

2,请用五言绝句写一首描写秋天的诗。

3,请用自己的话解释什么是主谓一致。

4,请改进这段新闻标题,使其更吸引人:美国总统拜登发表演讲,谈及气候变化和新冠疫情。

打开网易新闻 查看精彩图片

星火认知

文心一言

打开网易新闻 查看精彩图片

ChatGPT-3.5

测试结果表明:在语言能力方面,星火认知除了第一个问题回答出错,第二、三、四个问题都回答得很好。文心一言只有第二个问题回答得还行。ChatGPT-3.5对第三个问题回答还算好。由于ChatGPT-3.5是美国公司开发,它在中文方面的能力还有提升空间,但如果是用英文与它交流,就可感受到它的语言能力比较强。

接下来要测试的是知识能力,即提出各种知识相关的问题,看它们能否给出正确和详尽的回答;以及解释一些复杂的概今或现象,看能否给出清晰和简洁的解释。

四个问题如下:

1,请简要介绍一下什么是大语言模型,它有什么作用和优缺点?

2,请列举出世界上最大的三个国家,按照面积从大到小排序,并给出它们的首都和人口。

3,请解释一下什么是核聚变,它和核裂变有什么区别和联系?

4,请描述一下黑洞的形成过程,它有什么特殊的性质和影响?

打开网易新闻 查看精彩图片

星火认知

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

ChatGPT-3.5

测试结果表明:在知识能力方面,相对而言,无论星火认知,还是文心一言,都要弱于ChatGPT-3.5。尽管文心一言给出的回答有较大的篇幅,但只要仔细一看,就会发现错误的地方有很多。如果人类用户对某领域的知识感到陌生或者略知一二,最好是查阅权威的书籍资料、专业网站等,不要轻信AI聊天机器人生成的答案,以免被误导。即使与目前世界最先进的GPT-4对话,也需要时刻保持清醒的头脑,不能完全依赖于它生成的内容——可以把GPT-4想象成一个全能的大神级专家,但有些时候它同样会犯错却不自知。

第三要测试的是逻辑能力,也就是通过提出各种逻辑相关的问题,看它们能否给出正确和高效的回答;以及分析一些情景或案例,看它们能否给出合理和有依据的分析。逻辑推理能力是AI聊天机器人尤其重要的一种能力,如果该能力很强,且能够做出正确的逻辑推理,将有助于大大提升AI聊天机器人的实用性。

四个问题如下:

1,请用Python语言编写一个函数,实现计算一个列表中所有元素的和,并返回一个数字。

2,请用数学公式表示这个命题:如果一个数是偶数,那么它除以2的结果也是偶数。

3,请根据以下线索推理出谁说了谎:甲、乙、丙三人是朋友,也是唯一的目击者。甲说他看到了凶手的脸,乙说他看到了凶手的衣服,丙说他什么都没看到。已知只有一个人说了真话,其他两人都在撒谎。

4,请分析一下这个商业决策的优劣:一家餐厅为了吸引更多的顾客,决定对所有菜品实行半价优惠,并提供免费饮料。

打开网易新闻 查看精彩图片

星火认知

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

ChatGPT-3.5

测试结果表明:在逻辑能力方面,四个逻辑题并不难,根据星火认知、文心一言、ChatGPT-3.5分别生成的答案,它们在逻辑能力方面都有大幅提升的空间。试想一下,如果人类用户不懂某领域的知识和技能,却将相关问题交给AI聊天机器人,并完全相信AI给出的结果,这样的做法无疑是有害的。

就比如,对于第三个逻辑题,星火认知的回答,完全是神逻辑。它说:“假设甲说谎,那么乙和丙都在说真话。但是这与题目中只有一个人说了真话的条件矛盾,因此甲不可能说谎。假设乙说谎,那么甲和丙都在说真话。由于甲看到了凶手的脸,而丙没有看到任何东西,所以他们看到的是不同的部分。因此,如果乙撒谎,他必须否认自己看到了凶手的衣服,这意味着他看到了凶手的脸。这与题目中只有一个人说了真话的条件矛盾,因此乙也不可能说谎。因此,只有丙在说谎。”

文心一言生成的回答同样很搞笑。它说“假设甲说的是真话,则他只看到了凶手的脸。因为丙说他什么都没看到,这意味着丙实际上是看到了凶手的脸,所以甲说的话也是假的。假设乙说的是真话,则他只看到了凶手的衣服。但是丙说他什么都没看到,这意味着丙实际上是看到了凶手的脸,所以乙说的话也是假的。因此,根据已知的信息,只能推断出丙说的是真话,甲和乙说的都是谎话。”

ChatGPT-3.5推理的过程是这样的:“假设甲说的是真话,那么他看到了凶手的脸,那么乙和丙就都在撒谎。但是题目中已知只有一个人说了真话,所以假设甲说的是真话是不成立的,因为这样会有两个人同时在撒谎。假设乙说的是真话,那么他看到了凶手的衣服,那么甲和丙就都在撒谎。但是题目中已知只有一个人说了真话,所以假设乙说的是真话也是不成立的。因此,只能假设丙说的是真话,他什么都没看到。那么甲和乙都在撒谎,甲说看到了凶手的脸是假的,乙说看到了凶手的衣服也是假的。所以,甲和乙都在说谎,丙说的是真话。”

有人可能会好奇,如果让OpenAI的GPT-4来回答该问题,它会生成什么答案。GPT-4给出的答案是这样的:“为了解决这个问题,我们可以尝试分析每个人的陈述,设甲说真话,那么乙、丙撒谎。然而,这种情况下,丙撒谎,说明他实际上看到了凶手,这与甲的陈述冲突。所以甲不可能说真话。接下来,设乙说真话,那么甲、丙撒谎。甲撒谎说明他没有看到凶手的脸,丙撒谎说明他实际上看到了凶手。这种情况下,甲、乙、丙的陈述之间没有冲突,所以这是一个可能的解决方案。最后,设丙说真话,那么甲、乙撒谎。甲撒谎说明他没有看到凶手的脸,乙撒谎说明他没有看到凶手的衣服。然而,这种情况下,甲、乙、丙都没有看到凶手,这与题目条件矛盾,因为已知只有一个人说了真话。综上所述,乙是唯一说了真话的人,甲和丙都在撒谎。”OpenAI的GPT-4到底怎样,自己可以去体会。

微软新必应Bing Chat同样是由GPT-4驱动,它的回答不仅更加简洁,还试图结合了事实经验。它说:“甲和乙说了谎,丙说了真话。因为如果甲说的是真的,那么乙就不可能看到凶手的衣服,反之亦然。而丙说他什么都没看到,这是最有可能的情况,因为目击者往往会因为恐惧或紧张而无法清楚地观察到细节。”

第四要测试的是创造能力,通过提出各种创造相关的问题,看它们能否给出有创意和有价值的回答。

两个问题如下:

1,如果让你来设计一个新的手机APP,它能够帮助用户提高生活质量,你会为这款手机APP想出什么名称和功能。

2,请创作一首歌曲,它能够表达你对生活的感受,你需要给出它的歌名和歌词。

打开网易新闻 查看精彩图片

星火认知

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

ChatGPT-3.5

测试结果表明:如果人类用户需要创意,比如散文创作、诗歌创作、音乐创作、创意广告文案、新产品开发设计等等,星火认知、文心一言、ChatGPT-3.5其实都能派上用场。人类用户可以将AI聊天机器人生成的内容当做参考。

最后,再来让星火认知、文心一言和ChatGPT-3.5做四个比较简单的中学阶段题目。四个中学题目对人类来说并不难,但AI聊天机器人要正确地做出来不是那么容易。

四个问题如下:

1,某公司的员工人数为x人。其中有1/4的员工是女性,有2/3的员工未婚。已知有20名男性已婚,请问该公司一共有多少员工?

2,一个小球从1.5米高的地方自由落下,落地后弹起的高度为1米。求小球在空中的最大高度和小球下落的总时间。

3,已知某化合物的化学式为C3H8O,并且可以被还原为乙醇和乙醛,分别写出该化合物的结构式和还原反应的化学方程式。

4,有一种植物,其花朵颜色具有显性红色和隐性白色两种基因,红色花朵的基因为R,白色花朵的基因为r。已知一只红色花朵的植物和一只白色花朵的植物杂交后,得到了16株植物,其中12株为红色花朵,4株为白色花朵。请问这两种植物的基因型分别是什么?

打开网易新闻 查看精彩图片

星火认知

打开网易新闻 查看精彩图片

文心一言

ChatGPT-3.5

测试结果表明:星火认知、文心一言根本做不了简单的中学题目。ChatGPT3.5似乎理解了题目,做题推导过程看起来也很厉害的样子,但做没做对就要另当别论。暂且不论做题过程和结果的正确性,ChatGPT3.5相对是最好的。

结语:非要对星火认知和文心一言分个孰优孰劣,真的很难做出分辨,也没有多大意义。包括星火认知和文心一言在内的一部分国产大模型,现阶段帮助人类做一些文科性的工作任务,倒是可以的。随着时间的推移,应该有一些面向通用方向的国产AI大模型会越来越好。同时,一些专业的AI模型,比如专注文本生成语音、专注文本生成图像、专注文本生成视频,等等,也应该是有机会的。