距离新一代人工智能语言模型GPT-4发布不到24小时,国内互联网大厂百度3月16日发布了对标ChatGPT的AI产品——文心一言。 尽管百度创始人兼董事长李彦宏一上台就“降了音调”,表示推出文心一言是为了回应市场期待,产品本身并不完美,但仍然无法降低网友心中早已被拉满的期望值。
文心一言开启邀请测试不到一小时,就涌入了3万多家企业申请。而从2月7日官宣预告到邀请测试,中间隔了37天。毫无疑问,文心一言的推出为竞争已近白热化的自然语言处理赛道再添一缕硝烟,也意味着ChatGPT全球赛开场。近期,国内还有数款类ChatGPT模型将要发布,面对差距,国内产品应该如何追赶“国际顶流”?专家呼吁国内用户多一些耐心与真诚参与,给尚不完美的模型提供高质量的数据反馈。
全球首款实现多模态输出的类ChatGPT产品
3月16日下午两点,万众瞩目的邀请测试展示如期召开。李彦宏展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。
上海交通大学计算机系专攻大语言模型方向的博士生陈星宇全程观看了发布会。在他看来,整场演示内容流畅,亮点不少,达到了他的预期。而演示最出彩之处当属文心一言将一段文本生成了图片、音频和视频,这是全球发布的产品级大语言模型中首个实现多模态输出的模型——即使是前一天发布的GPT-4,也只展示了多模态输入功能。
多模态输出意味着什么?陈星宇表示,目前尚没有一篇正式出版的文章介绍多模态输出是如何实现的,这属于百度自己的“独门秘籍”。据他猜测,应该是百度整合了多个不同类别的大模型的结果。而要把这些模型无缝整合到一个对话系统中,并实现流畅输出,其中有很多工程技术难题需要解决,比如优化。“百度在这方面做得很好。”他说。
仅从演示看,陈星宇认为文心一言达到了类ChatGPT的水准。但遗憾的是,演示并非实时,这也让不少欲亲自参与测试的网友大呼“不过瘾”。
人类“循循善诱”,才能让机器输出更好答案
此次,文心一言没有开放大规模公众测试,而是采用发放邀请码的方式邀请小部分用户参与体验。对此,部分网友表示不理解。
但在业内人士看来,这其中有更深层次的考量。“现阶段的文心一言,更需要有明确任务的使用者,而非打发无聊时光的对话者。”陈星宇说。
试想一下,当你把语言模型当成生产力工具,让它帮助你完成一项工作时,如果它输出的内容不能满足你要求,你可能会尝试改变提问的角度或输入更多有价值的信息,以便让答案更符合你的预期。而当你只是想聊天时,或许就没那么认真了,你输入的内容也许漫不经心,也许有些小错误,甚至你还会暗自期待它犯错。
事实上,最新发布的GPT-4演示也证明了人类的“循循善诱”是如何让机器输出更完美答案的:演示者通过让GPT-4代入某种角色,并交代了四个回答问题的步骤,教会他产出令人满意的回答。
复旦大学计算机学院教授、深耕人工智能和自然语言处理20余年的黄萱菁表示,高质量的语料库和优质的人类反馈,是造就ChatGPT优异表现的两大关键因素。对于其所在实验室正在训练的类ChatGPT模型MOSS,他们也将通过更高质量的中文数据进行性能优化。
多一点耐心,给中国类ChatGPT更多成长机会
当下,生成式人工智能的表现虽然令人惊艳,但远未达到完美无缺的程度。即便是大受褒奖的GPT-4,在其公布的报告中也坦言,他们仍然无法彻底解决大语言模型的幻觉问题。相比ChatGPT,GPT-4回答事实性问题的准确率已达到80%,ChatGPT只有60%。
想要通过大语言模型得到令人满意的答案,耐心必不可少。一位网友反映,他用了8个问题引导,才让ChatGPT给出了勉强令人满意的答案。
上海交通大学计算机系助理研究员陈露透露,在类ChatGPT赛道上,中国已拥有许多不亚于文心一言规模的大语言模型,如浪潮的“源”、华为的盘古、阿里巴巴的PLUG,腾讯、字节等互联网大厂也有未公开的模型。“这条赛道,中国并非没有机会,但需要给它们更多成长空间。”
自今年2月百度官宣文心一言以来,已有超过650家企业宣布接入文心一言生态。随着大批由任务驱动而产生的高质量数据的涌现,文心一言将在与用户的互动与反馈中快速学习和成长。
“ChatGPT的成功表明,人工智能已经找到一条对的路。既然路走对了,迭代速度将是很快的。”黄萱菁说。以应用为驱动的人工智能,将通过真实用户反馈、开发者调用和模型迭代之间的飞轮快速进化,或许今天尚显稚嫩的模型很快就能达到“士别三日,当刮目相看”的效果,但眼下我们需要的仍是耐心与宽容。