文心一言正式开放邀请测试近8小时后,百度(BIDU.O)股价迎来了逆风翻盘。


3月16日晚,在以3.57%的跌幅水平低开后15分钟内,百度股价迅速逼平涨跌临界线。经过约1小时的多空博弈后,最终多头占据上风,百度股价一路走高,至收盘报于138.16美元,涨幅达到3.8%。


如果说当日白天,面对刚刚出世的文心一言,资本市场还颇显失望。那么在过去的这一夜里,外界的态度已开始分化甚至逆转。


而在3月17日,百度集团-SW(09888.HK)股价进一步暴涨。在盘前涨幅达到7.91%之后,截至上午11点,百度股价涨幅已达到12.31%。作为中国本土首款对标ChatGPT的产品,“文心一言”开始逐渐被资本消化并理解。



时针拨回至发布会开始的那一刻。“我自己测试感觉还是有很多不完美的地方,对标着ChatGPT甚至GPT-4,门槛是很高的。”在文心一言的发布会开场,百度公司创始人、董事长兼CEO李彦宏直言道。


或许也是这样的表态、现场录屏演示的保守风格,在最初影响了资本市场的信心。但随着文心一言开放测试逐渐展开、首日6.5万家企业申请调用等信息公布,外界开始看到文心一言背后、基于中国本土市场展开的AIGC想象空间。


而这一切,源于李彦宏在文心一言身上所寄托的技术“野望”。“全球大厂还没有一个做出来的,百度是第一个。”“百度已经看到在生成式AI领域的强烈市场需求,这也是百度积极研发、迭代并推出文心一言产品的原因。”

 

文心一言问世


“整体大大超出了我的预期。”多位体验过文心一言测试的用户如是说。


从发布会现场来看,通过在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的能力展现,文心一言也确实在一定程度上具备对人类意图的理解能力,回答的准确性、逻辑性、流畅性也都逐渐接近人类水平。


例如,在文学创作场景中,李彦宏以著名科幻小说《三体》为例,围绕小说核心内容、内容续写提问文心一言,在几秒时间内,文心一言给出综合性强、内容提炼度高的回答;在数理推算能力展示中,文心一言对“鸡兔同笼”问题进行作答并纠正了题干给出的错误信息。


此外,文心一言还具备文本、图片、音频和视频的多模态生成能力,在音频方面甚至能够生成四川话等方言语音。“多模态是生成式AI一个明确的发展趋势。”李彦宏表示,“未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。”


一位业内观察人士指出,文心一言看似简单,其实背后具备很高的技术门槛。“能做应用题,意味着对长文本的理解能力要求很高,整体文生图、文生视频这些多模态生成能力也需要大量的技术积累。”


该人士同时表示,此前ChatGPT给他最大的震撼点在于它是一套通用人工智能系统,这是对于行业的颠覆。“过去的AI深度学习更多是将任务进行拆解和细分,任务拆得越细就越简单,AI就容易处理并达到较好的效果,如今则是一套模型打天下,通过零样本学习具备深层次的通用能力,这件事情是非常难的。”


尽管从整体而言,文心一言这类大语言模型还远未到发展完善的阶段。但一经上线后,得益于真实的用户反馈,文心一言将快速迭代。“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。”李彦宏表示。

 

本土市场优势


尽管目前暂无法与ChatGPT同日而语,但文心一言也有自己的优势。


在发布会现场,李彦宏特别对文心一言的中文理解能力进行了展示。在展示过程中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。


“‘洛阳纸贵’、‘藏头诗’,这很考验AI对中文和中国文化的理解。”李彦宏指出,“作为扎根于中国市场的大语言模型,文心一言具备先进的自然语言处理能力。这个例子就比较清楚的展示了我们在中文上的优势。”


而据实际测试,文心一言也颇懂中文。例如,在询问“校服上除了校徽别别别的”这句话的含义时,文心一言立刻给出了正解:

 


而在输入“苔花如米小”这个诗句并询问含义,文心一言也很快给出了答案:


 

而在用户要求根据上述主题创作歌曲时,文心一言也给出了自己的答案。通过文心一言的歌词能够发现,它确实在一定程度上理解了“苔花如米小、也学牡丹开”的含义。


 

在多模态生成方面,文心一言也表现不错,在短时间内迅速给出了自己的作品。尽管从作品本身而言,文心一言尚未理解“苔”的真正形态,因而在对苔花的呈现上还略有偏差。但从表义来看,此图已有“苔花如米小”的神韵。


 

“当前ChatGPT的强大是有目共睹的,但在中文领域ChatGPT的成熟度略低。”浙江大学国际联合商学院数字经济与金融创新研究中心联席主任盘和林指出。事实上,作为高度本土化的生成式AI产品,文心一言更加匹配国内用户的中文使用习惯,表现出较高的中文语言和中国文化的理解能力。


对中文的准确理解,离不开高密度的中文数据训练。IDC中国研究总监卢言霞认为,文心一言有中文语言优势,有国内领域相关数据积累。据了解,文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。


在盘和林看来,文心一言的另一个优势则在于易得性,相较之下,ChatGPT在国内的使用难度明显较高。


事实上,大量的企业对文心一言保持着超高的热情,自2月7日百度官宣文心一言后,已有650家企业宣布加入文心一言生态。而在文心一言发布会后一小时内,排队申请文心一言企业版API调用服务的企业用户已达3万多家,首日有6.5万家企业申请调用。申请产品测试网页多次被挤爆,百度智能云官网流量飙升百倍。


在发布会上,李彦宏也坦言,百度之所以在当下仍不完美的时刻推出文心一言,是“因为市场有需求”。无论是百度搜索、智能云、自动驾驶、小度等业务线均有需要,且更重要的是客户和合作伙伴的需要。


“从我们承认文心一言的存在到现在,短短一个月的时间,就有超过650家合作伙伴宣布加入文心一言生态,大家都希望能早一点用上最新最先进的大语言模型。”李彦宏表示。

 

从0到1的十年技术长跑


文心一言的面世,更像是从0到1的过程。尽管仍有不完美,但已大大超出用户预期。


“要真正追上ChatGPT确实存在难度,但国内能在短时间有这样的产品出来,就已经很不容易,先上桌,才能进入快速迭代的飞轮。”有评论人士表示。


事实上,在全球大厂中,百度是第一个做出类ChatGPT的产品,从而让所有人能使用拥有先进技术的生产力工具。但平心而论,尽管拥有外部市场的强烈需求,但文心一言产品背后的大语言模型,难以速成。


据百度集团首席技术官王海峰介绍,作为新一代知识增强大语言模型,文心一言是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。


其中,前三项是这类大语言模型都会采用的技术,ERNIE和PLATO中也已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。


事实上,早自2019年,百度便推出了知识增强的语义理解框架ERNIE(文心大模型),并广泛应用于阅读理解、情感分析、智能搜索问答、视频推荐、CTR预测等领域。目前,ERNIE系列模型经过了多次的迭代,具备了较强泛化能力和性能。


例如,百度最新发布的ERNIE 3.0 Zeus,已经拥有千亿级参数,并具备智能创作等各类自然语言理解和生成任务。与业界其他模型相比,ERNIE 3.0 Zeus在公开数据集上的小样本学习、理解和生成任务效果均处于领先水平。根据IDC最新发布的《2022中国大模型发展白皮书》,百度的文心大模型在产品能力、生态能力方面已处于国内第一梯队的水平。



除了文心大模型本身之外,百度尤其值得称道的是对人工智能时代IT技术栈的全栈布局。李彦宏介绍,在过去,IT技术栈主要分为芯片层,操作系统层和应用层三层架构。而进入人工智能时代后,完整的AI系统具备分为芯片层、框架层、模型层和应用层四层技术架构。


如今的百度,则是全球为数不多、在这四层进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。


李彦宏认为,百度AI全栈布局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。事实上,超大规模模型的训练和推理,给深度学习框架带来了很大考验。比如,为了支持千亿参数模型的高效分布式训练,百度飞桨专门研发了 4D 混合并行技术。


在全球范围内,在四层架构的每一层都有领先产品的公司几乎没有,这是百度非常独特的优势。后续,芯片、框架、大模型和终端应用场景可以形成高效的反馈闭环,帮助大模型不断调优迭代,从而升级用户体验。


而四层全栈布局,更是需要长期多年高投入的坚持与积累。根据百度最新发布的财报显示,百度2022年营收约1237亿元,净利润约207亿元,研发投入达214亿元,占百度核心收入22.4%,在全国科技公司里位于前列。


此外,在多个公开场合,李彦宏也提到,过去十年来,百度累计研发投入超过1000亿元。近年来,百度广告业务在总营收中的占比不断下降,由2017年的近九成降至2022年的六成左右,重投入、周期长的AI业务占三成左右。



“我们相信,人工智能会彻底改变我们今天的每一个行业。AI的长期价值,对各行各业的颠覆性改变,才刚刚开始。未来,将会有更多的杀手级应用、现象级产品出现,将会有更多的里程碑事件发生。”李彦宏说道。