聊《三体》、作藏头诗……百度力推文心一言背后隐藏竞争“马太效应”。


“十月怀胎,一朝分娩。”3月16日,百度创始人、董事长兼首席执行官李彦宏在形容正式面世的“文心一言”时这样说道。这款基于文心大模型技术推出的生成式对话产品,被很多人带着期盼、也被很多人带着质疑地称为“中国版ChatGPT”。


发布会上,李彦宏展示了文心一言的多项特性。它可以聊《三体》,给公司起名字,甚至在做数学题时能够指出题目中的错误。从现场展示来看,文心一言某种程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。


除了对话展示,百度在发布会上用了相当大的篇幅,介绍了文心一言背后的文心大模型——从2019年推出第一代开始,该模型已经更新了多代,累计发布了十多个行业大模型,已经在深入赋能实体经济。


不难看出,从一开始就被拿来与ChatGPT比较的文心一言,对于百度来说,远非一个被人类拿来花样“调戏”的对话机器人。百度的野心,其实是预训练大模型可能实现的智能化变革。


李彦宏在发布会上。企业供图


能说四川话,还能做海报,文心一言展现独特优势


李彦宏在发布会上展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。除了与ChatGPT相似的对话功能,文心一言也表现出来一些独特的优势。


在文学创作场景中,文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。


此外,文心一言准确回答了《三体》作者、电视剧角色扮演者等事实性问题。这得益于百度知识增强的大模型理念,大幅度提升了事实性问题的准确率。与ChatGPT不同,文心一言补齐了生成式AI在回答事实性问题时常常“胡编乱造”的短板。


在商业文案创作场景中,文心一言顺利完成了给公司起名、拟公司口号、写新闻稿的创作任务。连续三次内容创作生成中,文心一言既能理解人类意图,又能较为清晰地表达,这是基于庞大数据规模而发生的“智能涌现”。据了解,文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,这让文心一言在中文语言的处理上更加得心应手。


此外,文心一言还具备了一定的思维能力,能够学会数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。


作为扎根于中国市场的大语言模型,文心一言具备中文领域较为先进的自然语言处理能力,在中文语言和中国文化上有较好的表现。在现场展示中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。


文心一言聊“洛阳纸贵”。企业供图


多模态生成方面,李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。有趣的是,文心一言甚至能够生成四川话等方言语音;文心一言的视频生成能力则因成本较高,现阶段还未对所有用户开放,未来会逐步接入。


“多模态是生成式AI一个明确的发展趋势。”李彦宏表示,“未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。”


百度率先拿出对标ChatGPT产品,背后是人工智能技术的长期投入


文心一言将在未来给普通用户带来怎样的体验,还需要时间的检验。不过,在ChatGPT爆红之后,中国企业确实成为了全球主流互联网大厂中,率先拿出对标成果的玩家。正如李彦宏在发布会上所说:“百度文心一言对标ChatGPT,门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。”


百度极速推出文心一言,背后也有技术演进逻辑的原因。有业内人士指出,大语言模型是个马太效应非常明显的行业,可以说如果落后18个月,就基本没机会了,因为先一步发布的产品已经迭代得非常先进了。因此,率先推出产品,就可以率先获得用户反馈,驶上快速迭代的高速路。


李彦宏多次提及,这类大语言模型还远未到发展完善的阶段,进步空间很大,未来这段时间它一定会飞速发展,日新月异。他强调:“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。”


而百度能够拿出文心一言这一产品,与其在人工领域内的长期积淀分不开。“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理,需要多年的坚持和积累,没法速成。”李彦宏表示。


在人工智能技术“芯片-框架-模型-应用”四层结构中,百度是全球为数不多在这四层进行全栈布局的公司,从昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到百度搜索等应用,各个层面都有自研技术。


在人工智能领域投入多年的百度,终于等到了可能要丰收的季节。此前,百度就已经宣布,计划将多项主流业务与文心一言整合。具体来看,百度计划与文心一言整合的主流业务包括搜索、智能云、Apollo自动驾驶、小度智能设备等。



超过650家企业宣布接入文心一言生态,百度志在赋能智能化变革


有机构预测,到2030年,人工智能可以将每一个知识工作者的生产力提高4倍以上。可以预见的是,随着文心一言这类大语言模型的迭代,带来所有人都能使用的最先进生产力工具,很多人的工作性质会发生不可逆转的改变。而这,或许才是百度更大的野心所在。


一个值得玩味的细节是,3月16日起,除了首批用户可通过邀请测试码在文心一言官网体验产品外,百度智能云也即将面向企业客户,开放文心一言API接口调用服务。


自2月份百度官宣“文心一言”以来,已有超过650家企业宣布接入文心一言生态。百度方面表示,百度对文心一言的定位是人工智能基座型的赋能平台,通过新技术帮助企业创建更好的客户体验,创造更大的商业价值。


李彦宏表示,AI市场爆发性的需求增长,将释放出前所未有的、指数级的商业价值。他预测,大语言模型将带来三大产业机会。第一类是新型云计算公司,文心一言将根本性地改变云计算行业的游戏规则。第二类是进行行业模型精调的公司,这是通用大模型和企业之间的中间层,他们可以基于对行业的洞察,调用通用大模型能力,为行业客户提供解决方案。第三类是基于大模型底座进行应用开发的公司,即应用服务提供商。


李彦宏断言,对于大部分创业者和企业来说,真正的机会并不是从头开始做ChatGPT和文心一言这样的基础大模型,这很不现实,也不经济。基于通用大语言模型抢先开发重要的应用服务,这可能才是真正的机会。目前,基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景,已经涌现出很多创业明星公司,可能就是未来的新巨头。


东方证券日前发布的研报指出,大模型的应用落地有望带来产业智能化变革。未来几年是大模型的快速发展窗口期,相关的大模型算法、算力基础设施、下游B端通用应用软件和垂直行业领域都有望迎来加速增长。


而就在百度文心一言新闻发布会召开前一天,推出了ChatGPT的OpenAI公司也发布了其多模态预训练大模型GPT-4,相比于前代模型GPT-3.5,在多个维度上有了不小的提升。大洋两岸,两家人工智能科技企业不约而同的步调,显示出大语言模型和生成式AI正在成为新的技术焦点。越来越多企业的入局,也将加速智慧变革重塑更多的行业、企业以及从业者的机会。


- 阅 读 推 荐 -
刚刚!这个白皮书信息量极大!
那些年,我买过的奇葩盗版书