3月16日,百度召开文心一言新闻发布会,介绍了其对标ChatGPT的大语言模型、生成式AI(人工智能)产品文心一言。百度创始人、董事长兼首席执行官李彦宏出席,并展示了文心一言在五个场景中的综合能力。
从发布会呈现出来的效果上看,文心一言某种程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。但李彦宏也多次提及,这类大语言模型还远未到发展完善的阶段,进步空间很大,未来这段时间它一定会飞速发展,日新月异。
现场,李彦宏展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。在文学创作场景中,文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。此外,文心一言准确回答了《三体》作者、电视剧角色扮演者等事实性问题,延续了百度知识增强的大模型理念,大幅度提升了事实性问题的准确率。记者了解到,文心一言既能准确理解人类意图,又能清晰地表达,这是基于庞大数据规模而发生的“智能涌现”。
据悉,文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,这让百度在中文语言的处理上,能够处于独一无二的位置。此外,作为扎根于中国,生长于学术气息浓厚的海淀区的大语言模型,文心一言具备中文领域最先进的自然语言处理能力,在中文语言和中国文化上有更好的表现。在现场展示中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。
目前,百度是全球大厂中第一个做出对标ChatGPT产品的企业。人类进入人工智能时代,IT技术的技术栈发生了根本性变化,从过去三层到“芯片-框架-模型-应用”四层。百度是全球为数不多、在这四层进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。李彦宏认为,百度AI全栈布局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。