本系列根据 WAVE SUMMIT+ 2022深度学习开发者峰会「AI 大模型 智领未来」论坛嘉宾分享整理。文章整理自百度杰出研发架构师肖欣延的主题分享——AI 作画:文心一格赋能艺术与设计创作。


针对视觉内容创作门槛高、耗时长等行业痛点问题,百度推出了基于文心大模型的 AI 艺术创作产品文心一格。通过文心一格核心系统的技术创新,让 AI 作画普惠大众,提升创作效率。目前,文心一格产品已经对外发布使用,大众用户均可使用。


01

视觉内容创作门槛高、耗时长


众所周知,画画、制图、设计等都属于视觉内容创作,但一般情况下,视觉内容创作门槛高、耗时长。比如对于普通大众来说,他们在日常生活中很难进行自主创作,更多时候通过搜索引擎检索使用网上图片,而对于专业内容创作者来说,视觉内容创作的制作流程复杂,往往需要花费大量时间。


如下图右侧的几张插图,创作者需要花费数年时间才能完成,由此可见通过 AI 技术提升图像创作效率将对视觉内容创作产生巨大价值。



对此,百度推出了基于文心大模型的 AI 艺术创作产品——文心一格。用户在体验该产品时只需要输入一句话,AI 就能够自动生成创意画作。因此,创作者不再需要设计整个复杂过程和图像制作,而只需要输入语言,这使整个创作效率实现了大幅提升。



通过文心一格,我们能够让 AI 作画普惠大众,提升创作效率。对于大众用户来说,实现了零门槛的艺术创作体验,同时能够生成大量个性化作品,并且直接使用在日常生活中。下图左侧展示了部分文心一格用户的 AI 画作作品。



而对于专业内容创作者来说,他们也可以使用文心一格提升创作效率,通过人机共创的方式激发灵感。比如一些用户使用文心一格在数天内完成了数千张 AI 画作,并且进一步激发灵感,完成最终的图像制作。


为了实现 AI 作画应用实际落地,我们主要面临三方面的挑战:


  • 创作需求理解,即如何准确地理解用户需求,降低用户输入描述的难度。

  • 图像原创生成,即如何支持用户艺术、写实等多样化的画作生成需求。

  • 创作需求满足,即如何对生成结果优化,高质量满足用户创作需求。



02

文心一格核心系统的技术创新


为此,百度飞桨文心一格研发了一个核心文生图系统,这个系统是基于语言与知识驱动的原创生成与二次创作。整个系统是基于文心大模型实现的,包括文本、视觉和跨模态三个方面。


对应落地应用面临的三方面挑战,整个系统也进行了三大技术创新。


  • 基于知识的 Prompt 学习。对用户输入的文字,通过自动创意规划,能够大幅提升易用性。

  • 文本跨模深度融合的文生图。在图像生成中,通过文本和跨模态的深度融合,模型兼具整体复杂构图和局部细节刻画能力。

  • 文本驱动的图像编辑。通过文本驱动的图像编辑,允许用户进行多轮交互,提升画作质量。



具体技术创新如下:


▎Prompt 自动学习


文心一格基于知识的理解与扩充,大幅提升易用性。首先,当用户输入一个文本 Query,文心一格通过面向 Prompt 工程的 Query 理解,能够进行多角度识别,进而根据识别结果进行扩充,把整个描述丰富化,包括风格、构图、视觉要素等。同时,这两个过程也可以通过端到端生成实现,这里,两种方式都是基于知识图谱得以实现。最后,文心一格通过 Prompt 排序获得比较好的 Prompt,再输入给文生图环节,最终生成精美的 AI 画作图片。



▎统一图像生成


文心一格提出文本语义驱动和跨模态匹配联合引导的模型,兼具意象和具象的生成。在文生图上通常存在两方面的问题,一个是整体的复杂构图,另一个是细节的刻画。整体上,这两方面分别对应着两个流派重点关注的问题,一个是类似 Stable Diffusion 这类文本引导的模型;另一个是基于跨模态匹配模型,类似与 DiscoDiffusion,也即由跨模态模型进行在线引导和迭代优化模型。这两个模型分别擅长细节刻画和整体艺术生成。因此,文心一格提出了一个联合模型 UPainting,该模型同时使用文本先验引导与跨模态引导,同时兼具两类模型的优势效果。



▎统一图像编辑


在图像生成后,有时生成结果可能不尽人意,用户会希望对图片进行一定修改。对此,文心一格也支持文本驱动的图到图生成。下图左侧是模型效果,通过引入对输入文本的注意力机制,就能够让扩散生成模型更加关注用户希望修改的部分,实现图像的二次生成和创作。文心一格具有三种编辑能力:一是元素修改,即对一幅图像的局部进行修改;二是实现风格转化与迁移;三是进行相似图的二次生成。


基于以上技术,目前文心一格已经同时具备复杂构图与细节刻画两种不同模式的艺术创作,并且兼具多种风格。下图左侧两张图更关注于整体构图,中间三张图更多注于细节刻画,右侧两张图既有复杂构图,也有细节刻画。目前,针对各种不同艺术风格的图,文心一格都能较好完成。



03

文心一格开放使用和对外合作


目前,文心一格除了开放对外使用以外,也参与了一些重要场合的合作共创,下面展示的是文心一格与人民日报合作创作的视频,主题是 AI 描绘未来中国。通过对二十大报告的一些关键词,自动生成图片,并最终剪辑成视频。


此外,文心一格也在很多重要活动多次亮相,业界反响热烈。比如在万象大会上发布首支全 AIGC 生成的 MV《启航星》、在世界人工智能大会上发布的上海印象系列画作、与朵云轩合作拍卖 AI 续画陆小曼未尽稿,以及跟时尚 COSMO 合作发布的首个 AI 时尚封面等等。



目前,文心一格已经对外开放,欢迎访问下方链接前往官网体验。


文心一格网址


https://yige.baidu.com/