导语:在 AI绘画的发展历程中,技术不断突破,算法不断优化,艺术不断创新,这也给人们的生活带来了极大的便利。那么, AI绘画未来会成为主流吗?或许,我们还需要从 AI绘画的发展历史谈起。

最近两年, AI绘画火得一塌糊涂,无论是在国内还是国外,都涌现了一大批以“AI绘画”为关键词的作品。不过,在很多人眼里, AI绘画只是和我们日常所见的图像生成软件一样简单。

那么,什么是 AI绘画?它跟我们想象中的图像生成软件又有什么区别?

三月十五日,备受期待的 Midjourney V5 AI 艺术生成器正式发布,再次改变了 AI 驱动的艺术创作世界。它拥有显著增强的图像质量、更多样化的输出、更广泛的风格范围,以及对无缝纹理的支持、更宽的宽高比、改进的图像提示、扩展的动态范围等。

目前,Midjourney在前期有限次数的免费试用后,就必须充值会员使用,会员类型包括基本、标准和Pro会员三种,其中基本会员每月10美元,有200次生成图片的机会,标准会员每月30美元不限次生成,Pro会员则有更快的生成速度和并发快速作业等功能。

充值会员后,若想使用V5,只需在生成图片的关键词后缀加上“- v 5”即可。如果不对生成的图片加上任何风格要求,V5会更加倾向于生成写实类照片。

下图是以“埃隆·马斯克介绍特斯拉,90 年代的商业广告”为 prompt(提示),分别用Midjourney V4Midjourney V5生成的图像。

v4/v5对比图

此次满足人们期待的是,Midjourney V5 带来了更逼真的图片生成效果,更有表现力的角度或场景概述,以及终于画对的“”。

曾经在 AI 绘画界广泛流传的一个笑话是,“永远不要问一个女人的年龄或一个 AI 模型为什么要把手藏起来。”这是因为,AI 艺术生成器是“画手困难户”,尽管它们可以掌握视觉模式,但不能掌握潜在的生物逻辑。换句话说,AI 艺术生成器可以计算出手有手指,但很难知道一个人的一只手正常应该只有 5 个手指,或者这些手指之间应该具有固定关系的设定长度。

手部对比图

在过去的一年里,AI 艺术生成器无法正确渲染手的 “缺陷” 已经成为一种文化修辞。手部问题在一定程度上与 AI 艺术生成器从它们接受训练的大量图像数据集中推断信息的能力有关。

值得注意的是,Midjourney V5 可以很好地生成逼真的人手。大多时,手是正确的,一只手有 5 个手指,而不是 7-10 个。

Midjourney V5 的发布,引起了全球用户更广泛的兴趣激增,巨大流量的涌入使得 Midjourney 服务器短时间崩溃,进而导致众多用户无法访问。除此之外,OpenAIDALL·E 2、Stability AI Stable Diffusion 等 “文生图” 模型此前也是业内讨论的热门对象。

当人们向这些 “文生图” 模型中输入任何文本后,它们就可以生成与该描述相匹配的、较为准确的图片,生成的图片可以被设定为任意风格,如油画、CGI 渲染、照片等,在很多情况下,唯一的限制来自人类的想象力。

起源:梦开始的地方

2018 年,第一幅由 AI 生成的肖像《Edmond de Belamy》问世,它由生成对抗网络(GAN)创建,是 Obvious Art 的 “La Famille de Belamy” 系列的一部分,最终在佳士得艺术品拍卖会上以 432500 美元成交。

Edmond de Belamy

2022 年,Jason Allen 的 AI 创作作品《Théâtre D’opéra Spatial》在科罗拉多州博览会的年度艺术竞赛中获得了第一名。

Théâtre D’opéra Spatial

近些年,各类 “文生图” 模型也在人们的期待中纷纷登场。当神经网络在图像处理方面取得了一定的成果后,研究人员们便开始开发一些可视化技术,以更好地了解这些神经网络是如何看待世界并进行分类的,由此塑造了一个又一个 “文生图” 模型。

AI绘画通常是基于神经网络技术来进行生成,这种方式可以对图像进行非常复杂的结构化处理,然后利用这些数据进行训练,从而生成新的图片。

图片展示

令人惊讶的是,输出图像中包含了许多动物的面部和眼睛,这是因为ai绘画工具 使用了 ImageNet 数据库(不同犬种和鸟类的例子)来训练。对于一些人来说,ai绘画工具 生成的图像类似于梦境般的迷幻体验。但即便如此,ai绘画工具加速了人们将 AI 作为艺术图像创作的工具的工作。

Neural Style Transfer 是一种基于深度学习的技术,能够将一张图像的内容与另一图像的风格相结合,如上图(右),将梵高的《星夜》应用于目标图像。Neural Style Transfer 重新定义了 CNN 中的损失函数来实现——通过 CNN 的高层激活保留目标图像,以及多层激活来捕捉其他图像的风格。由此,输出的图像将保留输入图像的风格与内容。

2017 年,Wei Ren Tan 等人提出了模型 “ArtGAN”,尽管其输出的图像看起来完全不像是画家的作品,但仍旧捕捉到了艺术品的低阶特征。由此,ArtGAN 激发了更多研究者使用 GAN 生成艺术图像的兴趣。

不久之后,Ahmed Elgammal 等人提出创造性对抗性神经网络 “CAN”,以训练 GAN 生成被鉴别者视为艺术但不符合任何现有艺术风格的图像。由 CAN 产生的图像看起来大多像一幅抽象画,给人一种独特的感觉。

2017 年,Phillip Isola 等人创建了条件型 GAN,即 pix2pix,接收输入图像后生成一个转换版本。

pix2pix 是生成式 AI 的一个重大突破,但它需要相应的图像对来进行训练,而这并不适用于所有应用。例如,如果没有为莫奈创作的每一幅画提供相应的照片,pix2pix 就无法将输入转换为莫奈绘画。

为此,Jun-Yan Zhu、Taesung Park 等人提出了 “CycleGAN”,通过组合两个条件型 GAN 和它们之间的 “循环” 来扩展 pix2pix,这一模型可以将图像转换为其他模态,而无需在训练集中看到成对图像。

今生:群雄割据

重大的转折发生在 2021 年,一些 “文生图” 模型纷纷降临。OpenAI 发布了 DALL·E——以 Pixar 的动画片《Wall-E》和超现实主义画家 Salvador Dali 命名。 是 OpenAI 推出的文本转图像模型,生成效果奇幻且逼真。升级为 DALL·E 2 后,生成图像具有更高的分辨率和更低的延迟。OpenAI 推出的文本转图像模型,生成效果奇幻且逼真。升级为 DALL·E 2 后,生成图像具有更高的分辨率和更低的延迟。输入给定的文本,DALL·E 可以预测图像标记,并在推断过程中将其解码为图像。

DALL·E 还可以将其单独学习但从未在单个生成的图像中看到的概念组合在一起。

DALL·E OpenAI 推出的文本转图像模型,生成效果奇幻且逼真。升级为 DALL·E 2 后,生成图像具有更高的分辨率和更低的延迟。值得注意的是,DALL·E 2 还添加了一个图像编辑功能,可以修改图像的部分区域。

DALL·E 绘图

不久之后,谷歌发布了名为Imagen 的文生图模型。这一模型使用 NLP 模型 T5-XXL 的预训练编码器,其嵌入被反馈送至 Diffusion 模型。因此,这一模型能够更准确地生成包含文本的图像(这是 OpenAI 的模型难以解决的问题)。

然而,在 “文生图” 领域最大的革命可能是 Stability AI 公司发布的完全开放源代码的 Stable DiffusionStable Diffusion 的计算效率远高于其他文生图模型,以前的文生图模型需要数百天 GPU 计算Stable Diffusion 需要的计算量要小得多,因此资源不足的人更容易接受。它还允许用户通过图像与图像之间的转换(如将素描变成数字艺术)或绘画(在现有图像中删除或添加一些东西)来修改现有的图像。

ai绘图

深度学习及其图像处理应用现在处于与几年前完全不同的阶段。在上世纪初,深度神经网络能够对自然图像进行分类是开创性的。如今,这些里程碑式的模型或是采用 Transformer 或是基于 Diffusion 模型,能够基于简单的文本提示生成高度逼真和复杂的图像,使得 “文生图” 领域大放异彩,成为艺术界的一只新画笔。

AI artist 自诞生起就饱受争议,版权纠纷、输出错误信息、算法偏见等等,让“文生图”应用一次又一次站在了风口浪尖。

例如,今年 1 月,三位艺术家对 Stable Diffusion 和 Midjourney 的创建者 Stability AI 和 Midjourney 以及 DreamUp 的艺术家组合平台 DeviantArt 提起了诉讼。他们声称,这些组织侵犯了 “数百万艺术家” 的权利,在 “未经原创艺术家同意” 的情况下,用从网络上抓取的 50 亿张图片来训练 AI 模型。

艺术家们大多很害怕自己会被机器人取代,因 AI 模仿其独特风格的模型而失去生计。

在去年 12 月,数百名艺术家向互联网上最大的艺术社区之一 ArtStation 上传图片,表示 “对 AI 生成的图像说不”。同时,一些艺术家悲观地认为,“我们正眼睁睁地看着艺术之死展开”。围绕训练数据中使用的图像版权问题,尚处于争议之中。

当然,也不乏一些艺术家积极地拥抱 AI,将文生图模型当作自己的绘画助手,省去重复性的枯燥劳动。

同时,一些艺术家将 AI 作为想象力的 “引擎”,在与类似 Midjourney 软件及社区中的用户交互中,彼此互相撕裂,产生新的、有趣的人类美学,进而溢出到真实世界。正如 Midjourney 所描述的:“AI 不是现实世界的复刻,而是人类想象力的延伸”。

目前,监管机构正在追赶 AI artist 的脚步。最近,美国版权局在一封信中表示,使用 AI 系统 Midjourney 创建的图画小说中的图像不应获得版权保护,该决定是美国法院或机构对 AI 创作的作品的版权保护范围做出的首批决定之一。另外,一些学者为保护艺术家免受文生图 DIffusion 模型的风格模仿,提出了一个允许艺术家将精心计算的扰动应用到他们的艺术中的系统—— Glaze。

一系列 “文生图” 应用允许没有编程知识的艺术家及大众使用这些强大的模型,生成极具视觉震撼的图像。“给 AI 以创造”,不论是绘画还是其他领域,这些工具可以帮助艺术家表达他们的创造力,并可能塑造艺术的未来。

AI 在艺术中的作用将取决于它的使用方式以及使用它的人的目标和价值观,重要的是要记住,这些模型的使用应该以道德和负责任的考虑为指导。