#本文为人人都是产品经理《原创激励计划》出品。
前不久,一幅由AI软件创造出来的画作《空间歌剧院》在网络上引起争议。网络上有两派声音,一派认为这画是AI创作的,没有灵魂,不能和人创作的画作一起评比;另一派认为,这是AI已经能创作出符合人类审美的创意作品了,是技术的一大进步。本文作者对此进行了分析,与你分享。
一、AI画画做得有多好了?
最近一个新闻非常出圈,并且成功登上微博热搜,一个来自美国的39岁的游戏设计师用AI画画工具-midjourney创作的一张作品,获得了科罗拉多州博览会的艺术比赛第一名。
作品名称叫做《空间歌剧院》,作品本身非常漂亮,作为一个艺术圈外行的我,都觉得这张画作抛开本身创作来源不讲,都是一个配得上大奖的作品。AI至少比我画的好多了,甚至赢了很多其他参赛的人类艺术家。
事情一出,评论呈两极化分布,对于“老艺术家”派们当然对于这件事情十分抵制,认为这画是AI创作的,完全没有意义,没有灵魂,作者根本就是亵渎艺术,他不配做一个画家。
而另外一派,当然是像我一样的AI从业者或者是技术拥趸,我们看到这样的作品是非常激动的,AI创作得也太美了,惊为天人,前途无量,于是第一时间上网把所有的热门AI画画软件都试了一遍。
作为吃瓜群众的你们,怎么看待这张AI创作获得大奖的事情呢?
无独有偶,另一个主打“免费开源”AI画画的公司stablediffusion,目前已经估值超过10亿美金,这离他们发布才过去了1个月,与上文提到的获奖的midjourney(新注册免费送25次)和Dall.E不同的是,这个工具完全免费,不限次数、任何人都可以使用。
而且亲测,stablediffusion是几个AI画画工具中交互最为简单的。比起Google的另一款竞品discodiffusion,需要注册谷歌机器学习平台,甚至要手动调整一些参数,对于一些非技术从业者要友好多了,基本上就是有手联网就可以用。
谷歌的discodiffusion
stability.ai的stablediffusion
除了交互更加友好外,stablediffusion的创作风格更加写实(更加符合主流大众审美),比如我在midjourney上创作的作品有点后现代抽象画的感觉。
文字prompt:一只绿色海豚在紫色海上飞跃远方有一艘巨轮(版权归大仙河所有)
而OpenAI的DallEmini是“梗图风”,百度的“文心.一格”风格偏向于二次元/国画风,字节的tiktokAI偏向油画风。
除了绘画风格外,商业模式或者是版权也是stablediffusion为什么仅仅上线一个月就乱拳打死老师傅的另一个原因。
因为版权或者是所有权是决定一个内容创作产品的商业模式的主要因素,比如百度一格的作品所有权就归百度所有,你就不太可能拿这个AI平台创作的作品去进行销售,或者是放在各种商业宣传的文案里作为插图(参考视觉中国的故事)。百度的商业模式就是卖版权。
另外的玩法,比如midjourney,类似软件使用付费,除了刚开始的一些免费试用,后面创作都是要付费的。当然这产生的作品版权就是归用户所有了。
Stablediffusion很颠覆的地方就在于,版权归用户外,平台还免费不限次数使用,交互方式还比其他竞品更好用,是不是有点像互联网刚开始冲入传统行业的打法?此外其还在官网上写着“bythepeople,forthepeople”,意思是民治和民享,是不是有点天下为公的意味。
所以stablediffusion做到了真正的出圈,很多其他行业的从业者,比如我们产品经理经常用来画原型交互的figma,就准备引入stablediffusion的创作能力,一句话生成用户界面元素。
看到这里,我突然明白了为什么看到了ai60“一句话”画画的「超能力」后,很多插画师陷入了深深的焦虑,说实话,作为产品经理的我也很焦虑。
二、AI画画是如何做到符合人类的创意和审美的?
焦虑归焦虑,我们即使要被取代,最好也要明白自己是如何被AI一步步取代的。
网上写diffusion的文章很多,但是大部分都是讲如何使用,或者评论diffusion的作品如何惊为天人。要么就是特别专业的角度,给大家拆解模型。
作为一个AI产品经理,我尝试用大众能听懂的话为大家解释下AI是如何创作出来如此及美轮美奂的作品的。
首先,大家需要知道一个关于自然语言大模型的背景知识,如果不知道的可以复习我的上一篇文章「我和AI聊了一下午,被气哭了」,没看过或者看过忘了的都可以去与预习或者复习下,加深记忆。
「AI画画」原理网络架构(能力强的读者尝试理解,主要看文字描述)
我们提到了AI想要理解人,或者能和人们对话,需要上亿的参数、超大模型再加上海量的数据,才能回答一些人们常规的问题或者理解人们某些话背后的含义。
自然语言大模型是第一步,相当于把人们说的话(文字)转换为机器能理解的语言或者是参数(或者是一个公式)。但是这个表示对于人类是完全看不懂的,对于机器却包含了非常丰富的信息。
机器拿着这个表达+一个混合着随机添加的高斯噪声的图片(大家理解成电视机的马赛克图片,混沌状态),一起送到一个网络中训练,这个训练的目标就是得到一个交叉熵最小值,相当于就是解一个非常复杂的很多元的函数(这个过程需要计算机不断地计算,不断的迭代)。
求解完函数后,机器再把这个函数的未知数求得的值送到一个编解码器中,类似电视台发射电视节目信号进行编码,最终家里电视再接收解码输出画面。你家里就不再是噪声的雪花点了,逐渐出现了电视节目的画面。
AI画画(diffusion扩散模型原理)大仙河版解释
最后就能把这个图像生成出来了,这个图就是计算机/AI理解的人类描述语言的画面。以上就是白话版AI画画的原理(专指diffusion扩散方法,包括上文提及的各种竞品)。
看完了上述原理,你还觉得自然语言大模型是无用的吗?你还觉得人工智能是人工智障吗?正是因为有了各种自然语言大模型(无论是英文的、中文的),才能让「AI画画」成为可能。
如果说大家觉得各种AI虚拟聊天助手智商堪忧的话,可以尝试AI画画,真正可以感受到科技的力量,因为毕竟“一图胜千言”。
至少对于我来讲,一个AI行业的非技术从业者,也在体验了「AI画画」之后,觉得“大模型”真香。
今年是text-to-image(文字到图像)蓬勃发展的一年,我们看到了AIGC逐步出圈,不再是学术圈一小撮人自娱自乐的狂欢,而变成了真正民治、民享的产品。
前不久知名网络作家「和菜头」专门写了一篇专栏分享他使用AI画画软件的心得,想来AI画画的影响已经逐步扩散至插画师们、数位艺术家们、游戏画师以及广大的内容创作者们了。
因为AI画画确实画得更好了、更好用了、更方便了,其速度和质量已经超过大部分人类,所以AI画画才能出圈,才可以实现AI全民化。
三、AI会不会取代创意类工作?有什么影响?
最后聊聊所有人都会关心的问题,AI画画全民化了,那我们怎么办?所有内容创作者、数位艺术家们怎么办?我们会被取代吗?
首先,我们要肯定技术进步带来的社会进步,整体来说我们大部分人会因此受益。因为画画的门槛变低了,或者说人们获得一张好看的、自己脑海中的画面的成本很低。我们不用再去像是达·芬奇画鸡蛋那样,一张一张地重复打磨基础也可以获得一张很漂亮的画作。
比如说,对于前面提到的产品经理或者是文字作家,完全就可以通过「AI画画」能力,直接文字描述获得想要的画面,穿插于自己的作品中,提升创作效率,也增加读者和用户的可读性,提高内容表达丰富性。
内容生产力效率提升还能带来什么呢?往大了说,能加速人类文明蓬勃发展。举个例子,放在古代,没有造纸术的时候,人们靠牛车拉满车竹简刻的书上所包含的信息量和你今天手机上的内容量,哪个更多?
而且现在人们每个人都能获得这些信息,每个人都可以创作更好的内容,「AI画画」为人类文明加载了助推器也不为过。
其次,AI画画促进了相关产业的发展,同时也创造了与之相关的新的岗位。比如现在很多科技大厂都在重金投入智慧创作,而智慧创作的核心就是“AI创作”,除了AI画画、AI写诗、AI剪辑视频、AI驱动虚拟头像、AI换背景等等,AI创作还能做什么呢?如何让用户更喜欢用,更好用呢?
AI创作需要产品经理定义产品需求、用户场景,需要开发人员开发相关应用,当然也需要算法人员在相应的细分用户场景上进一步调优:大模型虽好,但不能包治百病。产业发展起来了,需要上下游参与的人越来越多,自然也创造了很多就业岗位。
当然除了2D静态的创作,AI还可以进行视频的创作,比如前不久刚从Tesla离职的计算机视觉大牛AndrejKarpathy就上传了自制的python学习课程,里面的视频内容就全部都是stablediffusion创作的。如果你是一个知识视频up主,不愿意露脸也不太会各种复杂的剪辑,通过AI创作就可以让很多不会做视频的人群瞬间具备了做视频的能力,普通人也可以参与到视频创作的工作中来,赚取相应的收益。
AI同样可以创作3D的物体或者是人物形象,现在很多3D游戏里的场景和人物已经是AI批量生成的了,元宇宙的场景中同样也需要大量的3D素材,如何使用AI将其创作出来,其实也是一个技术活。
此外还有AI画画衍生出来的一些工种,比如有的人会通过让AI创作出来不同画风的高清/4K/8K壁纸,看哪类型的壁纸受益好,放到相应的壁纸网站上赚取受益,同理也可以制作短视频,在短视频平台上养号,赚取收益。
说完C需求,我们看看B端需求。现在很多广告已经不再是“人”来制作了,而是直接让AI来创作,AI学习各种用户点击率高、转化率高的广告,可以更加快速地编辑生成满足广告主爸爸们需求的广告,而且甚至可以根据不同的投放渠道,不同的目标人群进行相应的调整。这背后当然也需要大量的算法同学、产品策略同学等等来支持维护,AI创作才能发挥其最大的效益。
那些画家或者是艺术创作者呢?他们要担心被AI取代工作吗?我觉得还好,每个人的风格大不相同,而且艺术家最最核心的能力在于打造属于自己的风格,而不是去临摹追随其他人的风格,而风格的创造和定义是人类独一无二的,AI无法替代的。
未来艺术家们仍旧可以一边潜心自己的创作和风格摸索,一边调教AI,让TA更好地学习你的创作风格,创作出同风格的更多作品,满足更多的目标客户,甚至未来的艺术品都可以千人千面。
比如有的人可能就想要黄色的「星空」、蓝色的「向日葵」来装饰自己的家,那么艺术家当然完全可以将这类工作交给AI来处理。到那时,人投入时间和心血创作的作品肯定价值会更高,但是艺术家的产量也会总体增加,总收益和影响力都会极大地增加。
最后,想要打消大家的过度忧虑,每个科学技术的进步都会带来巨大的社会变革是没错,但是我们不能因此拒绝或者是抵触技术的进步。AI创作本质上是提升了人类社会内容创作的效率并降低了成本,间接可以让文明更好的传承。将人类从一些低效耗时的事情上释放出来,向价值链更高处迁移。
原来已有的方式不会消亡,反而会变得更加珍贵。比如说工业革命之后,大家都用了工业品,极大地改善了生活品质,但是手工业并没有消亡,而现在很多纯手工打造的产品反而会更加昂贵,甚至很多奢侈品都会主打是纯手工。
同理,未来,画画门槛便低了之后,人们可以欣赏到、体验到更加精美的作品,但是也可以花更高的价格去买“纯手工”的画作。
毕竟AI并不能「诞生」毕加索、达利、米开朗琪罗、哥白尼、牛顿,但是人类可以。既要踏入无人之境,就请拥抱变化和未知吧,请对科技拥有更多善意和信心。
专栏作家
大仙河,公众号:大仙河知识学堂,人人都是产品经理专栏作家。7年AI产品相关经验,专注AI产品化(元宇宙、数字人、全息通信等)领域,致力于构建人工智能学术和工业界的桥梁。
本文原创发布于人人都是产品经理,未经许可,禁止转载。
本文为人人都是产品经理《原创激励计划》出品。
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。