关于AIGC的十问十答
1、AIGC是什么?
AIGC(Artificial Inteligence Generated Content),指的是通过人工智能技术自动生成内容的生产方式。
2、AIGC能生成什么?
AIGC目前的范围包括绘画、文字、音频、视频。主要的创作内容形式都可由AI生成,更长远来看包括虚拟人行为与思维、游戏剧情与NPC交互等数字世界的绝大部分内容都可由AI生成,我们把AIGC看做面向Web3时代的生产力工具。
3、AIGC如何实现?
AIGC领域的技术包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)。总体趋势来看,大模型、大数据、大算力是未来的发展方向。
目前两个常用的模型是【生成对抗网络GAN】和【扩散模型Diffusion Model】,算法模型的突破是近年来AIGC得以快速突破的催化剂。这两种模型的实现原理如下:
1)对抗式生成网络GAN
GAN,是一种深度神经网络架构,由一个生成网络和一个判别网络组成。生成网络产生“假”数据,并试图欺骗判别网络;判别网络对生成数据进行真伪鉴别,试图正确识别所有“假”数据。在训练迭代的过程中,两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别“假”数据,训练结束。
GAN模型的生成基于生成期和判别期的,这会导致也是可以做这个创作,但创作之后不确定性非常强,可能生成了一张图,但是不是你想要的就很难说。另外,更多是在一个生成,一个判别,是对原始图的模仿做的,这一块会导致生成的图像质量分别率比较差的。因此主要用于AI实验室,而更常见于商业应用的扩散模型。
2)扩散模型Diffusion Model
扩散模型的生成逻辑相比其他的模型更接近人的思维模式,也是为什么近期 AIGC拥有了开放性的创造力。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,我们可以通过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。
从更技术的角度来看,扩散模型是一个潜在变量(latentvariable)模型,通过马尔科夫链映射到潜在空间。马尔可夫链是状态空间中经过从一个状态到另一个状态的转换的随机过程,下一状态的概率分布只由当前状态决定。在这一过程中逐步添加高斯噪声来获得近似的后验概率q(𝑥 ! |𝑥!"#),其中𝑥 # ......𝑥 ! 均是潜在变量,并且它们的维度与原图𝑥$ 一致。
扩散模型中添加的高斯噪声是一种概率密度函数符合正态分布的函数,当 AIGC 运用扩散模型来生成内容的时候,是通过在一副纯白的画布(随机白噪声)上逐步去噪来生成最终的目标画作。即用户给出的文本描述形容词,来从一个模糊的概念逐步具象。我们可以简化为多个正态分布函数的叠加,模型选择其中重叠的区间输出,这也是一个逐步缩小范围的过程。这与人类的思维模式很类似。
简言之,在 AI 训练阶段,我们将数据集中上亿组图文对进行训练,提取特征值;生产过程中,通过添加文字描述,引入不同的特征值进行去噪,从而生产一副 AI 理解下的内容 作品。例如,在当我们在脑海中想象一个画面的时候,比如:一只柯基通过一个小号玩火焰。我们的思维模式也是先有一只柯基,再去想象小号和火焰,最后将这些元素叠加在柯基身上。
4、AIGC目前的效果如何?
以下截图来自我们亲自体验AIGC项目。
无界版图(https://www.wujiebantu.com/ai)
输入:一名女分析师正坐在办公室写关于AIGC的报告,透过窗子可以看到外滩的夜景
输出:
Mid-journey(https://www.midjourney.com/)
输入:a female analyst is sitting in the office and writing a report about AI generated content, through the office windows there is a night view of the Bund in Shanghai
输出:
Jasper生成的报告(https://www.jasper.ai/)
输入:write a article about AI generated content, should include the definition, history, usages, current development and opinions about future, with details and example。(大意:写一篇AIGC文章,须包含定义、历史、用途、目前的发展和未来的观点,需要有细节和案例)
输出:
5、AIGC的效果取决于什么?
模型、数据、算力
算法模型:
首先取决于算法模型,相比于其他模型,扩散模型的优势在于生成的图像质量更高,且无需通过对抗性训练,这使得其训练的效率有所提升。同时,扩散模型还具有可扩展性和并行性。目前大部分公司采用开源的生成模型,例如stable diffusion、disco,但也有的平台基于自己整体的模型实现AIGC,如mid journey。开源模型类似于安卓这类开源系统,不同的公司还可在其上实现定制开发,以适应不同风格和需求。
而通过相同扩散模型实现的AIGC,其效果取决于数据集与模型训练。前者需要大数据,后者需要大算力。
数据集:用于训练的图文对的数量和质量都会影响到生成效果。目前主流的文本编码器是来自于OpenAI的Clip模型,其通过4亿组文字-图片对进行训练,但由于图文对绝大部分时英文内容,对中文的支持较弱。因此,高质量的图文对训练素材库也是AIGC的核心竞争力。
模型训练:在用图文对实现模型训练的过程中,需要庞大的算力支持,算力决定了训练的数据量从而决定了训练效果。
6、AIGC有什么应用场景?
就目前而言,内容产业中的许多内容生成都已经有AIGC的影子。
媒体配图
巴比特全面拥抱AIGC,采用AI生成图片为头条文章配图
文案编写
Jasper已经开始为谷歌、脸书等知名公司提供文案AIGC的商业服务。
代码生成
GitHub Copilot是一个GitHub和OpenAI合作产生的AI代码生成工具,可根据命名或者正在编辑的代码上下文为开发者提供代码建议。官方介绍其已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言。
音频剪辑
AIGC生成音频早被应用于我们的日常生活当中。我们常用的手机导航,可以切换不同明星甚至于卡通人物的语音提示。这是通过提前请明星或卡通人物的配音朗读完成一个语音库,再通过反复的训练学习使得可以用指定的声音说出任何话。我们自己也可以通过高德地图录制自己的语音导航包。而更深层次的应用将会是虚拟人领域,AIGC不仅可以生成虚拟人的声音,并可以创造出说的内容。虚拟人在未来有望和我们一样表达自己的想法,灵魂逐步显现。
7、AIGC的版权属于谁?
AIGC属于前沿领域,目前处于大众使用的初期,对于版权归属问题行业尚无定论。主要有两种看法,一类认为内容由素材库训练生成,本身来自于素材库,需要对相关的素材作者提供版权付费。另一类认为整个AIGC产生内容的过程是一个完全随机且创新内容的过程,不存在版权问题,版权归属于AIGC的用户或者平台(视平台的具体规定而定)。目前的实践中,第二种为主流情况,但干净且合规的训练数据集对长期商业合规性仍有帮助。
8、AIGC的商业化落地?
AIGC的商业模式类似于Saas服务,对B端和C端收取订阅费用。以jasper为例,成立还不满两年的独角兽企业Jasper在最新一轮的融资里获得了1.25亿美元资金,目前估值为15亿美元。用户可以通过文字描述让Jasper帮助完成文章的创作、创建广告话术,而不会存在抄袭的嫌疑。目前,Jasper拥有7万多名客户,包括Airbnb、Ibm等企业。仅2021年一年便创造了4000万美元的收入,今年预估收入为9000万美元。
这个领域非常新,商业模式的探索有很大潜力。例如图库型的收益方式,AIGC图片平台会积累出庞大的无版权问题的原创图片,配合图库搜索能够媲美现有的图库服务。AIGC社交网络的结合也是值得关注的方向,相较于现有UGC平台,AIGC进一步降低了创作门槛,让更多用户参与到内容的创作分享中。在未来的一两三年里可能以工具收费为主流,但长期来看会像当今互联网一样有五花八门的各种各样的应用。
AIGC的成本主要在于需要庞大的算力,以无界版图为例,目前拿的都是比较高端的A40这种,整个训练的长度都是百张以上的高端显卡做的。另外一种像C端整体我们做画的时候基本上使用的V100、A100,以及刚才提到的相对高端的卡做,目前云计算的整体算力支持比较通用的。在每天创作量大几十万时,数百张卡同时支撑才能支持这么大的创作量。
9、如何看待AIGC与元宇宙未来发展?
从主题投资的角度看,区块链、元宇宙、Web3均描述了数字经济时代中宏大的应用场景,而去年被资本市场关注的虚拟人、NFT等只是其中的具体应用之一。我们认为,AIGC将是推动数字经济从Web2向Web3升级的重要生产力工具:一方面,其对现有的杀手级应用——短视频、游戏等具有颠覆式影响,或进一步扩大内容量、提高成瘾性,同时对社交和广告提供新的工具;另一方面,Web3开放、共建的价值观下,UGC、AIGC的内容会更具吸引力,二次创作、开放想象的浪潮将来临。目前AIGC已成为硅谷最新热门方向,国内一级市场、互联网大厂等对AIGC应用关注度也在快速提升中。
10、AIGC的投资标的有哪些?
本文节选自国盛证券研究所已于2022年11月13日发布的报告《国盛区块链 | AIGC__Web3时代的生产力工具》,具体内容请详见相关报告。