随着ChatGPT、文心一言的发布,AI绘画再度火出圈,近日Adobe、微软必应也加速推出了AI生成图像的新品,分别为Adobe Firefly和Bing Image Creator。

意外的是,过去一周,百度文心一言生成的绘画作品在网上遭遇“群嘲”,原因在于其绘画功能对中文成语的理解仅停留在字面意思,如网友输入“夫妻肺片”后文心一言生成了一对露出肺部结构的夫妻,输入“鱼香肉丝”,文心一言画出了一条由肉丝做成的鱼,输入“胸有成竹的男人”则画出一个胸部长出竹子的人……

3月22日,南都记者对百度文心一言和Bing Image Creator进行实测,发现两款产品在中文成语和英文俚语的理解能力方面均不完善,只能根据字面意思来绘画。如在Bing Image Creator中输入“a cat nap(打盹)”会生成猫的图像,输入“raining cats and dogs(倾盆大雨)”则会画出淋雨的猫和狗。(详见此前报道>>>)

3月23日,百度发文回应称,注意到对文心一言文生图功能的相关反馈,并进行了回应说明。“1、文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。2、在大模型训练中,我们使用的是互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来更多欢乐。”

在万兴科技战略负责人唐芳鑫看来,目前文心一言的整体生成效果是不错的,出错的原因是训练时间没那么久,同时自媒体在传播上倾向于找一些不好的图片来吐槽。“从技术上来说我相信百度以及国内厂商能够做好,效果提升只是时间问题,我们一开始做海外模型效果也不好,但是一段时间过去以后,效果已经可以做到跟海外差别不大了。”唐芳鑫向南都记者表示。

AI绘图被玩坏下一个是AI视频创作

事实上,在ChatGPT问世之前,AI绘画早已被运用到专业领域。2018年第,一张公开展出的、由人工智能创作的绘画作品《埃德蒙·贝拉米的肖像》在佳士得拍卖行以43.25万美元成交,那是一张由机器学习了从14世纪到20世纪的1.5万张肖像画之后自动生成的肖像画作品。2022年12月,在朵云轩拍卖30周年庆典拍上,由百度文心一格续画的民国才女陆小曼未尽稿联同著名海派画家乐震文补全的同名画作《未完·待续》,以110万元落槌成交。这也是全球首个AI山水画作的成功拍卖。

全球首个AI山水画作《未完·待续》以110万元成功拍卖。

随着ChatGPT和文心一言的火爆,AI绘画的关注度持续上升,被越来越广泛地运用到个人创作领域。在业内人士看来,AI绘画相比去年在效果上已经有了很大提升,同时成本持续降低,这也是其持续出圈的原因。

“AI绘画在效果方面的变化很大,去年刚开始出来的漫画奇怪,识别的东西都很假,AI绘画让大家觉得很逗,而今年最新的Midjourney V5画亚洲风格人的时候已经很像了,完全分辨不出是AI画的了。第二个变化是它变得可控。去年我们输入文字之后,不知道它结果是什么,有一种开盲盒的感觉。现在它的结果变得更加可控,可控以后就能大幅提升效率了。从实际算法模型来看,算法的效率提升了,需要使用的服务器资源减少。”万兴科技战略负责人唐芳鑫向南都记者表示。

万兴科技为创意软件A股上市公司,自去年开始针对前沿科技组建百人技术团队,并压强式投入文字生成视频、文字生成图像、视频AR、虚拟人等新技术,目前旗下AIGC新品万兴爱画已实现网页端、iOS、安卓、微信小程序多端覆盖,并推出“AI简笔画”新功能,支持文字绘画、以图绘图、简笔画三种AI创作模式。此外旗下视频创意软件万兴喵影、Wondershare Filmora也已集成AIGC能力。

AI领域专家、开域集团董事长兼CEO施侃同样向南都记者指出,ChatGPT等现象级产品的出现,意味着模型规模、数据和算力的大幅扩充使得大模型生成能力得到了根本性的提升,完成了从量变到质变的过程,涌现出“出人意料”的创作和推理的能力。其中AI绘画,近两年也因为基于Diffusion大模型的图像生成能力的飞跃而正式进入了产品和技术应用阶段。

“AI生成图像效果的提升,对绘画和视频工作领域来说,很明显的变革就是帮忙解决了很多基础性的工作。例如,对游戏画师来说,只要简单勾勒一下我就可以帮你生成4幅不一样的风格的画出来,甚至可以自动帮你配色,配完色以后我还可以帮你生成平面效果图,可以解决你很多重复性的工作,让你更多地放在你的创意上,或者是我做出来让你自己做选择。”唐芳鑫表示。

随着AI绘画逐渐成熟,AI在视频创作领域的应用也近在咫尺。据施侃介绍,在视频创作领域,AI辅助甚至主导完成内容创作的AIGC模式正被关注。如开域集团近期发布了针对视频创作者的AIGC技术平台——Q.AI(aicenter.cue.group),该平台具有AI视频检索,视频AI生成两大功能,在视频生成模块中,用户只需输入一句文本,平台会应用AIGC大模型自动扩充生成一段相关视频脚本,并在几分钟内生成数个完整的专业级短视频。包括画面素材、背景音乐、旁白配音以及字幕,都是由AI自动生成和匹配,这将大大提升创作者的工作效率。

AI绘图门槛不高生成视频仍需时间

对于AI绘图背后的成本,唐芳鑫向南都记者表示,目前算法训练成本确实很高,训练的时候需要大量的数据,需要长时间以及更多服务器来做整个的模型训练,但随着越来越多的IT技术专家进入这一领域后,会逐渐提升算法模型的效率。

“这是工程化的问题,而且工程化的效率一定是十倍和百倍地提升,那个时候带来的反而就是成本的下降,服务器的成本不会是AIGC目前的大问题。”唐芳鑫称,“真正的问题是在于视频领域,目前我们在视频领域,全球范围内缺少比较好的高精度的素材,要大规模应用,我预计还需要2-3年。

施侃也向南都记者介绍,目前AI生成图像的算力门槛不高在视频领域的应用上仍有难度

“目前图像生成领域主流是以diffusion model为基础的模型,如OpenAI的DALL-E2,开源的Stable Diffusion等。例如DALL-E2模型有35亿个参数,数据集的话参照LAION-5B大约有50亿图文数据对。从模型复杂度和数据规模可知,比ChatGPT的训练成本小至少一个数量级,GPU的消耗量也大概是这个比例。 而且模型微调的成本很低,因此图像生成领域,对算力的门槛要求要比LLM(大语言模型)低很多。”施侃称,“至于视频生成的应用也有很多类别,比如数字人就已经应用了。如果按照目前文本生成图像的方式,还没有类似ChatGPT、stable diffusion这种相对成熟的模型,目前主要还是基于diffusion模型,在时间和空间上进行扩展,训练数据也相对地会扩充。如Google的video diffusion model用了1000万的带标题视频进行训练,但目前看算力需求量还不会达到大语言模型的级别。”

“在AI生成图像和绘画的应用方面,目前单一图像的生成已经跨越了应用的门槛,很多内容创作者和设计师已经开始在工作中使用了,但是对于生成同一主题的序列图像,目前还没有很好的方法可以精准的控制,这也是研究的一个主要方向。如果模型做到了这一点,我们就可以为一个故事脚本生成一系列同人物和背景的配图,这样应用场景比单一图片就大大拓展了。进一步,可以这些配图为锚点进一步生成连续的视频。”施侃指出。

据施侃介绍,开域集团自2017年起开始重金投入研发AI技术。在AIGC领域,与ChatGPT类似的是,开域集团的AI模型也是通过对海量数据集进行训练学习,从而产生理解和创作的能力;不同之处在于,ChatGPT的学习素材是文本,开域AIGC技术的学习素材主要是多模态图像和视频数据,技术路线是在垂直应用领域,使用多个大模型的组合应用,从文本或图像自动生成视频等内容。

从AI辅助办公绘图到AI制作视频、3D建模……

自ChatGPT发布以来,人工智能技术的应用也迎来了新一轮高潮,在搜索引擎、办公软件、绘画等领域纷纷掀起“AI革命”。上周,微软推出AI工具Microsoft 365 Copilot,谷歌也宣布了旗下办公套件将全面引入AI。本周,微软必应推出了可以画画的Bing Image Creator,Adobe推出了新的人工智能工具Firefly(萤火虫),正式杀入AIGC商业化赛道。

对于AIGC在办公和绘图两个领域率先应用的现象,唐芳鑫表示,是完全符合发展趋势因为目前技术最成熟的是文本,其次是图片,预计接下来将会应用在视频和3D领域

“Microsoft 本身是个文本模型,所以在以图文为主的办公软件它是最适合的。Adobe是图片领域,而这个领域的素材也是比较多的,所以这两个领域应该是目前发展得比较成熟的。”唐芳鑫表示,一旦图片成熟以后,接下来视频肯定也会起来,因为视频其实就是一帧一帧的图片,大规模应用只是时间问题。

“视频之后可能会是3D,3D会较为复杂,因为目前模型不多,而且目前3D应用场景也不是特别广,所以会更慢一些。”唐芳鑫进一步表示,未来很多产品都会发生改变,因为AIGC改变的不仅仅是某一个图文视频技术,而是整个交互方式和产品逻辑。

在施侃看来,聊天机器人之所以受到热捧,是因为它让产品与用户之间没有边界感,大家可以随便提各种各样的问题,它都能给出一个相对高质量的回复,这让大家可以把它当做“朋友”一样去接触,从而拉近了科技和普通用户的距离。

“办公场景相对更复杂,由于每个人的思维和工作方式不同,办公工具应该尽量顺应并模仿人脑的工作方式,这意味着现代办公场景中,我们对工具灵活性的人要求越来越高。”施侃称,AIGC有望驱动体系化的产品重构与模式创新,辅助用户完成更多的办公功能,比如起草工作邮件,记笔记、做会议纪要、写简历、撰写营销文案、做竞品分析、市场调研等事务性工作,由AI驱动的现代工具有望提高个人、团队和组织层面的生产力,并从根本上改变我们的工作方式。

除了聊天和办公场景之外,施侃指出,长远来看AI技术可以应用的领域非常多,包括金融,医疗,教育,工业,零售等。“应该说,AIGC未来的商业价值取决于它以何种方式去结合各个领域。以开域集团为例,除了在AIGC领域重金投入,我们还在新零售领域,空间数字化领域深度布局,未来,集团将通过在这些领域植入AIGC技术,为客户生成更高效和精细的数字化解决方案。”施侃称。

对于人类创作者的空间是否会受到AI挤压,施侃从两个角度发表了自己的看法。“第一,随着时代的发展,创作工具发生了变化。比如最早只能用毛笔作画,后来发明了各种各样的材料,再后来可以用绘画板,这只是创作的生产方式发生了改变。但作品中蕴含的创意,思维,价值观依然来源于人类。第二,艺术创作从来都离不开科技的辅助。施侃认为,现在艺术行业里有很多新材料、新技术、新工具被应用,这让艺术的表现形式不再受限,创作空间只会越来越大。”施侃。

采写:南都记者马宁宁实习生叶羽洁