当网友们还陷于和ChatGpt的对话狂欢时,ControlNet不屑:“瞧瞧你们没见过世面的样子,等我出来还不迷死你们?”

情人节前夕,这款名叫ControlNet的SD插件发布,短短两天,就将网友们卷入了AI绘画领域新一轮的狂欢中。有人对此给予了高度评价:“它的出现代表着AI生成开始进入高度受控的阶段,更好地受控生成是扩散模型更好地与设计生产等环节深度结合,使得该项技术真正让用户有付费意愿的关键。”

ControlNet直译即是控制网,是一个基于 Stable Diffusion 1.5 的轻型预训模型,在开发者张吕敏的论文demo中,他解释说ControlNet通过输入条件来控制预先训练的大型扩散模型,能利用输入图片(input image)里的边缘特征、深度特征 或 人体姿势的骨架特征(posture skeleton),配合文字 prompt,精确引导图像在 SD 1.5 里的生成结果。

这很好地解决了文生图大模型无法控制生成图片的细节这个难题。

真有这么神吗?看看网友们的使用效果——



第一张是网友自己的图片,在不启用ControlNet的情况下,第二张图片和原图可以说是毫无关系,但使用ControlNet学习了人体姿势的骨架特征后(图三),生成了一个和原图同样姿势的女孩(图四)。当然,生成人物的样貌、服饰等用prompt控制就好,重要的是动作可控的效果是肉眼可见的。

比如AI生成的二次元女孩也可以像科比一样打球了——


图源网络

以上所列也只是使用了openpose模型的功能,这是ControlNet上线的八个已训练好的模型中的一个,主要是通过姿势识别,达到精准控制人体动作的目的。其他七个分别是:canny,depth,hed,mlsd,normal,scribble 和 seg。

除了openpose模型,canny模型和depth模型也能做到相似的效果,不信你看——

图源:ka chun cheng

这是网友上传自己的视频并启用ControlNet后,添加prompt 通过depth模型生成的人物,几乎百分百还原了原视频中的人物动作。

depth模型是通过提取图片中的深度信息,进而生成具有同样深度结构的图。当原图中的人物有前后关系时,depth的效果更好。



Canny模型可以根据边缘检测,从原始图片中提取线稿,再根据提示语,来生成同样构图的画面。



和canny相似的还有held模型,它使用软Hed边界保留输入图像中的细节,绘制的人物明暗对比明显,轮廓感更强,适合在保持原来构图的基础上对画面风格进行改变时使用。scribble模型,也可以用于对手绘线稿进行着色处理。

除此以外,还有mlsd模型,可以进行直线检测,通过分析图片的线条结构来构建出建筑外框,适合建筑设计的使用;normal模型,跟深度图有点类似,可以读取原图片中的深度信息和法线背景阈值,比depth模型对于细节的保留更加精确,因为能很好地抓取物体形状,所以可以用来更换图片背景;seg模型通过对原图内容进行语义分割,可以区分画面色块,适用于大场景的画风更改。


上传原图后,使用不同模型后生成的图片效果对比


总之,与传统的img2img相比,ControlNet包含的不同模型采用了多种方法分析原始图像。在对原始图像的控制方面,具有更大的精确度,每一种模型都采用了不同方法,对应着不同的实际应用。

目前,无界的「AI实验室」已经上线了「姿态识别Openpose」「深度检测Depth」「涂鸦上色Scribble」「边缘检测Cnny」「模型识别Normal」「语义分割Seg」「线段识别Mlsd」七大工具,用户们不必自行部署就可获得ControlNet绘画体验,效果究竟如何,我们可以一起来试试!


教程-AI实验室

好玩!好用!好上手


入口

PC端:

登陆无界AI官网

https://www.wujieai.com/ ,点击「AI实验室」。



APP端:进入「AI创作」页面,点击左上角图标。



案例

如果要提取人物姿势,可选择「姿态识别Openpose」,进入后「上传图片」➡️「选择模型」➡️「输入画面描述」➡️「点击高级设置输入负面描述」➡️「选择创意度」。


原图:热心网友诺子子


无界AI-姿态识别Openpose提取的人物骨架图

模型:二次元

画面描述:(((masterpiece))), (((best quality))), ((ultra-detailed)), (illustration), ((an extremely delicate and beautiful)),dynamic angle,floating, (beautiful detailed eyes), (detailed light) (1girl), loli, small breasts, floating hair, glowing eyes, pointy ears, white hair, green eyes,halter dress, feather, leaves, nature, (sunlight), river, (forest),(painting),(sketch),(bloom)

负面描述:(((more than 2 nipples))),((((missing arms)))),(((extra legs))),mutated hands,((((fused fingers)))),(((((too many fingers))))),(((unclear eyes))),lowers

创意度:80%(无界AI默认100%,创意度越高,和原图差距越大)


《狂飙》剧照


骨架图

无界AI-姿态识别Openpose绘制

无界AI-姿态识别Openpose绘制

前文已经介绍过不同模型分析原始图像的原理和方法以及各自的适用场景,大家可以根据自己的需求自行尝试哦~

目前,在很多AIGC研究者看来,ControlNet的发布使得AI绘画的精确控制成为可能,这为动画、游戏、影视行业也带来了新的机遇。未来,无界AI也将充分利用自身的技术优势,以期和上述相关产业达成合作。欢迎大家关注我们的工作进程哦~