Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字

【新智元导读】开源、免费的Stable Diffusion就能达到Midjourney水平！

自从Midjourney发布v5之后，在生成图像的人物真实程度、手指细节等方面都有了显著改善，并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。

相比之下，Stable Diffusion虽然免费、开源，但每次都要写一大长串的prompt，想生成高质量的图像全靠多次抽卡。

最近Stability AI的官宣，正在研发的Stable Diffusion XL开始面向公众测试，目前可以在Clipdrop平台免费试用。

试用链接：https://clipdrop.co/stable-diffusion

Stability AI的创始人兼首席执行官Emad Mostaque表示，目前该模型仍然处于训练阶段，等参数稳定后将会开源；SD-XL在「握手」等图像细节方面会表现更好，几乎完全可控。

Stable Diffusion XL也并不是最终发布版的名字，并且也并非是v3，因为SD-XL的架构和SD-v2系列的模型架构非常相似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

简约的家庭健身房，橡胶地板，壁挂式电视，举重凳，药球，哑铃，瑜伽垫，高科技设备，高细节，组织和效率

下面几张SD-XL官方发布的例图，可以看出图像的质量已经非常能打了。

不过有时候less并不代表more，有网友认为SD-XL为了摆脱「糟糕的品味」，设定了太多的规则，定制化空间越来越小，不符合大多数人的喜好。目前v1.5的Stable Diffusion仍然是社区内最流行的基座模型。

网友表示希望新版SD能够和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容，再从零开始重训的话就太难受了。

也有网友认为，SD-XL的表现和civit网站上网友分享的模型差不多，新模型的效果也并不是特别惊艳，也就是平均水平。

SD-XL：开源版Midjourney

关于Stable Diffusion XL模型的具体信息，官方并没有透露太多，目前只知道是一个与v2模型架构相似、但规模和参数量更大的模型。

SD-v2.1包括9亿参数，SD-XL大约有23亿参数，Emad表示正式版可能会额外发布一个更小的蒸馏版本。

SD-XL相比之前版本的改进如下：

使用较短的描述性prompt即可生成高质量图像
可以生成更贴合prompt的图像
图像中的人体结构更合理
与 v2.1和 v1.5版本(程度较轻)相比，SD-XL生成的图片更符合大众审美
负面提示词（negative prompt）是可选项
生成的肖像图更逼真
图像中的文本更清晰

需要注意的是，SD-XL可能与之前版本的插件不兼容。

清晰可读的文字

在v1系列和v2.1版本的Stable Diffusion模型中，并不具备在图片中生成可读文本的能力。

虽然SD-XL生成的文本信息并不总是准确，但确实得到了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女人坐在餐馆里拿着写着「Menu」的菜单

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一个年轻的女性举着一个牌子，上面写着「Stable Diffusion」，头发高亮，坐在餐厅外面，棕色的眼睛，穿着裙子，侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一直存在诸多问题，多几条腿、少个胳膊实在是太常见不过的问题，通常需要使用inpaint功能进一步对图像细节进行修正；或者是使用ControlNet的Open Pose功能从参考图像中复制人体的姿态。

比如说SD-v1.5生成瑜伽的图像，经常会出现扭曲的人体。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一个女人的照片在瑜伽服装，三角形的姿势，海滩在晚上，边缘照明

SD-XL虽然生成的图像并不完美，不过在人体姿态方面已经有了显著的进步。

更有美感（more aesthetic）

比如同样以屋子为主题，SD-XL可以生成更对称、视觉效果更好的照片。

SD-XL在肖像照片上也有显著改进。

photo shot of a woman

一个女人的照片

更贴合prompt的图像

SD-XL可以更好地理解输入的prompt，并生成更精确的图像。

比如以duotone（双色）为例，SD-v1.5只会生成黑白图像，而SD-XL则可以生成具有多种颜色的双色调图像。

与 v1模型相比，理解提示符的能力有所提高。

duotone portrait of a woman

一个女人的双色调肖像

因为SD-XL同属v2系列模型，所以文本模型尺寸更大，可以比v1模型更好地理解提示词。

比如下面的例子中，v1.5模型始终无法理解图像中的两个主题（机器人和人类），但SD-XL模型可以生成正常的图像（虽然机器人还是不够big）。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人，头发染得很亮，棕色眼睛，穿着白衬衫和蓝色牛仔裤，站在海滩上，背景是一座火山

艺术风格

在艺术风格上，SD-XL并没有显著改进，和之前的版本各有千秋。

比如两个模型以不同的角度生成了Edward Hopper风格的图像。

New York city by Edward Hopper

Edward Hopper绘制的纽约

Leonid Afmov 的风格中，SD-v1.5更准确，SD-XL缺少了不同颜色的笔刷（unmistakable colorful board brushstrokes）。

New York city by Leonid Afremov

Leonid Afemov绘制的纽约

William-Adolphe Bouguereau风格中，V1.5和SDXL都可以生成一些类似的内容，其中SD-XL更接近Bouguereau创作的经典学院派绘画，并且面部细节更多。

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau绘制的美女肖像

风格转变问题

在添加一些无关紧要的关键字后，模型的风格可能会突然转变。

比如先生成一张照片风格的图像。

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人，头发染得很亮，棕色眼睛，穿着白衬衫和蓝色牛仔裤，站在海滩上，背景是一座火山

再添加一条黄色的围巾后，图像风格就变成了卡通风格。

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年轻人，头发染得很亮，棕色的眼睛，围着黄色的围巾，穿着白衬衫和蓝色牛仔裤，站在一个火山为背景的海滩上

问题的故障可能源于预览问题，在正式发布后该问题不知能否得到解决。

参考资料：

https://clipdrop.co/stable-diffusion

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

完全免费！微软推出AI绘画工具「图像创建者」，现在教你如何使用

Midjourney这样设定关键词才能稳定出图，AI绘画要赶超人类？

新版Midjourney太炸裂：AI绘画再无Bug，“有图有真相”时代彻底过去

“少数人”的胜利，Midjourney走上AIGC神坛

AI 作画神器 Midjourney 停止免费试用

AI绘画将颠覆未来世界：一文读懂AI绘画的由来

刚爆红就被曝停用，Midjourney经历了什么？

1亿美元收入却只有11个员工！Midjourney是怎样炼成的？

Midjourney创始人David Holz关于生成式AI的访谈

游戏人，卷得过AI吗？

图片 AI 工具

游戏 AI 工具

视频 AI 工具

聊天 AI 工具

音频 AI 工具

AI 资讯

AI 教程

Prompt 词库