文字转图像艺术:DALL-E Mini等AI艺术模型的实验与提示指南

2022 年 7 月 11 日 - 重要性:7

自从 DALL-E 在 2021 年 1 月推出,甚至在 PixelRNN 推出之前,我就发现生成模型(尤其是图像模型)令人惊叹。但我感兴趣的是如何编写更好的提示来产生最美丽的图像?

像 CLIP 或 GLIDE 这样的文本到图像生成器的想法更令人震惊,我喜欢能够使用它们并尝试了解它们“感知”文本和图像输入的方式。我认为可解释性是一个令人着迷的研究领域,理解模型的表示可能会产生未来更好模型的想法(尽管通常制作更好模型的最简单方法是用更多计算来训练更大的模型)。

。想象

以下是有关 dall-e mini 和其他文本到图像模型的提示工程的小指南。然后展示我用于生成图像的提示以及我获得的图像。这些都是精心挑选的,因为它们是我最喜欢的。

第一批全部是用EleutherAI的想象模型制作的,第二批是用DALL-E Mini制作的,从截图的可见UI可以看出。

我发现在两个模型中使用相同提示的比较特别有趣,可以展示 DALL-E mini 在合成方面有多好,尽管 VQVAE 更大且需要更长的时间,以更高分辨率生成图像,从而渲染纹理和对象以更可信的方式。

我也希望看到这些提示可以给你一些关于如何为自己的想法做出更好的提示的小提示(通常只需在最后添加“数字绘画”或“油画”和“artstation”就可以成功一半) 。

我的总体想法是,如果要求生成无生命物体、风景、建筑物等图像,当提示结构足够好时,DALL-E mini 可以生成令人满意的结果。然而,包含动物、人物、类人生物或任何会移动的物体的插图,或者要求特定动作或使用动词的提示,通常效果不佳。较大的模型通常可以更好地处理人形或动物形状,并且在包含动作时可以更好地构建场景。

请随意窃取这些图像并将其用于任何用途,或在社交媒体上分享。我主要尝试涉及圣经或神话主题的提示,因为出于某种原因,我发现大多数人并没有做那么多类型的提示(或者可能是因为我是一个大幻想/D&D 极客)。

更新:除了 Craiyon 之外,我还发现了 Dall-E Flow,这是一款使用 Jina-AI 的 Colab Notebook,它是生成漂亮的 DALL-E 图像的最佳工具,我推荐大家尝试一下。它是免费且开源的,我很喜欢它。

在尝试了 OpenAI 的 DALL-E 2 及其开源竞赛 StableDiffusion 后,我还写了单独的文章,这两篇文章都让我大吃一惊,让我对未来有了不同的看法。

如何为 DALL-E / StableDiffusion 编写提示

通常,我所做的就是写下我想要的内容(形容词+名词通常比动词或复杂场景得到更好的结果),然后附加

  • “华丽/惊人/美丽”+“数字绘画/油画/数字艺术/画布/3D渲染”+“虚幻引擎/统一引擎”中的任何一个
  • 然后我附加“风格线索”,例如“动漫/毕加索/吉格 - 总是好的结果 - /伊藤润二”

使用这个简单的框架通常会让我得到接近我想要的结果。如果您有任何关于如何做得更好的建议,请在 Twitter 上告诉我。

例如,这个提示在 Craiyon 中给了我很好的结果。

“树林里杂乱的房子|动漫油画高分辨率 Cottagecore 吉卜力灵感 4k’

如您所见,只需附加 ”|油画高分辨率4k” 将改善您的大部分结果。然后,您还可以添加风格提示,例如“吉卜力灵感”、“吉格”或“萨尔瓦多·达利”。

其他供将来使用的 DALL-E/craiyon 提示模板:

  • X 的皮克斯风格 3D 渲染
  • X的细分控制网格
  • X 的照片,4k,详细
  • X 的低多边形渲染;高分辨率,4k
  • X、4k、详细、artstation 趋势、幻想生动色彩的数字插图

最后一个对我来说几乎适用于任何描述简单静态场景(如房屋、城市、风景或室内装饰)或单个人形/动物/植物的提示。您也可以在最后添加样式(Eldritch、迪斯科、低保真等)。

VQVAE (EleutherAI)

蒸汽朋克发明家的图书馆 |华丽的数字绘画,色彩朴素,令人惊叹的艺术令人着迷,迷人,artstation 3,舒适

机械发条飞行器复兴|华丽的数字绘画与清醒的色彩令人惊叹的艺术令人着迷,迷人,artstation 3,逼真,渲染材料

托马斯·科尔(Thomas Cole)创作的一幅美丽的海浪拍打悬崖的画作

托马斯·科尔(Thomas Cole)创作的一幅美丽的海浪拍打悬崖的画作

星空下的空地|华丽的数字绘画,色彩朴素,令人惊叹的艺术令人着迷,迷人,artstation 3,cottagecore,舒适

水下迪斯科珊瑚礁|华丽的数字绘画与激进的色彩令人惊叹的艺术令人着迷,迷人,artstation 3,舒适,低保真

沉没的拉莱耶城处于休眠状态 |令人惊叹的深色数字绘画令人惊叹的艺术令人着迷,迷人,artstation 3,洛夫克拉夫特式,可怕

阿卡迪亚草原上的白狐|令人惊叹的数字绘画,色彩鲜艳,令人惊叹的艺术令人着迷,迷人,artstation 3,日本风格

绿色田园诗般的阿卡迪亚草原上有绵羊|令人叹为观止的数字绘画,色彩柔和,令人惊叹的艺术,令人着迷,迷人,artstation 3,Cottagecore 托马斯·科尔 (Thomas Cole) 绘制的伊甸园美丽画作

圣经参考文献

托马斯·科尔 (Thomas Cole) 描绘的巴别塔的美丽画作

巴别塔 by beeple gurney richter | | WahooArt.com 3D深度着色器;特效;制作价值;电影FX;VFX;科幻;4K分辨率;高动态范围;杜比视界;hdr10;atmos;3维;vray;光线追踪;超现实;

伊甸园 by beeple gurney richter | 油画3D深度着色器;特效;制作价值;电影FX;VFX;科幻;4K分辨率;高动态范围;杜比视界;hdr10;atmos;3维;vray;光线追踪;超写实;哑光绘画

幻想提示

一幅令人叹为观止的可怕甲虫神的画作,这不应该是托马斯·科尔的作品 |古代大师,艺术站 3

托马斯·科尔 (Thomas Cole) 创作的一幅令人叹为观止的画作,描绘女武神骑着飞马在悬崖上的云层上行走。古代大师,艺术站 3

夜晚金色的fae站在花上|华丽的数字绘画,色彩丰富,令人惊叹的艺术令人着迷,迷人,artstation 3,山寨核心美学

法伊祝福 |令人叹为观止的数字绘画,色彩柔和,令人惊叹的艺术令人着迷,令人着迷,artstation 3

古斯塔夫·多雷 (Gustave Doré) 的一幅微笑的巨魔蚀刻画 |艺术站3

古斯塔夫·多雷 (Gustave Doré) 的木版画《哥布林》

成分清爽,质地厚重。怪诞的半人马座,受 Zdzisław Beksiński 和 Geiger 启发

Zdzisław Beksiński 和 Geiger 的怪诞半人马灵感来自星空下林间空地的半人马 |华丽的数字绘画,色彩朴素,令人惊叹的艺术令人着迷,迷人,artstation 3,cottagecore,舒适

幻想小酒馆|令人惊叹的数字绘画与温暖的色彩令人惊叹的艺术令人着迷,迷人,artstation 3,cottagecore

梦幻小酒馆内部|令人惊叹的暖色调数字绘画令人惊叹的艺术令人着迷,迷人,artstation 3

梦幻小酒馆内部|令人惊叹的数字插图与温暖的色彩令人惊叹的艺术令人着迷,迷人,artstation 3,D&D 风格

来自 Yuggoth 的紫色真菌 |华丽的数字绘画,色彩浓烈,令人惊叹的艺术,令人着迷,迷人,artstation 3,发人深省,黑暗

3D超写实材质和柔和温暖的灯光| 3D 渲染令人惊叹的图形着色器 4k UHD|一幅令人惊叹的数字插图描绘了大天使迈克尔在夜间展开巨大的翅膀 | artstation 3,超现实主义,现实主义

DALL-E迷你