作者 | 耳洞打三金

大家好我是三金,相信大家都还记得上周AI科技评论报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片!

效果如下所示:

文本提示:一只X射线的猫头鹰:

AI生成的图像:

这效果真是绝了!三金我又忍不住把它仅根据文字提示就生成的图像翻了一翻。

文本提示:一只X射线的河豚。

AI生成的图像:

文本提示:一只黏土做的狐狸。

AI生成的图像:

文本提示:一只金毛在镜子面前凝视着自己。

AI生成的图像:

文本提示:大卫在镜子面前凝视着自己。

AI生成的图像:

文本提示:俄罗斯娃娃蜗牛。

AI生成的图像:

文本提示:长颈鹿猫头鹰。

AI生成的图像:

文本提示:长颈鹿猛犸象。

AI生成的图像:

文本提示:孔雀橡皮。

AI生成的图像:

更多AI生成图像示例请移步查看 “OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力” 一文。

相信大家都肯定想亲自动手玩一下,比如很多人都想让AI生成一下“五彩斑斓的黑”

可惜啊可惜,OpenAI并不会开放源代码,这个是可以理解的,就算真得开源了我们能跑的起来吗

OpenAI也没开放API,不过哪怕开放API,估计也是排不上队,毕竟GPT-3的API,我到现在都没有申请上

DALL-E的论文目前也还没有公开,只知道也用到了Transformer模型。

想到这里,三金我真的是我心伤悲啊,毕竟没法亲自实现一些自己想要AI生成的图了,比如让它生成一副清明上河图,我看它能厉害到哪里去

伤悲之后,三金我只好继续在上班期间摸鱼划水刷推特......

哇哦(⊙o⊙)!刷着刷着你猜我在推特上看到了什么?

我看到了一只AI生成的“戴着眼镜在咖啡商店里读书的大羊驼”:

呃(⊙o⊙)…这生成的质量肯定没法和财大气粗的DALL.E相比,不过我们这一次却是有机会可以亲自动手尝试啦!

因为上图是推特上的网友利用AI艺术家Adverb分享的Colab notebook上面的代码跑出来的。

Adverb表示这项使用SIREN和CLIP体系架构和模型从文本生成图像的工作是在Alexander 的“Deep Dream”影响下,使用OpenAI开源的的CLIP模型将SIREN函数学习到的图像与给定的文本描述进行合适的匹配。该工作可以作为一个很好的出发点,为这个方向做一点小启发。

CLIP就是OpenAI在DALL.E之外同时推出的另一个AI模型,CLIP能够将图像映射到文本描述的类别中。

CLIP模型架构:

关于CLIP的介绍请移步“OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务”一文。

在这里的SIREN函数则是指斯坦福大学的一篇有关周期激活函数的隐式神经表示的论文:《Implicit Neural Representations with Periodic Activation Functions》

论文链接:
https://arxiv.org/pdf/2006.09661.pdf

关于这篇论文的更多信息可以查看AI科技评论之前报道过的 “Relu激活函数Out了?正弦周期激活函数在隐式神经表示中大显神威! ”一文。

开源代码是在Colab notebook上面,这意味着大家可以直接在网页端跑代码!

而且不用手动配置环境!不用手动配置环境!不用手动配置环境!

传送门:
https://colab.research.google.com/drive/1FoHdqoqKntliaQKnMoNs3yn5EALqWtvP?usp=sharing

我们首先来看一下AI开发者Deyan利用上面这个模型代码(32层的网络)生成上面大羊驼(三金我特意查了一下,发现大羊驼和“草泥马”很像,但是是不同的科种)的过程吧:

AI模型150次迭代后的初始草图:

之后随着迭代的不断进行,可以清晰地看到图像背景细节的添加,如在第300步可以看到商店的摆设隐约出现,且在大羊驼的右下方隐约出现了咖啡杯:

在训练的第750步,在大羊驼的右下方咖啡杯完全出现了:

迭代了2100次后,AI完成了一些锐化背景的工作,但是我们不确定它是在看一本书还是爆米花:

经过10000次的迭代之后,模型已经饱和了,Deyan表示也许快速迭代第一个草图可能是个好策略。

之后Deyan同样用了32层的网络、以及用RTX 3090显卡训练AI生成“由瑞士奶酪和樱桃制成的摩天大楼。”

初始生成图:

经过40万次的迭代后生成图:

这个效果确实让人难以恭维啊,勉强能看吧

以下还有AI艺术家Adverb以及AI开发者Deyan等人生成的更多图像的成功或失败的样例。

太阳落山前的白杨树:

下面这是?骑着滑板的林肯? 还是拿着电锯的林肯???

企鹅在镜子前观看自己(一):

企鹅在镜子前观看自己(二):

企鹅在镜子前观看自己(三):这会让人做噩梦。。。

立体马里奥:这个,立体是立体,但是很扭曲啊。。。

拿着兔宝宝的猫王照片:

上帝的脸(一):这上帝可真吓人,这是魔鬼吧

上帝的脸(二):

匿名动画人:(好家伙,这不止匿名了,脸也匿了起来)

Adverb还试图结合GAN生成一只白色金鱼,不过这好像太简单了,金鱼早就被给出了。

Adverb还表示道他想要生成“悟空”,但结果却生成一只狗子。

他对这只“狗子”非常失望,认为它阻塞了神经网络通道。

Adverb说道他尚未在其他任何提示上进行测试,但是受CLIP指导下的BigGAN神经网络模型可以为新世纪福音战士的Asuka制作一些有趣的图像。

之后,三金我还发现了AI艺术家Matio把StyleGAN2模型和CLIP模型的生成图做了对比,左图是StyleGAN2生成的绿头发的悲伤男人,右图是戴着太阳镜的红头发女人。

抛开DALLE.E不谈,上面的这些生成质量到底如何呢?

还请大家自己评价~~~

最后,关于文本生成图像的过往研究大家可以查看Paperwithcode上面列出的各项数据集上面的Benchmarks。

传送门:
https://paperswithcode.com/task/text-to-image-generation

参考链接:

https://twitter.com/quasimondo/status/1347956102898606081

https://twitter.com/advadnoun

https://twitter.com/quasimondo

https://twitter.com/dginev/status/1348822689499275265