原标题:《与 Midjourney 主创对谈 | MJ Office Hour 翻译 0908 期》

了解风起云涌的 AI 到底在发生什么,看到创造这个产业的领袖们是如何思考着时代的走向

??本文插图 credit to @星辰是一团旧火 ???Midjourney 每周三有一次 Office Hour 时间,David Holz 会先用 30 分钟左右的时间讲述 Midjourney 最近的更新和计划,余下的时间会用于回答用户提问。?我将问答中部分内容整理在这篇文档中和大家分享,总时间长度?3~4?小时,我非英语专业或新闻记者专业出身,只挑选总结了问答中我个人感兴趣的部分在这篇文档里。?如果你想听到完整的 Office Hour 录音,你可以在小宇宙平台搜索全民熊猫计划收听本次 Office Hour 的全部音频,you are welcome. ?

Part 1 -?Midjourney 本周更新

?Midjourney?正式模型已经更新到了 V3,目前开发的测试模型(--test, --testp)较 V3 具备更广阔的知识面并能生成更写实的图像,但是我们发现似乎其阅读能力不是很强,更侧重句中起始的词汇,忽略末尾的词汇;更重要的是其为了写实,而或多或少对艺术性有牺牲,同时测试模型的速度现在也不太理想,也较难生成像素高的作品。??在接下来的几周,我们可能会推出首个更细分领域的绘画模型,看看是否细分的模型领域会提供更好的体验,我个人当然还是希望能一个模型解决所有的问题。??我们的 Discord 频道用户超出了 1.5 百万,是目前 Discord 里最大的频道,很快我们会比第二名的 Minecraft 和第三名的 Fornight 频道加起来人数还要多,一个月内我们的人数会再翻 5 倍。??我们会升级网页版的体验,未来网页版的 Midjourney 将不再依赖 Discord 频道而独立存在,这样会更方便喜欢独立创作的创作者,但同时我们也会增强 Discord 频道的社交社区体验。??目前一些开源模型被色情内容所侵蚀,未来甚至可能会有专门生产情色血腥内容的 AI 模型出现,但不会是 Midjourney. 社交网络容易被最喧嚣的声音所掩盖,无论是 Facebook 还是 Twitter 都是这个状况,但我认为有很多比血腥和色情更有创意的内容。我们尝试教会模型分辨出更友好的内容,比如有胸部但是不色情的图像,有血液但是不血腥的图像。?

Part 2 - Q&A

Q:你认为人工智能可能是创造性的吗?

A:创造力本身有很多的形式,如果说是将两个不同的概念混合在一起,像是赛博朋克和洋葱,也许历史上从未有过做赛博朋克洋葱的人类。在将两个不同概念混合在一起的能力上,AI 目前基本是人类的水平。但我认为艺术家不仅仅是关于图像的产生者,艺术往往是关于故事和情感的,而 AI 没有故事和情感,AI 创作的影像的叙事来源于使用 TA 的人。贝壳皆来自大海,但海洋非造物者。美石皆来自川河,但河流非孕育者。这套系统并无创造的能力,但美可以来自其中。AI 绘画本质如同行云,TA 并无任何主观的意愿。???Q:考虑 Zoom-Out 的功能吗?Zoom-Out 在技术上是否难以实现?

?A:没有什么难的事情,只是现在我们没有足够的人,我们目前把注意力集中在几乎所有人都能使用的功能上。在我看来比起做一个新功能来修补裁剪不当的生成图像,不如提升性能让模型不再生成裁剪不当的图像。??Q:目前版本的模型 + Remaster 功能可以让我得到很理想的效果,我想问对于 Remaster 这个功能有什么规划吗?

?A:V3 + Remaster 也是我目前个人最喜欢的工作流,V3 能做出很具有氛围和艺术感的图像,而 Remaster 可以对其进行清理,我们也计划将 remaster 长期使用。??Q:你们存储着我们所有创造的图像,这是否会给你们带来很大的成本?

A:目前存储图像的成本大概在生成图像成本的 1%,你在为生成图像付费时,也同时在为存储其他人的图像付费。目前我们尝试给所有人 PNG 格式的图像(几乎是没有压缩的)如果在未来的某个时刻,我们感到压力太大后我们可能会将生成的图像替换为压缩的版本以控制成本。我期望这一天不会来到。就目前来讲我们每个月的用户都急剧扩张,活跃的用户在为所有用户的存储付费。我们不知道未来存储的成本是否会下降,但计算的成本肯定在下降,在未来的几个月,相同的算法可能会便宜 4 倍,但会有新的算法可能会贵 4 倍,但会超级强。我们在社区里做过很多次调查,我们问用户们你们希望在同样的收费标准下实现更好的效果,还是在相同的效果下降低收费。用户们持续告诉我他们希望能在同样的收费下实现更好的效果。我知道这个结论本身有偏移,因为对于无法负担这个价格的用户来说,他们没有机会参与社区投票,但用户们希望追求更高的质量依旧是很明显的事实。??Q:谢谢你们创造出这么美好的图像(这一段只有赞美和感谢没有提问)

A:谢谢,我们真的夜以继日地在工作,每个发布的模型我们都看了其中大概 10000 张以上的图片,我们希望通过 Midjourney 生成的图像都是美的,用更少的词汇可以让你思考得更加迅捷。我想其他的一些 AI 实验室尝试让生成的图像更写实,比如你输入“狗”,他会生成一张“狗的照片”,但我尝试深挖人们真的希望获得的是什么,比如说生成的图像更具有美感和创造力。

?我们试图理解,是什么让事物变得美丽,是什么让事物变得有创意?是什么让事情变得连贯和清晰?这些要素之间的权衡是什么?就像花是美丽的,对吗?但花的美是因为我们认为它很美,还是花想要变得美丽?出于某种原因,花对昆虫来说是美丽的,对我们来说也是美丽的。这几乎就像我们与昆虫共享着同一种审美和天性,美有很大一部分是来自自然的。?

?Q:V3 模型会用用户生成的图像自我训练吗?

?A:所有图像来自网络,AI 运用互联网去学习概念,然后通过我们的用户去理解美和表达。??Q:非常感激你们一直做 Office Hour 回答我们的问题,这一定增加了许多的工作量。

?A:拥有一个由富有创造力的人组成的社区对于我来说是世界上最酷的事情之一,这非常激励我。很多人只是想在 twitter 上得到赞,但我并不真正关心这个,我甚至从未在自己的 twitter 账户上发布任何关于 Midjourney 的消息。我对于这方面的关注不是特别感兴趣,我只想做很酷的产品和拥有一个充满很酷的人的社区,这就是全部。??Q:我想知道对于曾经的模型版本,尤其是 V1 V2, 你觉得这些版本会有一天彻底退休吗?

?A:如果我们把其中任何一个模型从服务器上拿下来,我们会将其开源。??Q:你提到会将曾经的一些功能重新推出,不知道你对此有何计划?

?A:我们在早先的测试阶段有很多非常奇怪的功能现在暂时被拿下来了,团队里有观点认为这些功能不是目前的优先级,而另外有观点认为既然我们已经有相关的代码了不如直接推出。我很喜欢这些功能,因为 TA 们告诉了我科技可以做到什么。我们团队里目前有 一个人 在负责这部分内容的开发(哈哈哈哈)等时机成熟了,这些曾经的功能会以全新的形式再次出现在大家的视野中。另外我们想成为第一个平台向用户提供一些更高级的控制措施,我认为 in-painting 很酷,但是我不认为 in-painting 是一个很好的艺术创造过程,毕竟每次你点击一次都需要 30 秒的时间才能得到结果。我希望用户能感觉他们在打开全新的创造领域。

Q:David 你今天吃午饭了么?

?A:我喝了一杯 Soylent (一种代餐饮料) 这是我的备用午餐,保证我不会昏昏欲睡并且得到一些卡路里。??Q:很多人想问关于 Photoshop 插件的事情,会是怎样的插件吗?

?A:哈哈我们不会剧透,可能不会是大家所想象的那样。不过如果我们在投票区域提问的话,大概率是我们还没开始做;如果我们已经开始做了,我们不会发布投票,哈哈哈。??Q:你有考虑让 Midjourney 服务器购买自己的 GPU, 而不是租赁 GPU吗?

?A:不会的,我们目前使用了太多的 GPU, 大概超过了 1 亿美元的价格,也许更多。我们无法负担购买这么多 GPU, 所以我们在租赁,哈哈哈。??Q: 是否考虑帮助 Midjourney 本地运行?

?A:Midjourney 的很多功能需要很好的显卡,目前没有消费级显卡可以运行我们的模型,一些消费级显卡可以运行,但运行速度会比较慢。对我们来说,与其精力放在能买得起 3000 美元显卡的用户本地运行 Midjourney,不如将精力放在帮助更多的普通人能从中获得最好的体验上。??Q:什么时候 test, testp 模型可以使用 image prompt?

?A:我们目前专注在做新的模型上面,新版本模型将可以使用 image prompt.

Q: 你们有计划拓展类似于diffusion的功能吗:提供非常初级的草图作为prompt来提供构图和色彩以生成新图像?

?A: 我们过去做过很多相关的实验。我们希望能训练出对艺术家有好处的东西。但目前来看,这种方式生成的图片效果反而更糟。我们还在研究和开发中,目前尚未有满意的成果。我想我会感兴趣人们能够真正设置构图的功能,比如,我想要图A的构图,图B的文字,图C的颜色,图D的人物,然后把它们丢在沙漠中,就像是给AI提供了一系列锚点。这是我们的努力的方向。我们现在就在这么个古怪的领域里。互联网有很多酷的事情,但大多数我们都不会做,通常人们只会选择快速的事情,做最有可能成功的尝试。但我们想做真正疯狂的事情,需要十个全职的员工(难道不该是一百个吗==)??Q: 关于上面可视化交互绘图的功能,我很好奇这是属于人工智能模型的一部分,还是提升训练数据集的部分呢?

?A: 这实际上包含三个模块,理解语言,理解语言与图像的关系,理解审美。不同的人工智能模型负责不同的模块。这三个模块是分开训练的,目前还没有把它们放在一起训练的方法。所以我们的产品可能画不出某个具体的动物,是因为语言模块并不理解这个单词;图像里面的一些故障是因为负责图像的模块和负责审美的模块的冲突:图像模块虚构了它没有学习过的纹理,而美学模块试图给这种虚构的纹理添加现实的光线和色调。??Q: 你们有想过把不同的 AI 整合进 Midjourney,然后根据用户功能来配置权重使用这些模型吗?

?A: 我知道有人结合使用 DallE-2 的笔刷和我们的生成工具。那很酷,我对其是完全的开心。顺便说一下,如果有人想使用我们的工具,其他的工具,那很好。我真的不在乎。我并不是想要接管世界,也不是想要 MidJourney 成为你电脑上唯一的应用程序,哈哈。那不是我。我不在乎。如果别人能做,实际上,我宁愿别人做。就像那很棒一样。我想这会很好,就像世界上最酷的东西一样。但我确实对用户界面有非常强烈的意见。因为这是我 10 年来的主要工作,就像我以前的公司一样,就像 Leap Motion。我们做了所有这些,比如小手跟踪、手势和空间界面。我现在强烈地感觉到,这些技术的用户界面可以做得更好。?

—-