【编者按:基于 GPT 和耗散模型 (Diffusion Models) 的各种大模型生成式AI (AIGC) 技术的颠覆性发展不断地给我们带来了冲击,也催生了 OpenAI、Anthropic、MidJourney 和 Stability AI 等一批新的独角兽公司。了解这些公司的成长有助于我们从产品到业务的角度对于这一波技术革命有更深的理解。报道这样的初创公司的挑战之一是缺乏可用的数据,著名科技作者和行业影响者 Ben Thompson 反其道而行之,直接采访这些公司的创始人,让他们对自己的公司给出主观的概述,同时追问他们的商业模式、背景和长期潜力。
最近 MidJourney 正式发布了备受期待的 V5 AI 图像生成器,再次改变了 AI 驱动的艺术创作世界。它拥有显著增强的图像质量、更多样化的输出、更广泛的风格范围等。David Holz 作为 MidJourney 公司的创始人,在 MidJourney 前一个版本 (V4) 发布后曾接受 Ben Thompson 的深度采访,他详细地分享了他创立 MidJourney 公司的心路历程,MidJourney 的技术产品选型的前因后果,对 MidJourney 的业务模式的探索,以及像 MidJourney 这样大模型服务对上下游产业的影响以及未来生成式AI发展的思考。这有助于我们从创新者的视角了解生成式AI领域的创新发展。我们特将该内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)】
本次每日更新访谈是Stratechery创始人系列的另一篇文章;需要提醒的是,报道初创公司的挑战之一是缺乏可用的数据。我的解决方案是反其道而行之,直接采访创始人,让他们对自己的公司给出主观的概述,同时追问他们的商业模式、背景和长期潜力。
在我看来, David Holz 是旧时硅谷的翻版,Holz最初成名是作为Leap Motion(不是Magic Leap!)的创始人兼首席执行官,该公司为使用摄像头和手势的计算机创建了一个新的用户界面样式。最终,Leap Motion太早了,于2019年卖给了Ultrahaptics。Holz随后成立了一个工作室,探索新的机会,最终选择了人工智能生成艺术,今年夏天,这家自筹资金的公司发布了最终产品Midjourney,作为一款Discord机器人。我用Midjourney生成了我今年秋天早些时候写的AI Unbundling文章的大部分图像,包括这张报童的图像:
这张照片显然是在旅途中:不,它在技术上并不正确,但它有某种感觉,比任何其他人工智能生成服务都更像艺术。本周早些时候,在Discord上的一份声明中(媒体奇怪地发现了这一点),Holz写道:
今天我们将尝试对V4算法的一个版本进行alpha测试……V4基本模型有什么新特性?
●更多的知识(关于生物、地点等)
●更好地把握小细节(在所有情况下)
●处理更复杂的提示(具有多个细节级别)
●更适合多对象/多角色场景
●支持高级功能,如图像提示和多提示
●支持-chaos参数(从0到100)来控制图像网格的多样性
V4是一个全新的代码库和全新的AI架构。这是我们在新的Midjourney AI超集群上训练的第一个模型,已经工作了9个多月。V4不是最后一步,而是我们的第一步,我们希望您都能将其视为一些深刻而深不可测的东西的新开始。请带着喜悦、好奇、责任和尊重去使用这些不可思议的力量。
这是Midjourney V4创作的“骑自行车的报童”:
公平地说,《Midjourney》的美感少了一点,但客观地说,这是一种更好的描绘(手除外)。在这次采访中,我们将深入了解Holz在这方面所做的选择,Midjourney的业务,以及Holz走到这一步的历程(包括Leap Motion)。顺便说一下,这是Midjourney想象中的Holz的样子(使用他的Twitter头像作为提示):
主题:《Midjourney故事》|《建造Midjourney》|《Midjourney 和 Discord》|《Midjourney的业务》|《即将到来的GPU危机》|《Midjourney V4》
━━━━
Midjourney故事
我一直在等你停下来,因为我觉得"这是一个自然的转变"所以《Midjourney》非常不可思议。这周我邀请你的消息和原因是你刚刚发布了v4,这极大地提高了现实性。一个新功能是你可以使用照片来提示它,所以我有这张David ·Holz(以下称DH) 播客的很棒的图片,我认为它看起来非常准确。我现在就在看着你,但请告诉我Midjourney的诞生,以及你如何将其视为一款产品,而非一个平台?或者你从Leap中学到的东西是如何影响你一路走来所做的决定的。
DH:有很多经验和教训。实际上,Leap仅仅是销售人们喜欢的小部件,生意就做得很好。挑战在于如何打造应用商店和完整的生态系统,以及如何有效地成为OEM组件供应商。在这种情况下,我们有一个可以授权的产品,我们可以授权模型,我们可以有一个API,我们可以让人们制作迷你游戏。但你知道吗,不,我们只关注一个人与计算机交互的核心体验,并通过这项技术想象一个人如何通过使用交通工具旅行。从第一天开始,试着深入地研究这个东西是什么。在弄清楚它到底是什么之前,不要试图让别人推销它或把它应用到现有的产品中。
当你看到一些新东西时,就会有一种诱惑,把它插入现有的东西中:把手势控制放在Windows上,或者让我们在电视上做广播节目。总是有这种诱惑,我认为这通常是错误的。所以慢慢来,观察人们如何使用它,并试图发现它的内在本质,我认为这是通向真正艺术的道路。当电影刚被发明出来的时候,我认为最终定义电影的最好的人是那些试图弄清楚电影本身是什么的人。不是我怎么玩视频。所以在把新媒介和新领域应用到其他领域之前,要理解它的本质,我认为这是一个非常重要的发现过程。
通常在这样做的过程中,你会学到很多东西如果你在第一天就去那里尝试制作一种特定的产品,你是无法弄清楚的。首先,这是一个探索阶段,一个不固执己见的探索阶段。我认为这很重要。对于Leap,我认为我们在很多方面都太晚了。我会在自己身上测试,因为我是人类,但事实证明,我是外科医生的儿子,我相当灵巧,而且我还很年轻。原始的身体灵活性以及人们使用视觉和触觉反馈的方式对每个人来说都不一样。当我们最终开始在Leap进行真正强大的用户测试时,我们的很多东西都发生了变化。
所以在这种情况下,就像,“哦,我可以在自己身上测试。我觉得这很吸引人,但让我在人身上测试一下。”我们在一年多前做了第一次中程测试当时有200人参加。我们立刻看到了我们没有意识到的巨大事物。90%的人不会说他们想要什么。这就像是,“好吧,如果我们不解决这个问题,我们将失去90%的人。”然后很多人喜欢一起使用,这有点像,“哦,这是一个社交的东西。也许人们真的不想躲到角落里想象狗的照片。”所以我们试着去了解,好吧,这里面有社交元素,有教学元素,有交流和语言元素,这就是我们第一个版本的内容。然后我们一次又一次地测试。
最初是什么促使人们对人工智能领域产生兴趣?有没有恍然大悟的时刻?这就是我需要做的下一步,一旦你卖了Leap Motion?或者这只是一种顿悟?
DH:我在Midjourney的目标之一是建造新的人类基础设施,我认为世界将需要很多新东西,我们需要基础设施来建造新东西。所以我想了很多关于建立新的人类基础设施形式,就像基础设施的新支柱。所以我需要我的主题,我的支柱是反思、想象和协调。你必须反思你是谁,你想要什么。你必须想象可能会发生什么。你必须协调才能到达那里。所以我和一个团队一起为这三个项目工作。因为这是我们在任何事情上都使用的镜头,我们开始看到在图像合成领域发生了一些突破,这与我以前在人工智能领域遇到的任何事情都有质的不同。
所有人都在旧金山,所有的人工智能人员,很大一部分,我们聚在一起,在聚会上聊天,我会说,“天哪,这篇关于扩散模型的论文,感觉真的很不一样。这和GANs不一样。每个人都会谈论它。我们说,“是的,不,这不是GANs。这是一个全新的事物。这是所有这些后果。”我们不断得出同样的结论,那就是技术后果相当严重。所以问题是人类的影响是什么?用户界面的含义是什么?
所以即使我不认为我一定是那个帮助世界弄清楚如何制作假狗照片的人,我确实认为我有一种独特的能力来思考它的人性一面。对一个人来说,通过电脑想象他们在汽车中旅行意味着什么?如果人们在想象事物的过程中以某种方式相互作用,如果我们有这些共同想象的空间,那么创造这种由机器作为中介的共享想象的环境会是什么样子?这一切感觉都是我的拿手好戏。
我擅长的另一件事是,我喜欢AI没有很好的成本函数。这意味着一般来说,如果你有一个很好的方法来衡量某件事是否有效,实际上在人工智能中很容易解决它。但最困难和最有趣的事情是,“这是一张好狗照片吗?”我不知道。”现在真的很有趣。这就像,“什么是好的图像?人们想从一张图片中得到什么?他们想要什么?他们怎么说话?他们想要表达的东西是如何影响他们真正想要的东西的?”这几乎是所有哲学和模糊的问题都要解决。我真的很喜欢。
事实证明,这是我在Leap Motion中必须擅长的一件大事,因为“这意味着什么才能让手部跟踪工作得更好?是一个同样困难的问题,因为它是在这样的环境中,它是否有利于互动?那是什么感觉?然后有很多类似于人的元素,我真的很擅长这个。所以我知道我能帮上忙。我知道我能在设计方面帮上忙。我的意思是,我是一个设计师。我在高中的时候有一个专业的设计公司,我在Leap做了很多设计。这是一个小小的设计。我有足够的人工智能知识,我有足够的用户界面知识,我有足够的设计知识,我可以把这三件事结合起来,我认为我有很多东西可以添加。
我感觉到了,我的意思是,就像《Midjourney》这个名字一样,它是在中间。这里有一个主题。它真的很吸引我。事实上,你不知道一个图像是好是坏,或者计算机不知道。这又回到了生成物的部分。怎样才能做出好产品?伟大的产品有某种观点和愿景来驱动它们。只有当你有了一个伟大的产品,有了一个庞大的用户群,你才会开始得到可操作的反馈,从而在边缘上改进产品。但很多产品开发都试图过早地获得数据。这就像试图从用户调查或任何可能的地方提取一些东西。我们需要有远见。我还发现,在你决定做视觉AI之前,你已经有了这些目标。这与你想象的公司在这个领域会发生的事情相反。
DH:嗯,我有一个目标,那就是我们需要以某种方式创造一个更有想象力的世界。我的意思是,我认为世界上最大的风险之一是信仰的崩溃,对我们自己的信仰,对未来的信仰。我认为部分原因是缺乏想象力,对我们能成为什么缺乏想象力,对未来能成为什么缺乏想象力。所以我认为想象力是我们这个世界所需要的重要支柱。我一直在想这个,我看到了这个,我想,“我可以把它变成一种力量,可以扩展人类的想象力。”这是我们现在在公司里用的东西。这感觉很现实。这真的很令人兴奋。
你的提示符是“/Imagine”,这很完美。
DH:所以这是一种愿景。但我的意思是,有很多东西我们不知道。我们不知道,人们如何与它互动?他们到底想从中得到什么?什么是社交?那是什么?还有很多事情。机制是什么?接口是什么?你们是通过哪些组件来构建这些体验的?所以我们必须在没有太多意见的情况下去尝试。我从Leap中吸取了很多经验教训,那就是不要试图凭空设计一个完整的体验,假设你可以看到未来的10步,只做一堆东西,看看什么很酷,什么人们喜欢。然后取几个放在一起。
你尝试了10件事,然后找到了最酷的三件,然后把它们放在一起,感觉远不止三件事。它在复杂性和细节上有所增加,让人感觉它有深度,尽管它看起来并不多。所以,找到三个很酷的东西,然后开始用它们来做一个产品,这是很神奇的。
━━━━
建造Midjourney
跟我说说这个吧,因为《Midjourney》今年才公开发行,但你是什么时候开始创作的?在你阐明发现的价值和看到社区如何反应以及所有这些方面,与你实际去训练一个模型之间似乎存在脱节,在某些方面,这是提前做的工作。你到底是什么时候开始的?你什么时候开始训练你的第一个模型,时间轴是什么时候?
DH:大约16个月前。所以我们可能花了两个月的时间自己使用它,自己玩它来形成观点。
你训练第一个模型花了多长时间?
DH:有足够多的开源东西,你可以把它们放在一起,以获得一种必须训练任何东西的体验,这真的很棒。但很快我们开始做更多定制的东西,但我们不需要训练任何东西来开始对空间有感觉。这在很大程度上要归功于一个名叫凯瑟琳·克劳森的女人,她是一个在偏僻的地方工作的独立研究员,只是在训练。她是这个领域的先驱之一。对谁都没用,真的很酷。所以,这有点特别。OpenAI有一些开源的东西,它们不能制作图像,但可以帮助我们使用叫做Clip的语言。所以去年有很多不同的研究人员做了很多实验,这些实验被粘在一起,可以证明你可以做出一张图像,这有点令人信服。老实说,这让我很惊讶,我想,“这显然很酷,但显然不是它应该有的样子。”
所以你可以把这个工作进行比较?一方面,你可以开始考虑社区方面,用户界面方面。在我看来,在Discord中使用它是非常棒的,它所允许的迭代速度,而且你不需要花费时间构建整个用户界面。我的意思是,也许从长远来看,Midjourney将拥有自己的网站,自己的用户界面,但现在你可以免费获得用户界面。与此同时,你会说,“好吧,我们开始解决这个问题了。我们真的应该训练自己的模型。”你刚刚推出了V4,我记得你说你花了九个月的时间来训练。
DH:是的,这花了很长时间。
正确的。所以你开始训练在《Midjourney》公开发布之前刚刚发布的V4模型。但是因为有这个开源的部分,你可以把足够多的碎片组合在一起,你可以并行化那个发现。
DH:但可能发生的更多的是,我们从我们的第一个用户测试开始,它有两个算法。它有一些开源的东西,可以在20分钟内做出好看的图片。当时拍一张照片需要20分钟。我的论点是,“我们不需要那么好的图像质量,但我们想要速度。”所以我和丹尼尔一起工作他是我们最早的工程师之一。我们做了一个15秒的版本。于是我就想,“好吧,让我们做一个用户测试,200人,有两种算法,一个20分钟,一个15秒,我们将围绕这两种算法建立良好的体验,我们将开始看看会发生什么。结果是人们很难使用高质量的图像,他们喜欢低质量的图像。但实际上有很多错误的信号,事实证明,当我们认为速度很重要而质量不重要时,随着时间的推移,我们了解到速度并不重要,质量不重要,而是有一个不确定的速度窗口,让人们学习。
正确的。所以他们可以重复做不同的提示之类的事情。
DH:如果速度太慢,你就学不会。事实证明,如果它真的很快,它也不能以其他方式感觉良好。所以我们最终会让事情变慢一点。事实证明10秒太快了,60秒差不多是他们能做几件事的时间,他们都能做回来,感觉很好。但在那段时间里,我们有两个版本,一个60秒的版本,一个10秒的版本。基本上,没有人关心这个10秒的版本因为60秒的版本更漂亮,60秒的也不算太慢。
是这样。
DH:基本上,有一个黄金区域,我们只关注这个区域内的质量。
━━━━
Midjourney 和 Discord
Discord的事情很有趣。我们知道社交很重要,但实际上我们加入Discord的原因是因为我们是一个远程团队,我们创建了一个机器人,帮助我们在Discord内部与团队一起调试系统。所以我们的团队互相讨论,我们会说,“这个参数怎么样?”然后我们想,“哦,让我们做一个图像。”我们会这么做。“那么这个参数是什么?”我们用机器人在远程环境下驱动算法的发展。然后我们就觉得,“哦,这很有趣。也许我们应该让别人用这个。”然后我们在Discord上用同样的机器人做了一个用户测试。然后每个人都很喜欢,我们看到人们实时地相互交流想法,创造这些富有想象力的环境,分享知识。这看起来太好了。我立刻就想,“好吧,我们必须全力以赴。让我共同组建一个Discord机器人团队。”
是的。我的意思是,关于Discord体验的神奇之处在于所有这些元素都融入其中。首先,这需要一些时间,但这不是死空间,你可以看到图像出现。所以,坐在那里说:“哇,我认为它正在实现。哦,那会是什么?”然后它就出来了。但如果你在一个公共频道,当你在等待你的图像时,你会看到所有其他的图像。第一,它是鼓舞人心的,因为其中一些人绝对是不可思议的。第二,你会看到他们使用的提示,“哦,他们做了这个XYZ事情,我应该在下一个尝试一下。”顺便说一下,你可以在等待你的提示出来的时候再输入一个提示。那种共同发现的期待都被包裹在这种60秒的体验中。进入这些频道的那种兴奋感,真的很吸引人。
DH:是的,这是一个惊喜。我认为这是在第一次测试中自然出现的。当我看到它的时候,我想,“我们必须全力以赴。”每个人都会说,“你疯了吗?你什么事都要在不和谐音里办?”我说"人们喜欢它,其他的都不重要"
这很有趣,因为你可以免费获得很棒的手机体验。这些同步都是免费的。我的意思是,这里有一个方面,随着时间的推移,技术的东西在堆栈上,我们已经在应用程序时代很长时间了,你必须有自己的应用程序,你有自己的网站,你必须在后端完成所有的同步。《Midjourney》的有趣之处不只是图像,我认为用户界面也非常吸引人。这可以说是最大和最重要的聊天机器人应用程序,你假设Discord的存在,然后你坐在它的上面。这是一个更高层次的抽象,而不是我们之前所停留的应用范例。
DH:公平地说,这可能是有史以来最大的聊天机器人应用程序。这个市场很难运作。
是的。
DH:我认为很多聊天机器人都试图成为一个人,这很糟糕。聊天机器人不应该试图成为一个人。在这种情况下,有很多人想把聊天机器人的图标做成一个小机器人。我说:“绝对不行。这不是机器人。你不是在和一个机器人一起工作。它是一种交通工具。我们在上面放了一艘小帆船。”就像,你在帆船上看到了什么?
你在旅途中,对吧?
DH:是的。你和电脑之间没有对话,但是你和其他人之间有对话。
是的
DH:我认为如果只是在一个房间里和一个聊天机器人交谈,《Midjourney》的体验就完全行不通了,但如果是在一个有很多人的房间里,它就会变得非常有趣。这是我以前从未见过的聊天机器人的另一个领域,是一个聊天机器人在一个有多人的环境中,而不是试图成为一个人。它几乎就像一个协作命令行界面或协作搜索或某种协作空间。这真的很有趣。
不,我必须祝贺你,因为你之前说过,重要的是要开放地发现什么适合新的范式。我经常提到的一个例子是,当广告刚出现在网上时,他们只是在文字旁边贴了个广告,因为报纸上就是这么做的。但你为什么要复制它呢?无论将来有什么工作,都必须利用它所处界面的原生性。feed广告就是一个例子。你有一个无限的饲料,你不能在纸上,你可以在里面放广告。
在这种情况下,所有最初的聊天机器人都太字面化了。你实际上是在和一个机器人聊天,你每次都看到这个,第一个版本太字面化了。你要弄清楚的是在这个空间里什么是唯一可能的。这就是,用户在聊天,但有一个持续的提示,不仅仅是一个图像生成的提示,而是一个关于聊天内容的提示。如果你在聊天室里有一群陌生人,那就会演变成疯狂、仇恨言论和诽谤之类的事情,但这不会发生在Midjourney频道里,因为有一些事情可以讨论,那就是这个机器人每隔几秒钟就会生成令人难以置信的图像。
DH:是的,这有点像一群人在一个房间里,各种想法在房间里旋转。“如果是这样呢?”
我想我们会回顾一下Midjourney,这就是聊天机器人的长远发展方向。它将不是你和机器人聊天,而是你和其他人聊天,并不断提示你要谈论什么。
DH:是的,我认为这真的很酷。我认为还有一件事让我非常惊讶,那就是它如何帮助一个普通人更好地理解产品。
是的。你不需要问别人,觉得自己很愚蠢,问自己“我该怎么做?”你只是坐着观察,这就是人类学习的方式。
DH:但是,我的意思是,当我做用户测试时,我们发现这有点令人难以置信。就像,“难道你不想让一个人自己发现产品吗?”我们会这样做,我们会说,“好吧,这是一台机器。它可以让你画任何你想画的东西,任何你能想象到的东西,你想要什么?”然后他们就说,“狗。”
它会给他们看一张狗的照片,然后他们说,“好的。”就像,“不,来吧。”因为你一开始就在那里。“你想要什么?”再来一点。”他们说,“大狗。”然后我继续问,他们说,“大毛毛狗。”到最后,他们都不感兴趣了,就像,“这一点都不有趣,我为什么要关心这个?”但当你突然把这些人扔到同样的环境中,和完全陌生的人一起,他们会说,“狗。”还有人说"太空狗" "带激光的太空狗" "带激光和天使翅膀的太空狗"突然这个人就会说"天啊"
DH:他们被放在这个充满想象力的环境中,这开始改变他们对自己和他们能做什么的信念,突然之间,它创造了一个充满想象力的环境,实际上也让人们更有想象力。
是的
DH:这真的很奇怪。如果我在一年前说,“David,想象一下一个产品入职体验,你把一些人扔到一个房间里,这让他们与其他人相处时更有想象力。”我会过得很艰难。这很难想象。那是什么?就像,是的,它的出现真的很酷。就像当你把人们聚集在一起时,有很多用户界面的东西已经解决了,因为我们有与他人的用户界面。所以有一种观点认为,让这一切发生,让所有美好的事情发生,然后放手,这是非常强大的。所以我不知道。这真的非常非常有趣。我的意思是,它现在已经是Discord上最大的服务器了。从本质上讲,Discord并不是为那种规模的东西而设计的,它不是为数百万人的服务器而设计的。而且,我的意思是,用户群体也不一定是Discord的用户群体。
正确的。那里的玩家并不多。你讲了休息站那个卡车司机的故事,对吧?
DH:是的。有个50多岁的卡车司机,他在进站时用智能手机使用Midjourney。这不是普通的Discord用户。事实上,我认为我们在上次调查中发现,在Discord服务器上,45岁以上和18岁以下的人一样多,这与正常的Discord人口统计数据完全不同。此外,年轻人使用它的方式实际上与老年人使用它的方式完全不同。所以实际上可能有不止一种产品在发挥作用,但有时很难判断,因为所有人都在使用它。老年人实际上有更多的语言和经验来创造东西。就像老年人一样,作家往往年龄较大,而年轻人几乎不知道该说什么。他们真的告诉我,“David,我不知道该怎么说。我知道我有图像,但我没有文字。”
所以有时他们会用其他图像来制作图像这是一个非常不同的过程,这很有趣。最重要的部分是有想法、假设和你想要测试的东西,但不要带着太强烈的观点去那里,以至于你看不到事情的真实本质。事实上,开发一个产品最重要的部分就是要开放地去发现事物的本质。
DH:对于一般的产品体验,人们总是固执己见。有了产品创造的经验,从第一天开始,你必须了解你的市场,你必须知道产品的六个用户步骤是什么。他们试图创造所有这些复杂性,这并不重要,重要的是人们有一种情感共鸣的体验,让他们产生情感反应。在某种程度上,我认为如果人们对你的产品有情感反应,你就已经成功了80%。
━━━━
Midjourney的业务
这种缓慢发展的能力,如此明确地关注和投资于发现过程,而不是从第一天就建立一个平台的能力,来自于一个令人难以置信的事实,当每个人听到这个消息时都很震惊,Midjourney目前没有风险投资?这是走不同路线的部分原因吗?
DH:在Leap Motion之后,我经历了很多创伤。所以我的第一个目标是设计一个不需要投资者从第一天开始就开始运作的实验室。所以我认为这只是以一种非常特殊的方式设计的,“我想有一些东西,我不需要去找任何人,向他们解释我的业务是什么,以便有钱开始做我的研究。”我有目标,我有方法来调查这些目标,我将在人们身上进行测试,在某种程度上,我将对某些东西收费,现在我要弄清楚它。这更像是创业,而不是创业。
这真的很有趣,我以前从来没有这样做过。有风险投资有很多好处。但在这种情况下,当我刚开始进入技术行业时,我是一个随机的人,有一份很酷的简历和一个联合创始人,但我没有任何信誉来从事疯狂的技术工作,而现在我有了。所以当我需要找一个云供应商给我10,000个gpu时,我可以给云供应商的负责人发电子邮件说,“嘿,这是大卫在做一件事。”他们说"这是大卫,他在做一件事"他们可以给我所有的资源。我不需要风险投资,因为人们实际上知道我是谁。这是一个巨大的优势,因为它是一个已知的技术因素。
大多数人用它来获得更多的资金。但在这种情况下,您可以使用它来获得功能,特别是从云供应商那里获得功能。
DH:我可以组建团队,我可以把我的团队聚集在一起,因为我知道无论我在做什么,它都会很酷,而且我能够解决它。然后我让供应商给我们一些能力。我的意思是,我认为技术领域的每个人都知道,无论大卫在做什么,都会很酷。他们可能不知道这是否会成为一门生意,但从Leap Motion可以肯定,他们知道这将是最酷的东西之一,它将非常酷。所以从商业的角度来看,我可能需要证明一些东西,但从技术的角度来看,我没有任何东西需要证明。所以每个人都会帮你做一些很酷的东西。我可以问投资者,我相信如果我说“我正在做一件事,给我一张支票”,他们也会这么做的。他们都很支持我。但作为第二次创业的创始人,我本可以毫无疑问地获得风险投资。
不过,作为第二次创业者,你利用了这个优势,没有去找投资者,而是去找供应商。我觉得这很有趣。但《Midjourney》现在确实在赚钱,对吧?
DH:是的(笑)。
我觉得笑就说明了一切。我的意思是,我有一个企业账户,当我购买它的时候,它至少是每年600美元。但对于个人来说,我面前并没有价格。但如果你想制作比免费账户更多的图片,它相对便宜,人们只是想继续制作更多的图片,对吗?
DH:是的。为此找到正确的商业模式是相当棘手的。在某种程度上,这是一种非常诚实的商业模式。你想要制作图像,它们在云上发生,我们收取利润。
基本款每月10美元,标准款每月30美元。
DH:我想把它做成付费业务的原因之一是,我觉得这是最诚实的商业模式。这就像我在编写基础设施,你在为基础设施付费,用利润来支付一个团队。我真的很喜欢。确定合适的价格和合适的功能,并建立这些实际上是相当具有挑战性的。10美元和30美元,还有很多其他奇怪的东西,有无限的,放松模式的图像。这是一段我以前从未经历过的奇怪旅程。我们完全不知道该怎么收费。
我必须检查价格,因为自从一个月前我上次看到它们以来,它们已经迭代了。
DH:是的,我认为第一个月我们是赔钱的,因为高级用户,鲸鱼用户,他们抹去了我们所有的利润,然后把我们带到了负值。第二阶段,我们建立了安全措施来防止这种情况发生,然后我们开始赚很多钱然后我们试图降低利润率,因为我们真的不需要这么高的利润率。我们只是努力为所有用户提供更好的服务。然后我们可以转动旋钮,直到我们达到一个地方,我们觉得我们可以支付研发和其他东西。
━━━━
即将到来的GPU危机
那么成本结构是如何运作的呢?一方面V4刚出来,花了9个月训练一个模型。至少对我这样的外行来说,培训是非常昂贵的。然后你让所有这些人在那里实际生成图像,运行这些推断模型,我知道这些模型是在gpu上运行的。在这种情况下,我猜生成每张图像的边际成本比训练的成本要大得多?你们的成本结构是如何运作的?
DH:我想说的是,我们云成本的10%用于培训,90%用于用户制作图像的推断。几乎所有的成本都在制作图像上。
图像的制作是在图形处理器上运行的吗?
DH:是的,是的。我不太确定是否要说出我们使用的确切数字……
你正在使用成千上万的图形处理器。
DH:超过几千人。或者通常超过10000个gpu。
你是世界上最大的GPU用户吗?
DH:不,但我们是其中之一
我认为你是独一无二的,因为你的大部分用途是用于推断,而不是用于训练。对吧?
DH:是的,我们的推理使用很奇怪,有些用户愿意等待,有些用户不必等待,有些用户不会等待。然后会有很大的延迟,但是使用模式真的很奇怪。所以我们在早期做了很多创新的物流工作来降低成本。所以现在,如果你制作一张图像,世界上有八个不同的地区可以制作这张图像,而你完全不知道。它可能会在韩国、日本、荷兰或其他地方制造。它会到八个不同的区域,gpu在这八个区域之间进行平衡。很酷的一点是,我们会在韩国使用大量的gpu,当时是晚上,所有人都睡在那里,没有人使用它们。我们可以实现负载平衡。你基本上可以在黑夜中穿越地球。
真有趣。
DH:除此之外,gpu的需求量很大。实际上,我们很难得到我们使用的那么多。所以我从来没有考虑过这个问题。大规模做这些事情的后勤工作非常有趣,几乎没有人意识到我们实际上已经在这个市场上耗尽了10倍的gpu。所以,希望明年我们能增长10倍,否则云计算就会耗尽机器,这将是一件非常有趣的事情。所以我们必须为此做好计划,如果我们这样做会发生什么,我们如何达到那个目标,那是什么?
为什么呢?是不是gpu不够多?晶圆厂产能不足吗?限制因素是什么?
DH:主要是关于有多少备用机器和所有的数据中心。因此,平均而言,云供应商试图最小化闲置机器的数量,因为这就像最小化零售商店的库存一样。有一些供应商没有相同的成本结构,他们有更多的现金,他们有其他的内部用途,然后他们有更多的电脑。但即便如此,他们拥有的也只会比所需的多那么一点点。因此,现在的问题是,目前云供应商的过剩容量是多少,推动这种容量的市场是什么?所以我认为,在某些方面,我们是第一个大型人工智能模型的大型消费者用例。
这就是为什么推理在你的成本中占更大的部分是如此有趣,因为到目前为止,如果你的大多数gpu都被用于训练,这是有一定的可预测性的,无论是我需要多少个,还是我需要多长时间。但是你的需求是不可预测的。它实际上是由消费者驱动的。所以你无法预测。你可以看到Midjourney的发展,你可以看到我们需要这些东西。但是构建一个GPU需要6个月的时间。这里有很多准备时间。你可以看到这种不匹配是如何发生的,你可以看到需求的到来,但拐点即将到来,也许很多人在它到来之前都不会意识到拐点的到来。
DH:是的,我们有几次措手不及,我们在主要的云供应商那里短暂地用完了gpu。当这种情况发生时,真的很困难,因为人们基本上没有得到他们的照片,他们会非常沮丧。所以我们一直在努力确保。这感觉有点像苹果公司在生产iPhone时所做的物流工作,并确保供应链良好。我们几乎有了一个计算供应链,这是一个非常有趣的概念,我认为在大型模型之前基本上不存在。
是的,因为从来没有消费者对云计算的直接需求。
DH:是的,我的意思是,在这种情况下,人们在我们的服务上花费的几乎每一美元都用于支付GPU,这有点奇怪。当然,每一美元计算的失败次数比任何其他服务都要多。然后,是的,发生的事情是消费者对计算的需求并没有那么多,而现在我们展示的是有,云基本上不是在假设消费者对计算有很大的需求的前提下建立的。
基本上,云将不得不重新适应这个新的现实。这是一个相当大的调整。对我来说,如果我不得不猜测,如果我们想让世界上10亿人使用大型人工智能模型,无论是人工智能图像生成还是文本或其他任何东西,这些只是大型模型,它们被用于什么并不重要。如果我们想让10亿人使用它,从计算角度来说,云可能需要比现在大1000倍。所以一千倍的差异,在短期内这在物理上是不可能的。所以在接下来的几年里,我认为这些市场的计算能力会受到很大的限制,这就是为什么我们在营销方面相对安静的原因之一,我们相对安静的原因是,我们不需要为每个人都提供一种产品。
我想说V4在某些方面没有得到媒体的关注,对吧?它不在Techmeme上。我的意思是,推特,当然,有点淹没了一切,但它只是在你的Discord服务器上的一个公告。这很有趣。这对您来说实际上是一件很重要的事情,因为您现在无法处理整个世界都在尝试V4。
是的。
这对新的云供应商来说是一个机会吗?这是一种范式转变吗?看起来确实是这样,对吧?到目前为止,所有的云供应商都是为其他业务构建的,我们为您提供了灵活性和可伸缩性,但我们是在以稳定可预测的方式构建大型基础设施云的背景下做到这一点的。你说的是不,你需要这个容量来获得更大的可伸缩性。您认为灵活性是SaaS业务。不。这是完全不同的东西。而范式转变对新公司来说是机会。新的云供应商是否有机会满足这种需求?
DH:现在有很多云供应商来找我。我通常会告诉他们,“谢谢你们来找我,提供1万台机器。如果我做了所有的工作让你上网,我的容量可能只会增加一倍。”所以我会等到我快用完的时候再做因为这有很多额外的工作。我现在更愿意关注更少的供应商,而不是更多的供应商。但最终,如果我需要的话,我会把它们全部拿走。但通常情况下,我没有足够的空间来完成所有这些工作,以提高20%甚至两倍的容量。还没有。因此,挑战在于,如果你想成为一个新的云供应商,你可能需要愿意预先投入10亿美元用于购买图形处理器和建立数据中心。如果你愿意投入这笔钱,你就可以立即成为市场上一个有趣的参与者。但如果小于这个,可能就没什么意思了。这是我个人的感受。
这似乎是英伟达云服务的应有之义。
DH:是的,这可能发生。如果这只是一个谁能购买更多gpu的问题,那么英伟达可能会赢得这场游戏,但这可能也是一个挑战,或者是现有的供应商,每个人都有额外的现金。我认为这更多的是一个问题,如果我们需要1000倍以上的云计算,没有什么。在云中拥有1000倍以上的gpu将是一项令人难以置信的能源消耗,而不是电力消耗,但它实际上只是制造了那么多机器和那么多数据中心。因此,如果我们确实需要更多的计算,我认为机会可能在于,我们所需要的可能不是一个效率可能是两倍或三倍的GPU;基本上,当你必须增加一千倍的时候,你就会开始问,到底要做什么才有意义。
比特币就是这样,对吧?比特币从gpu转向专用芯片,也许这里的争论是需要发生的,因为回报是如此巨大。
DH:是的,我不知道它会是什么样子,但有两个可能的世界。一是我们只需要7年的时间就可以扩展到1000个X,在接下来的7年里,市场的计算是有限的,这将是非常有趣的。也许是5年,但也可能只有5年或7年。另一个观点是,在那个时期的某个时候,我们将开始看到巨大的新形式,大量的能量投入到定制芯片中,这可能会使它下降10倍,然后突然在一年之内就发生了,你知道吗?所以我不知道会发生什么。
我知道有一个很酷的芯片项目,也许几年后你会把神经网络直接烧到芯片里,然后就没有任何内存了。承载重量的是晶体管本身。所以电进来了,图像出来了。甚至不需要钟表你可以自己做这些。那太酷了。但如果不是这样,那么它就会变得这么大,普通的硅产业就会做他们正常的优化,看看他们能做什么。基本上这将是一场战斗。我们能让算法在现有的芯片上获得更高的性能吗?我不知道会有什么结果,我的意思是,实际上,有可能会出现一个新的硅供应商。我见过一些奇特的芯片设计。
━━━━
Midjourney V4
我还有5个问题想回答,但有点长了。我以V4结尾。V4更加真实。我想有两个关于V3的问题。V3的造型很中游,对吧?你可以看出那是《Midjourney》,我想很多人都很喜欢这种氛围。但V4感觉更真实,有些人会说,“我有点想念它的氛围,我想念V3的Midjourney氛围。”你对此的看法是第一个问题。
第二,作为现实主义的一部分,有更强的深度伪造能力,或者你可以把某人放在特定的情况下。你觉得这段怎么样?V3的氛围只是一个意外,因为你不能拍出足够好的图像,现在你可以了,现在这些其他的担忧出现了吗?
DH:对于软件的每个版本,我们都花了很多时间让它看起来更好,不管当时有什么限制,这个版本都能做到最好。版本一和版本二都是非常原始的算法。我们只是想让他们看起来不错。第三个版本是第一个我们可以使用用户数据来尝试更多地了解审美应该是什么,人们真的很喜欢这样。版本4现在处于一个奇怪的位置,我们仍然使用一些来自旧版本的数据来定义外观,但系统本身是如此不同。它真的应该有一个新的外观。我们还没来得及把它推出去。我们会尽快推出。希望在下周,我们将尝试为V4定义更多的外观。但问题是它与旧的太不一样了,我们基本上不得不尝试获得全新的用户数据来弄清楚它应该是什么,但这很难,因为它要做的事情太多了。范围太大了。
哦,大量的细节,不仅仅是这些,还有背景细节才是真正吸引我的地方。这不仅仅是前景的主题,这是你所要求的,非常详细,但有这么多的氛围,都是连贯的。都是同一个图像。这就是V4让我大吃一惊的地方。
DH:实际上,V4目前的范围已经被我们目前的风格所限制。对于V4的当前风格,我们实际上在第一个发行版中为它添加了许多护栏,因为我们还没有收集到所有的数据。我们只能非常保守。所以理论上它应该有更广泛的艺术范围,但风格也应该是默认的,更有主见,然后你应该能够上下调节风格滑块。
你是否因为现在拥有如此庞大的用户群而感到越来越受限?而在此之前,你可以进行更多的实验,而现在你会说,“哦,我们需要得到数据,但人们马上就会对我们做出评判。”这是你面临的挑战吗?
DH:我想说的是,我们发现的一个挑战是,你基本上不可能给任何人一个模型超过一周而不让他们永久地依赖它。
是的。
DH:它可能太成功了,让人们把它视为自己思想的一部分,因为我们几乎永远无法摆脱任何东西,这很难。但我的意思是,有很多棱角。此外,这些工具比它们看起来要强大得多。我们的产品比大多数其他平台都有更多的功能。所以当我们发布V4时,我们没有奇怪的纵横比,我们没有所有的样式控制,我们有很多缺失的功能。人们很不高兴,我们觉得,这上面已经有很多功能了。从第一天起,我们就必须提供很多支持。所以这真的很有挑战性。
我认为其中一个挑战并不是拥有太多用户,而是实际上存在多个社区,他们希望从中获得不同的内容。这里有专业的设计师。有些人只是让图像看起来尽可能真实。有些人想要看起来很奇怪的东西。大量的人通常使用图像。他们是非常不同的人,有着非常不同的用法。现实是,在某种程度上,制作适合所有人的东西是不可能的。这是一个挑战。如果有什么不同的话,那就是如果我们的产品面向更少的人就好了,因为我们现在遥遥领先,我觉得每个人都来找我们,但要为每个人提供所有东西是一个挑战。有时我会说,看,嘿,如果我们没有这个功能,很好,你可以去其他地方看看。我不介意。这完全没问题。
这时你是否会感到压力,“哦,也许我应该多拿些钱。也许我应该雇佣一个更大的团队,将我们所创造的产品呈现给不同的人?”
DH:这真的很有趣。我认为我的挑战是,我愿意制作多种产品,但我认为挑战在于产品不仅仅是一组功能,它也是一个社区、一个品牌和一个愿景。对我来说,用一大笔钱去买六个未来愿景和六个不同类型的社区和产品是很难的。我还没找到扩大规模的方法。我想可能没人能做到这一点。出于某种原因,每个产品公司基本上都不会一次生产10种产品,你知道吗?
是的,不,说得好。我的意思是,那是苹果全盛时期的样子。你和史蒂夫·乔布斯一起见证了他对计算机的愿景,而在《Midjourney》中,你经历了David·Holz的旅程。
是的
这非常有趣。这真的很吸引人,我还有很多问题要问,所以我希望你们能尽快回来,深入了解这类问题。
DH:当然。谢谢你!