这是AI领域的一个多事之秋,1个多月前,我们见证了GPT-4的发布,没多久Midjourney就推出了新版本的算法。

目前,新的版本5算法与之前的版本相比,已经有了显著的改进。

那么有哪些变化呢?

以下是我们今天要了解的变化列表:

  • 分辨率提升
  • 改进的面部和手部
  • 更强大的提示功能
  • V4中一些无法使用的功能已经回归
  • 提高分辨率 在版本5中,我们不再需要等待图像放大。4x4网格中的所有图像已经处于最大分辨率和质量。按放大按钮会立即给你选择的选项。 这是一个来自V5的4x4网格示例:

在之前的版本中,初始生成的预览质量较低。放大可能会改变图像。

现在,你可以立即看到最终版本的效果。

改进的面部和手部

至少到目前为止,手部的生成一直是AI面临的难题。使用Midjourney V5,你会看到更少像素扭曲的手部。

面部的改进也非常明显,与之前的版本相比,看起来更加栩栩如生。

让我们比较一下V5和V4。首先我们来看看面部。这两个生成物都使用了完全相同的提示。

上边的V5图像 | 下边的V4图像

尽管V4生成的图像并不差,但V5显然更胜一筹。真实感呈现出了一个全新的维度。看看皮肤的质量有多好。

你可能会认为V4的结果更好,但这只是一个简单的例子,用来证明这一点。

现在我们来看看手部。

上边的V5图像 | 下边的V4图像

这里很容易看出胜者。由版本4算法生成的图像更像是梦魇中的产物,而不是手。

V5并不是每次都能正确生成手部。但它在这方面做得更好、更一致。在尝试生成全身人像或不同角色的图像时,V5比V4更少地产生“梦魇”般的手。

更强大的提示功能

在版本5中,Midjourney还改进了自然语言处理。

你的提示可能会从更自然的句子,而不仅仅是拼凑在一起的随机单词。 让我们来看一个例子(图片描述中的提示)。

一只水獭漂浮在外太空 | 一只水獭,漂浮,外太空 当我们将提示写成一个句子时,我们确实得到了更准确的描述。 此外,在V5中,生成物更加准确,提示中使用的单词对生成物的影响更大。

一些有用的功能回归了 一些在版本4中无法使用的非常有用的功能现在又回来了。让我们来看看它们。

  • 无缝拼接

在V5中,你可以再次生成无缝拼接的图像。我在这里详细解释了这个功能,但让我们来看一些例子。

使用Midjourney的--tile功能创建的图片 使用这种方法生成的图像会创建一个自我重复的图案。 你可以通过在提示的末尾添加--tile来实现这样的效果。像这样:

  • 支持更多的宽高比

在V4中,宽高比只能达到2:1

Midjourney V5中宽高比为2:1的图片

但V5目前实验性地支持任何宽高比

让我们试试看。

这里是10:1

那么尝试100:1呢?

虽然不完全是100:1,但它仍然相当宽。不过你可能不需要100:1的图片。

为不同设计应用生成任意宽高比的图片非常有用。这实际上是一个巨大的改进。

支持--iw,以权衡图像提示与文本提示

意味着你可以将图像提示与文本提示一起使用,并决定图像对生成物的影响程度。

让我们试验一下。

默认的图像权重为1,目前接受0.5到2之间的值。

为了测试这个功能,我们将从上方拍摄的一位女性肖像与一个超简单的文本提示——机器人——结合起来。

这是结果:

--iw 0.5 | default image weight | --iw 2

你可以清楚地看到,随着我们增加图像权重参数,之前看到的肖像对生成物的影响越来越大。