这是AI领域的一个多事之秋,1个多月前,我们见证了GPT-4的发布,没多久Midjourney就推出了新版本的算法。
目前,新的版本5算法与之前的版本相比,已经有了显著的改进。
那么有哪些变化呢?
以下是我们今天要了解的变化列表:
- 分辨率提升
- 改进的面部和手部
- 更强大的提示功能
- V4中一些无法使用的功能已经回归
- 提高分辨率 在版本5中,我们不再需要等待图像放大。4x4网格中的所有图像已经处于最大分辨率和质量。按放大按钮会立即给你选择的选项。 这是一个来自V5的4x4网格示例:
在之前的版本中,初始生成的预览质量较低。放大可能会改变图像。
现在,你可以立即看到最终版本的效果。
改进的面部和手部
至少到目前为止,手部的生成一直是AI面临的难题。使用Midjourney V5,你会看到更少像素扭曲的手部。
面部的改进也非常明显,与之前的版本相比,看起来更加栩栩如生。
让我们比较一下V5和V4。首先我们来看看面部。这两个生成物都使用了完全相同的提示。
上边的V5图像 | 下边的V4图像
尽管V4生成的图像并不差,但V5显然更胜一筹。真实感呈现出了一个全新的维度。看看皮肤的质量有多好。
你可能会认为V4的结果更好,但这只是一个简单的例子,用来证明这一点。
现在我们来看看手部。
上边的V5图像 | 下边的V4图像
这里很容易看出胜者。由版本4算法生成的图像更像是梦魇中的产物,而不是手。
V5并不是每次都能正确生成手部。但它在这方面做得更好、更一致。在尝试生成全身人像或不同角色的图像时,V5比V4更少地产生“梦魇”般的手。
更强大的提示功能
在版本5中,Midjourney还改进了自然语言处理。
你的提示可能会从更自然的句子,而不仅仅是拼凑在一起的随机单词。 让我们来看一个例子(图片描述中的提示)。
一只水獭漂浮在外太空 | 一只水獭,漂浮,外太空 当我们将提示写成一个句子时,我们确实得到了更准确的描述。 此外,在V5中,生成物更加准确,提示中使用的单词对生成物的影响更大。
一些有用的功能回归了 一些在版本4中无法使用的非常有用的功能现在又回来了。让我们来看看它们。
- 无缝拼接
在V5中,你可以再次生成无缝拼接的图像。我在这里详细解释了这个功能,但让我们来看一些例子。
使用Midjourney的--tile功能创建的图片 使用这种方法生成的图像会创建一个自我重复的图案。 你可以通过在提示的末尾添加--tile来实现这样的效果。像这样:
- 支持更多的宽高比
在V4中,宽高比只能达到2:1
Midjourney V5中宽高比为2:1的图片
但V5目前实验性地支持任何宽高比
让我们试试看。
这里是10:1
那么尝试100:1呢?
虽然不完全是100:1,但它仍然相当宽。不过你可能不需要100:1的图片。
为不同设计应用生成任意宽高比的图片非常有用。这实际上是一个巨大的改进。
支持--iw,以权衡图像提示与文本提示
意味着你可以将图像提示与文本提示一起使用,并决定图像对生成物的影响程度。
让我们试验一下。
默认的图像权重为1,目前接受0.5到2之间的值。
为了测试这个功能,我们将从上方拍摄的一位女性肖像与一个超简单的文本提示——机器人——结合起来。
这是结果:
--iw 0.5 | default image weight | --iw 2
你可以清楚地看到,随着我们增加图像权重参数,之前看到的肖像对生成物的影响越来越大。