最近,短视频网站上的AI瞬息全宇宙的特效正在爆火,创意者们使用GEN-1视频到视频工具将自己的原始视频添加各种艺术特效,让围观网友们高呼:这波是我不懂艺术、我也能瞬息全宇宙……

看过我前几期教程的都知道,这个gen-1视频到视频的工具是由runway推出,目前他们还有一个升级版的gen-2文本到视频工具正在研究,即将推出测试!相信很多内容创作者都在盼望着它的到来。

那么,我告诉大家一个好消息,可以提前体验文本到视频的渠道来了!

这个工具是由阿里达摩院推出,在国内的模型社区网站上也已经有了很多生成的视频展示。

模型介绍

该文本到视频生成扩散模型由文本特征提取、文本特征到图像特征生成扩散模型、图像特征到视频像素生成模型、视频插帧扩散模型、视频超分扩散模型这5个子网络组成,整体模型参数约60亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成、插帧或超分的功能。其结构如下图所示。

模型使用方式以及适用范围

本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。

如何使用

目前此模型可以到hugging face上去体验。不过由于还在测试阶段,目前只提供一次2秒的输出,输出一次视频大概需要两分钟。当然你也可以复制模型购买更好地算力,以达到更快的速度。如果你的电脑够好,你也可以将它部署到自己电脑上。