多年来,Meta 的首席人工智能科学家 Yann LeCun 一直在谈论深度学习系统,该系统可以在很少或没有人类帮助的情况下学习世界模型。现在,这一愿景正在慢慢实现,Meta 刚刚发布了 I-JEPA 的第一个版本,这是一种机器学习 (ML) 模型,可以通过图像的自我监督学习来学习世界的抽象表示。

初步测试表明,I-JEPA 在许多计算机视觉任务上表现强劲。它也比其他最先进的模型效率更高,只需要十分之一的计算资源来进行训练。 Meta 已经开源了训练代码和模型,并将在下周的计算机视觉和模式识别会议 (CVPR) 上展示 I-JEPA。

自我监督学习

自我监督学习的想法受到人类和动物学习方式的启发。我们仅仅通过观察世界就获得了很多知识。同样,人工智能系统应该能够通过原始观察进行学习,而不需要人类标记其训练数据。

自监督学习在人工智能的某些领域取得了巨大进展,包括生成模型和大语言模型(LLM)。 2022年,LeCun提出了“联合预测嵌入架构”(JEPA),这是一种自监督模型,可以学习世界模型和常识等重要知识。 JEPA 在一些重要方面不同于其他自我监督模型。

DALL-E 和 GPT 等生成模型旨在进行精细预测。例如,在训练过程中,文本或图像的一部分被遮挡,模型尝试预测确切的缺失单词或像素。试图填充每一个信息的问题是世界是不可预测的,并且模型经常陷入许多可能的结果之中。这就是为什么您会看到生成模型在创建详细对象(例如手)时失败的原因。

相比之下,JEPA 尝试学习和预测高级抽象,而不是像素级细节,例如场景必须包含什么以及对象如何相互关联。这种方法使模型不易出错,并且在学习环境的潜在空间时成本也大大降低。 

Meta 的研究人员写道:“通过预测高抽象级别的表示而不是直接预测像素值,我们希望能够直接学习有用的表示,同时避免生成方法的局限性。”

I-JEPA

I-JEPA 是 LeCun 提出的架构的基于图像的实现。它通过使用“抽象预测目标来预测丢失的信息,这些目标可能会消除不必要的像素级细节,从而使模型学习更多语义特征。”

I-JEPA 使用视觉转换器 (ViT) 对现有信息进行编码,ViT 是法学硕士中使用的转换器架构的一种变体,但针对图像处理进行了修改。然后,它将这些信息作为上下文传递给预测器 ViT,该预测器 ViT 生成缺失部分的语义表示。

I-JEPA
图片来源:Meta

Meta 的研究人员训练了一个生成模型,该模型根据 I-JEPA 预测的语义数据创建草图。在下面的图像中,I-JEPA 被赋予蓝色框外的像素作为上下文,并预测蓝色框内的内容。然后生成模型创建了 I-JEPA 预测的草图。结果表明,I-JEPA 的抽象与现实场景相符。

I-JEPA
图片来源:Meta

虽然 I-JEPA 不会生成逼真的图像,但它可以在机器人和自动驾驶汽车等领域有大量应用,其中人工智能代理必须能够了解其环境并处理一些高度可信的结果。

一个非常高效的模型

I-JEPA 的一个明显优势是其内存和计算效率。预训练阶段不需要其他类型的自监督学习方法中使用的计算密集型数据增强技术。研究人员能够在 72 小时内使用 16 个 A100 GPU 训练一个 6.32 亿参数的模型,大约是其他技术所需时间的十分之一。

研究人员写道:“根据经验,我们发现 I-JEPA 可以学习强大的现成语义表示,而无需使用手工制作的视图增强。”

>>关注 VentureBeat 正在进行的生成式人工智能报道<<

他们的实验表明,I-JEPA 还需要更少的微调来在计算机视觉任务(例如分类、对象计数和深度预测)上超越其他最先进的模型。研究人员能够使用 1% 的训练数据在 ImageNet-1K 图像分类数据集上微调模型,每个类仅使用 12 到 13 张图像。

研究人员写道:“通过使用更简单的模型和更少严格的归纳偏差,I-JEPA 适用于更广泛的任务。”

鉴于互联网上未标记数据的高可用性,I-JEPA 等模型对于以前需要大量手动标记数据的应用程序来说非常有价值。尽管该模型是在非商业许可下发布的,但训练代码和预训练模型可在 GitHub 上获取。