这是长期科技记者 Michael Copeland 解释深度学习基础知识的多部分系列中的第一部分。

人工智能是未来。人工智能是科幻小说。人工智能已经成为我们日常生活的一部分。所有这些说法都是正确的,这只是取决于你指的是哪种类型的人工智能。

例如,今年早些时候,当谷歌 DeepMind 的 AlphaGo 程序在棋盘游戏围棋中击败韩国大师李世石时,媒体使用人工智能、机器学习和深度学习等术语来描述 DeepMind 如何获胜。这三者都是 AlphaGo 击败李世石的部分原因。但它们不是同一件事。

思考它们之间关系的最简单方法是将它们想象成与人工智能同心圆——这个想法首先出现——规模最大,然后是机器学习——后来蓬勃发展,最后是深度学习——推动当今人工智能爆炸——两者都适合。

What's the difference between Artificial Intelligence (AI), Machine Learning, and Deep Learning?

从萧条到繁荣

自从 1956 年达特茅斯会议上少数计算机科学家围绕这个术语聚集在一起并诞生了人工智能领域以来,人工智能一直是我们想象力的一部分,并在研究实验室中酝酿。在此后的几十年里,人工智能时而被誉为我们文明最光明的未来的关键,时而被视为过度推进的轻率想法,被扔进技术垃圾堆。坦率地说,直到 2012 年,两者兼而有之。

在过去的几年里,人工智能呈爆炸式增长,尤其是自 2015 年以来。这在很大程度上与 GPU 的广泛可用性有关,GPU 使并行处理变得更快、更便宜、更强大。它还与同时进行的几乎无限的存储和大量数据(整个大数据运动)有关——图像、文本、交易、地图数据,凡是你能想到的。

让我们来看看计算机科学家如何从 2012 年之前的萧条走向繁荣,并推出了每天有数亿人使用的应用程序。

人工智能 机器展现的人类智能

King me: computer programs that played checkers were among the earliest examples of artificial intelligence (AI), stirring an early wave of excitement in the 1950s.
King me:下棋的计算机程序是人工智能最早的例子之一,在 20 世纪 50 年代掀起了一股早期的兴奋浪潮。

早在 56 年夏天的会议上,那些人工智能先驱者的梦想就是构建由新兴计算机支持的复杂机器,这些机器具有与人类智能相同的特征。这就是我们所认为的“通用人工智能”的概念——神奇的机器,拥有我们所有的感官(甚至更多)、我们所有的理性,并且像我们一样思考。您在电影中无数次地看到这些机器作为朋友(C-3PO)和敌人(终结者)。通用人工智能机器一直出现在电影和科幻小说中是有充分理由的。我们无法实现这一目标,至少现在还不能。

我们能做的事情属于“狭义人工智能”的概念。能够像人类一样或更好地执行特定任务的技术。狭义人工智能的例子包括 Pinterest 等服务上的图像分类和 Facebook 上的人脸识别等。

这些都是狭义人工智能在实践中的例子。这些技术展示了人类智能的某些方面。但如何呢?这些情报从哪里来?这让我们进入下一个循环:机器学习。

机器学习 — 实现人工智能的方法

Spam free diet: machine learning, a subset of AI (Artificial Intelligence) helps keep your inbox (relatively) free of spam.
无垃圾邮件饮食:机器学习有助于保持您的收件箱(相对)没有垃圾邮件。

机器学习最基本的是使用算法来解析数据、从中学习,然后对世界上的某些事物做出确定或预测的实践。因此,机器不是使用一组特定的指令手动编码软件例程来完成特定任务,而是使用大量数据和算法“训练”机器,使其能够学习如何执行任务。

机器学习直接来自早期人工智能人群的思想,多年来的算法方法包括决策树学习、归纳逻辑编程。聚类、强化学习和贝叶斯网络等。众所周知,没有一个能够实现通用人工智能的最终目标,甚至狭义人工智能也大多无法通过早期的机器学习方法实现。

要了解有关深度学习的更多信息,请收听 NVIDIA 的 Will Ramey 主持的 AI 播客第 113 集 

事实证明,多年来机器学习最好的应用领域之一是计算机视觉,尽管它仍然需要大量的手动编码才能完成工作。人们会编写手动编码的分类器,例如边缘检测过滤器,以便程序可以识别对象在哪里开始和停止;形状检测以确定它是否有八条边;识别字母“S-T-O-P”的分类器。他们将根据所有这些手工编码的分类器开发算法来理解图像并“学习”以确定它是否是停车标志。

很好,但不是令人费解的伟大。尤其是在大雾天,标志不完全可见,或者树木遮住了部分标志。直到最近,计算机视觉和图像检测才能够与人类相媲美,这是有原因的,因为它太脆弱,太容易出错。

时间和正确的学习算法使一切变得不同。

深度学习 一种实现机器学习的技术

Herding cats: Picking images of cats out of YouTube videos was one of the first breakthrough demonstrations of deep learning, a subset of AI and machine learning.
放牧猫:从 YouTube 视频中挑选猫的图像是深度学习的第一个突破性演示之一。

另一种来自早期机器学习人群的算法方法——人工神经网络,在过去的几十年里出现并消失了。神经网络的灵感来自于我们对大脑生物学的理解——神经元之间的所有互连。但是,与生物大脑中任何神经元都可以在一定物理距离内连接到任何其他神经元不同,这些人工神经网络具有离散的层、连接和数据传播方向。

例如,您可以拍摄一张图像,将其切成一堆输入到神经网络第一层的图块。在第一层中单个神经元,然后将数据传递到第二层。第二层神经元执行其任务,依此类推,直到产生最后一层和最终输出。

每个神经元都会为其输入分配一个权重——它相对于正在执行的任务的正确或错误程度。最终的输出由这些权重的总和决定。所以想想我们的停车标志例子。停车标志图像的属性被神经元切碎并“检查”——它的八角形形状、消防车红色、独特的字母、交通标志的大小以及它的运动或缺乏。神经网络的任务是判断这是否是停车标志。它提出了一个“概率向量”,这实际上是一个基于权重的、经过深思熟虑的猜测。在我们的示例中,系统可能 86% 确信图像是停车标志,7% 确信图像是限速标志,5% 确信图像是卡在树上的风筝,等等 — 然后网络架构告诉神经网络无论它是否正确。

即使这个例子也有些言过其实了,因为直到最近神经网络还被人工智能研究界所回避。它们从人工智能诞生之初就已经存在,但在“智能”方面却几乎没有产生什么成果。问题是,即使是最基本的神经网络,计算量也非常大,这并不是一种实用的方法。尽管如此,由多伦多大学 Geoffrey Hinton 领导的一个小型异端研究小组仍然坚持不懈,最终并行化了超级计算机运行的算法并证明了这一概念,但直到部署 GPU 后,这一承诺才得以实现。

如果我们再次回到停车标志的例子,当网络得到调整或“训练”时,它很可能会得出很多错误的答案。它需要的是培训。它需要看到数十万甚至数百万张图像,直到神经元输入的权重调整得如此精确,以至于它几乎每次都能得到正确的答案——有雾或无雾、阳光或下雨。正是在这一点上,神经网络已经教会了自己停车标志是什么样子的;或者就 Facebook 而言是你母亲的脸;或者一只猫,这就是吴恩达 2012 年在谷歌所做的事情。

吴恩达的突破在于采用这些神经网络,本质上使它们变得巨大,增加层数和神经元,然后通过系统运行大量数据来训练它。在 Ng 的例子中,它是来自 1000 万个 YouTube 视频的图像。吴恩达将“深度”一词放在深度学习中,它描述了这些神经网络中的所有层。

如今,在某些情况下,通过深度学习训练的机器的图像识别能力比人类更好,范围从猫到识别血液中的癌症指标和 MRI 扫描中的肿瘤。谷歌的 AlphaGo 学会了这个游戏,并通过一遍又一遍地与自己对弈来训练它的围棋比赛——它调整了它的神经网络。

得益于深度学习,人工智能拥有光明的未来

深度学习使机器学习的许多实际应用成为可能,并扩展到人工智能的整个领域。深度学习以多种方式分解任务,使各种机器辅助看起来都是可能的,甚至是有可能的。无人驾驶汽车、更好的预防性医疗保健、甚至更好的电影推荐,今天或即将到来。人工智能是现在,也是未来。在深度学习的帮助下,人工智能甚至可能达到我们长期以来想象的科幻状态。你有一架 C-3PO,我就拿走。你可以保留你的终结者。