自动驾驶汽车

修饰过的自拍照

Netflix 推荐

像人一样写作的聊天机器人

像朋友一样交谈的虚拟助理

每日数十亿次 Google 搜索中的每一次搜索……

人工智能 (AI) 就在您身边,而且只会变得越来越普遍。但如果你开始研究它是如何发生的 作品,您会立即遇到一些有关其相关概念的问题:什么是深度学习与机器学习?人工智能、机器学习和深度学习如何相互关联?

这些问题有简单的答案,也有复杂的答案,然后是这一切背后的数学,它是如此复杂,以至于现在最好先搁置一旁。在任何理解层面上,这些答案都很重要——特别是对于品牌和营销人员而言。毕竟,人工智能越来越多地控制着与客户的互动,语音人工智能技术的兴起就说明了这一点。

在 ReadSpeaker,我们使用深度学习来创建先进的合成语音,为语音机器人、智能家居设备、人工智能助手和各种对话式人工智能平台等消费者接触点提供语音。我们将在本文末尾详细讨论人工智能在语音合成中的应用;这是深度学习实际应用的完美例证。但首先,如果您想了解机器学习、人工智能和深度学习,请从一些关键定义开始。

想知道深度学习如何帮助您的品牌在语音互联网中脱颖而出?与 ReadSpeaker 的神经文本转语音专家交谈。

人工智能、机器学习和深度学习是什么意思?

  • 维基百科的定义 人工智能 被广泛接受。该网站称,“人工智能是机器展示的智能。”维基百科将此与“人类和动物表现出的自然智力,其中涉及意识和情感”进行了对比。至于智力本身,这只是一种获取信息并适应性地使用信息的能力。
  • 机器学习 计算机科学家汤姆·米切尔(Tom Mitchell)说,“计算机算法是通过经验自动改进的计算机算法的研究”,他确实写了这本关于机器学习的书。
  • 深度学习 是(大部分)通过深度神经网络 (DNN) 进行的机器学习形式。还有其他方法可以执行深度学习,但 DNN 无疑是当今实际使用中最常见的方法,因此它们将是我们在本指南中的重点。

考虑到这些定义,我们可以问我们的主要问题:机器学习、深度学习和人工智能之间的关系是什么? 深度学习是机器学习的子集,机器学习是人工智能的子集。 然而,深度学习在人工智能领域已经占据主导地位,以至于当有人提到人工智能时,他们很可能也在谈论深度学习;你可以假设任何关于人工智能的讨论也是对深度学习的讨论(因此也是对机器学习的讨论)。

这就是简单的解释。现在更深入一点。

深度学习与机器学习:有什么区别?

请记住,深度学习是机器学习的一个子类别。 深度学习与机器学习的区别在于,机器学习包括 全部 能够通过经验自我改进的计算模型。另一方面,深度学习使用一类特定的计算模型: 深度神经网络 稍后我们将详细解释深度神经网络。

首先,我们需要介绍一些基础知识。为什么首先要费心去机器学习(深度学习或其他学习)呢?

在机器学习出现之前,计算机程序员编写复杂的规则列表来执行计算任务。例如,假设一位传统程序员想通过预测股票价格来致富。为了设计有效的价格预测程序,程序员必须仅根据人类观察和先验知识找出影响市场的所有因素。如果石油价格上涨,运输股票价格可能会下跌……这只是众多因素之一。我们可怜的程序员将不得不手工编写它们。

正如您所料,基于规则的编程效率不是很高。它也不是很有效。人类的观察只能带我们到目前为止,而先天的偏见可能会导致算法根本无法反映其设计执行的任务的现实情况。我们假设的程序员必须找到另一种致富的方法。

机器学习提供了一种替代编写自己的规则的方法。

机器学习允许程序员自动生成规则。这对于解决复杂问题非常强大,包括人类无法完全理解的挑战,例如根据面部表情识别情绪。程序员如何编写规则 他们不知道规则? 换句话说:

什么是机器学习?

我们已经用 Tom Mitchell 的定义给出了这个问题的最简单答案: 机器学习是“对通过经验自动改进的计算机算法的研究。” 在实践层面上,你可能对“学习 计算机算法”以及具体的 机器 这样做的 学习, 正确的?

简单来说,要实现机器学习,你需要 机器学习模型。这是一个可以给你真实结果的计算机程序。机器学习模型可以发现大型数据集中的模式或预测给定输入最有用的输出。在任何机器学习模型的核心,您都会找到机器学习算法。

计算机算法是一个有序的过程,是一系列逻辑步骤:

  1. 接收输入数据;
  2. 以某种方式处理输入数据;
  3. 产生原始输出。

A 机器学习算法那么,是一个有序的过程,旨在随着接触越来越多的输入数据而自我改进。因此,机器学习算法完成计算工作,而机器学习模型创建一个允许人们运行算法的用户界面。

有很多可用的机器学习模型。它们通常属于三个总体类别之一:

  1. 监督机器学习模型 通过在数据点和人们贴在其上的标签之间创建关联来发挥作用。例如,如果您正在训练自动驾驶汽车系统,您可能会首先标记大量图像:“树”、“红绿灯”、“行人”。当您将应用程序暴露给更多此类标记数据时,它会学会预测新情况下的情况(例如在实际街道上行驶)。
  2. 无监督机器学习模型 不需要所有那些人类创建的标签。他们自己对数据集进行分类。例如,无监督机器学习模型可能会发现数据集中的异常或异常值。这使得它对于预测性维护等人工智能任务非常有用,可以在可能的机械故障发生之前发现它们。
  3. 强化机器学习模型 工作有点像动物训练。对于任何给定的输入,模型都可以选择输出。它选择一个,系统将输出记录为“好”或“坏”。随着时间的推移,系统将学会做出更多“好的”决策。强化学习在机器人领域很流行,它训练物理机器在新环境中表现良好(大多数现实世界的情况都是非常新奇的)。

总而言之,机器学习通过以下方式提高计算性能 从数据中导出规则。从事情感识别应用程序的程序员不必亲自理解微笑的无限层次。相反,他们可以将机器学习算法暴露给数以百万计的表情,每个表情都带有情感标签,并让系统找出哪个是哪个,从而在遇到富有表情的面孔的新图像时“识别”情感。

但是,虽然机器学习总是很强大,但并非所有机器学习都是“深度的”。

什么是深度学习?

为了理解深度学习,您需要了解深度神经网络。还有其他机器学习模型可以实现我们所说的“深度学习”,但是神经网络已经使所有其他模型黯然失色,以至于您可以放心地假设任何提及深度学习的内容都是基于神经网络模型 - 如此之多以至于深度学习的有效(如果不科学准确)定义可能是“通过深度神经网络架构进行机器学习”。

神经网络 计算模型的灵感来自于人脑内神经元的连接,但这只是一个粗略的类比。当你深入研究细节时,你会发现人类大脑和神经网络是截然不同的。尽管如此,这个比喻仍然有助于理解神经网络的大致结构:神经网络模仿人脑处理信息的方式。

我们的大脑通过在神经元之间建立可重复的电化学连接模式来学习。神经网络做类似的事情。神经网络在 20 世纪 90 年代广泛使用,由三层网络处理器或人工神经元组成:输入层、隐藏层和输出层。每个神经元接收输入数据,对该数据执行操作,并将操作结果作为输入导出到下一个处理层。

这些神经网络也称为多层感知器(MLP),它们有效地解决了当时时代的一些最棘手的问题。但随着更大数据集的可用性不断增加,以及长期研究进入实践,神经网络随着大数据时代的到来而发展。

以下是浅层神经网络如何成为深层神经网络的过程。

计算机科学家实现这一目标的方法是在他们的 MLP 中添加额外的隐藏处理层,创建一个新的计算模型:深度神经网络(DNN)。从技术上讲,任何具有多个隐藏层的神经网络都被认为是“深度”的,但计算机科学家今天使用的模型具有数十个隐藏层——在许多情况下多达 30 或 40 个。

但为什么?为什么隐藏层使该模型在执行复杂计算时如此有效?

深度神经网络可以比标准神经网络更有效地表达非常复杂的数学函数。你 使用仅包含单个隐藏层的传统 MLP 来对任何复杂函数进行建模(这已由通用逼近定理证明,如果您不是计算机科学家,最好不要考虑太多)。但浅层神经网络几乎总是比充满多个隐藏处理层的深层神经网络效率低。原因如下。

局部特征的抽象赋予了 DNN 力量。

深度神经网络过程 特征的抽象表示,比 当地代表。 当数据通过多个层时,DNN 会提取多个抽象表示——层数越多,系统可以提取的抽象表示就越多。

例如,假设我们的目标是训练神经网络来准确分类狗和猫的图像。如果我们将数百万张图像输入神经网络,这些图像的局部特征可能包括:

  • 眼睛的形状
  • 耳朵的形状
  • 毛皮颜色
  • 毛皮图案

看到麻烦了吗?这些局部特征本身就是高度可变的。没有单一颜色的皮毛可以区分猫和狗。您无法在单个本地特征和名称“猫”之间建立一对一的联系。相反,我们需要研究抽象特征:不仅仅是某些眼睛形状,而是眼睛在脸上的整体位置和外观。这有助于系统根据局部表示之间的抽象关系将图像分类为“猫”或“狗”。

多个隐藏层允许 DNN 学习更多这些抽象特征,从而对猫和狗进行更明智的分类。程序员甚至可能不知道 DNN 正在提取哪些特征;我们只知道,当我们通过网络传递大量数据(猫和狗的标记图像)时,它会映射一条处理路径,以对新图像进行更准确的分类。

综上所述,深度神经网络通过将数据传递到多个隐藏处理层来进行更复杂的处理,从而提供深度学习。这是一项强大的技术——理论上如此强大,以至于我们不得不问另一个问题:为什么我们在这种计算架构被理论化几十年后才开始使用它?

深度学习是如何从理论走向实际应用的?

深度学习从理论到日常使用花了很长时间,原因有以下三个。

  1. 硬件。 当深度神经网络首次出现时,我们没有足够高效的硬件来训练 DNN。随着现代图形处理单元 (GPU) 的发展,这种情况发生了变化——视频游戏控制台加速了 GPU 的发展,而不是学术界的需求。 200 美元视频游戏机上的 GPU 可以成为训练复杂 DNN 模型的理想硬件,甚至比高级中央处理单元或 CPU 还要好得多。
  2. 大数据。 在神经网络的早期,大型数据集并不可用。要以稳定的方式训练复杂的 DNN 模型,您需要大量的数据。在人工智能的早期,这些数据是不可用的。现在,有一些易于访问的平台可以让研究人员每天收集数十亿个数据点。
  3. 深度学习算法。 最重要的是,科学家们还没有设计出我们用来保持高度复杂的 DNN 模型在训练过程中稳定的算法。早期的算法导致模型不稳定,在实际使用中不够可靠。感谢有进取心的科学家们的努力,今天的深度学习算法可以训练稳定的 DNN 模型以获得一致的结果。以下三位科学家开发了使当今深度学习成为可能的关键算法:

这三位科学家共同获得了 2018 年 ACM A.M.图灵奖并被称为“深度学习革命之父”。事实上,这种情况最近发生在 2018 年,这一事实有助于说明 新的 深度学习适用于实际的、面向客户的应用,例如令人惊叹的自然文本到语音 (TTS),这是我们在 ReadSpeaker 关注的焦点。

神经 TTS 是机器学习、深度学习和人工智能如何实现真正业务目标的明显示例。

ReadSpeaker 使用 DNN 构建逼真的 TTS 语音,用于对话式 AI 系统和其他合成语音应用程序(包括全原创的自定义 TTS 语音,以在语音通道中支持您的品牌标识)。事实上,机器学习在 TTS 领域有着悠久的历史。然而,在深度学习出现之前,结果并不是特别逼真。他们甚至被描述为“机器人”。可以说,早期的 TTS 并没有提供出色的用户体验。为了与品牌建立积极的联系,公司需要让用户放心的 TTS 语音;更栩栩如生、更温馨的东西。深度学习使这成为可能。

深度神经网络带来了更高质量的声码器,这是逼真 TTS 的基石。

深度神经网络提供了预测听起来更自然的语音的能力。用于 TTS 的深度神经网络的一个明显例子是 DeepMind 的 WaveNet,它于 2016 年随一篇科学论文一起推出。WaveNet 代表了 TTS 质量方面的巨大进步;当使用人类说话者的录音进行训练时,WaveNet 会产生极其类似人类的语音。 (请注意,使用神经网络创建的文本到语音称为 神经 TTS。

那么 WaveNet 到底是什么?这是一个基于神经网络的 声码器。 (它也不再是唯一的一个。其他神经声码器包括 Parallel WaveGAN、FFTNet 和 WaveRNN。)为了了解深度学习如何对神经 TTS 做出贡献,我们需要解释什么是声码器、它的作用以及人工智能如何使其更加有效。

什么是声码器,它们如何使用深度学习?

声码器是一种将抽象参数转换为语音波形的计算机模型。换句话说,它将数字转化为可听的语音。挑战如下:语音波形包含大量数据。如果您以 48 kHz 采样率录制语音,则意味着每秒捕获 48,000 个样本(微小的数据片段)。数据和文件大小快速增加。

这使得传输原始波形的成本太高。因此,在实践中,我们将波形压缩成更小的参数块。这总是会导致一定程度的数据丢失。

声码器预测损失以重建可播放波形。通过对人类语音录音进行训练的 DNN 模型,这些系统可以更好地预测回放所需的丢失数据。因此,它们可以实现听起来更自然的 TTS 语音。但另一种基于人工智能的 TTS 模型即将出现: 端到端语音合成

深度学习和人工智能在 TTS 应用中的下一步是什么?

深度神经网络不仅可以发挥当代最好的声码器的作用,而且还可以发挥作用。他们还引入了一种全新的语音合成方法。 Google、ReadSpeaker 和其他科技公司的研究人员正在研究 端到端 TTS 模型。这意味着什么?

当今的 TTS 系统通过多个步骤生成语音;他们从语言预处理开始,创建声学模型,然后才将预测数据传输到声码器。每个步骤都可能需要计算语言学家进行调整——换句话说,大多数神经 TTS 仍然需要人工干预。这些语言管道中嵌入的人类知识为偏见和错误打开了大门。

端到端 TTS 模型旨在通过直接从字符预测准确的发音来最大限度地减少人为干预。自 2017 年推出 Google Tacotron 以来,该领域出现了端到端语音合成模型的激增,例如 Prosody 和 NaturalSpeech。端到端 TTS 很可能是合成语音发展的下一步。

其他研究领域(其中许多是我们在 ReadSpeaker VoiceLab 中研究的)包括:

  • 创建更高效​​的神经 TTS 模型来限制成本
  • 开发更紧凑、更强大的 TTS 模型,将 DNN 支持的合成语音引入更小的设备和低资源计算环境
  • 可控的 TTS,适合情绪化的说话风格
  • 多语言 TTS,因此一种语音模型可以说多种语言
  • 在单个 TTS 模型中可调整说话风格
  • 表达连语言学家都还没有弄清楚的隐藏的、潜在的言语方面

简而言之,机器学习、人工智能、深度学习和神经 TTS 都是正在不断发展的技术,而且它们的即兴发挥速度比以往任何时候都快。点击这里,详细了解神经 TTS 不断增长的可能性。

最后,我们对机器学习、深度学习和人工智能提出警告。

无论你在商业软件领域中寻找什么,你都会发现更多关于深度学习前景的说法。当然,人工智能是一种非凡的工具。这可能是我们有生之年计算机科学最非凡的进步。但没有什么是完美的。

深度学习和人工智能具有巨大的潜力,但该领域也充满挑战。 人工智能在极其广泛的任务中仍然无法像人类一样表现出色,而且在某些情况下,它可能永远不会。 科技公司的决策者必须仔细考虑深度学习的局限性 为了避免夸大技术或做出不切实际的主张,它不断增加成就清单。

但是,当您了解深度学习与机器学习的基础知识以及它们如何在当今人工智能密集的环境中发挥作用时,就更容易将这种先进技术的炒作与真正的承诺区分开来。希望本指南能有所帮助。

要详细了解神经 TTS 如何帮助您的品牌在语音互联网中脱颖而出,请阅读接下来的内容。