该术语表定义了一般机器学习术语以及 TensorFlow 特定的术语。

A

A/B 测试

比较两种(或多种)技术的统计方法—— A。通常, A 是现有技术,并且 是一项新技术。 A/B 测试不仅可以确定哪种技术表现更好,还可以确定差异是否具有统计显着性。

A/B 测试通常比较单个 公制 两种技术;例如,如何建模 准确性 比较两种技术?然而,A/B 测试还可以比较任意有限数量的指标。

加速器芯片

一类专用硬件组件,旨在执行深度学习算法所需的关键计算。

加速器芯片(或只是 加速器与通用CPU相比,可以显着提高训练和推理任务的速度和效率。它们非常适合训练神经网络和类似的计算密集型任务。

加速器芯片的示例包括:

  • 谷歌的张量处理单元(TPU)具有用于深度学习的专用硬件。
  • NVIDIA 的 GPU 虽然最初是为图形处理而设计的,但旨在支持并行处理,从而可以显着提高处理速度。

准确性

正确分类数 预测 除以预测总数。那是:

例如,做出 40 次正确预测和 10 次错误预测的模型的准确度为:

二元分类 为不同类别提供具体名称 正确的预测不正确的预测。因此,二元分类的准确率公式如下:

在哪里:

比较和对比准确度 精确记起

准确率 = (TP + TN) / (TP + TN + FP + FN) 准确率 = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

行动

强化学习,其机制 代理人 之间的过渡 状态环境。代理通过使用选择动作 政策

激活函数

一个功能,使 神经网络 学习 非线性 特征和标签之间的(复杂)关系。

流行的激活函数包括:

激活函数的图从来都不是单条直线。例如,ReLU 激活函数的图由两条直线组成:

A cartesian plot of two lines. The first line has a constant
          y value of 0, running along the x-axis from -infinity,0 to 0,-0.
          The second line starts at 0,0. This line has a slope of +1, so
          it runs from 0,0 to +infinity,+infinity.

sigmoid 激活函数图如下所示:

A two-dimensional curved plot with x values spanning the domain
          -infinity to +positive, while y values span the range almost 0 to
          almost 1. When x is 0, y is 0.5. The slope of the curve is always
          positive, with the highest slope at 0,0.5 and gradually decreasing
          slopes as the absolute value of x increases.

加权和 = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

主动学习

A 训练 该算法的方法 选择 它从中学习到的一些数据。主动学习在以下情况下尤其有价值: 标记示例 稀缺或获取成本昂贵。主动学习算法不是盲目地寻找各种标记示例,而是有选择地寻找学习所需的特定范围的示例。

阿达格勒

一种复杂的梯度下降算法,可以重新调整每个梯度的梯度 范围,有效地给每个参数一个独立的 学习率。有关完整的解释,请参阅本文。

代理人

强化学习,使用的实体 政策 最大化预期 返回 从之间的转换中获得 状态环境

凝聚聚类

异常检测

识别过程 异常值。例如,如果某个特定的平均值 特征 为 100,标准差为 10,则异常检测应将值 200 标记为可疑。

增强现实

缩写为 增强现实

PR曲线下面积

ROC曲线下面积

通用人工智能

一种非人类机制,表明 范围广泛 解决问题的能力、创造力和适应能力。例如,一个展示通用人工智能的程序可以翻译文本、创作交响乐、 擅长尚未发明的游戏。

人工智能

非人类程序或 模型 可以解决复杂的任务。例如,翻译文本的程序或模型,或者从放射图像识别疾病的程序或模型都表现出人工智能。

正式地, 机器学习 是人工智能的一个子领域。然而,近年来,一些组织开始使用这些术语 人工智能机器学习 可以互换。

注意力

一种机制用于 神经网络 表示特定单词或单词的一部分的重要性。注意力压缩了模型预测下一个标记/单词所需的信息量。典型的注意力机制可能包括 加权和 在一组输入上,其中 重量 每个输入都由神经网络的另一部分计算。

另请参阅 自我关注多头自注意力,它们是 变形金刚

属性

同义词 特征

在机器学习公平性中,属性通常指与个人相关的特征。

属性抽样

训练一个策略 决策森林 其中每个 决策树 仅考虑可能的随机子集 特征 当学习的时候 状况。一般来说,每个特征都会采样不同的特征子集 节点。相反,当训练没有属性采样的决策树时,每个节点都会考虑所有可能的特征。

AUC(ROC 曲线下面积)

0.0 到 1.0 之间的数字,代表 二元分类 模型的分离能力 正向类负类。 AUC 越接近 1.0,模型相互区分类别的能力就越好。

例如,下图显示了一个分类器模型,该模型完美地将正类(绿色椭圆形)与负类(紫色矩形)分开。这个不切实际的完美模型的 AUC 为 1.0:

A number line with 8 positive examples on one side and
          9 negative examples on the other side.

相反,下图显示了生成随机结果的分类器模型的结果。该模型的 AUC 为 0.5:

A number line with 6 positive examples and 6 negative examples.
          The sequence of examples is positive, negative,
          positive, negative, positive, negative, positive, negative, positive
          negative, positive, negative.

是的,前面的模型的 AUC 是 0.5,而不是 0.0。

大多数模型都介于两个极端之间。例如,以下模型在一定程度上区分了正数和负数,因此 AUC 介于 0.5 和 1.0 之间:

A number line with 6 positive examples and 6 negative examples.
          The sequence of examples is negative, negative, negative, negative,
          positive, negative, positive, positive, negative, positive, positive,
          positive.

AUC 忽略您设置的任何值 分类阈值。相反,AUC 认为 全部 可能的分类阈值。

单击该图标可了解 AUC 和 ROC 曲线之间的关系。

AUC 代表 区域 在一个 ROC曲线。例如,完美区分正负样本的模型的 ROC 曲线如下所示:

Cartesian plot. x-axis is false positive rate; y-axis
          is true positive rate. Graph starts at 0,0 and goes straight up
          to 0,1 and then straight to the right ending at 1,1.

AUC 是上图中灰色区域的面积。在这种不寻常的情况下,面积只是灰色区域的长度 (1.0) 乘以灰色区域的宽度 (1.0)。因此,1.0 和 1.0 的乘积产生的 AUC 恰好为 1.0,这是可能的最高 AUC 分数。

相反,根本无法分离类别的分类器的 ROC 曲线如下。该灰色区域的面积为0.5。

Cartesian plot. x-axis is false positive rate; y-axis is true
          positive rate. Graph starts at 0,0 and goes diagonally to 1,1.

更典型的 ROC 曲线大致如下所示:

Cartesian plot. x-axis is false positive rate; y-axis is true
          positive rate. Graph starts at 0,0 and takes an irregular arc
          to 1,0.

手动计算该曲线下的面积将是一项艰巨的任务,这就是程序通常计算大多数 AUC 值的原因。

单击该图标可查看 AUC 的更正式定义。

AUC 是分类器更加确信随机选择的正例实际上是正例的概率,而不是随机选择的负例是正例的概率。

增强现实

一种将计算机生成的图像叠加在用户的现实世界视图上,从而提供合成视图的技术。

自动化偏差

当人类决策者更喜欢自动化决策系统提出的建议而不是没有自动化的信息时,即使自动化决策系统犯了错误。

自动机器学习

任何自动化的构建过程 机器学习 楷模。 AutoML 可以自动执行以下任务:

  • 搜索最合适的型号。
  • 准备数据(包括执行 特征工程)。
  • 部署生成的模型。

AutoML 对于数据科学家来说非常有用,因为它可以节省他们开发机器学习管道的时间和精力并提高预测准确性。它对于非专家来说也很有用,因为它可以让他们更容易地完成复杂的机器学习任务。

辅助损失

A 损失函数— 与 神经网络 楷模 主要损失函数——有助于加速 训练 在权重随机初始化的早期迭代期间。

辅助损失函数推动有效 渐变 到较早的 层数。这有利于 收敛 期间 训练 通过打击 梯度消失问题

平均精度

用于总结排名结果序列的性能的指标。平均精度是通过取平均值来计算的 精确 每个相关结果的值(排名列表中的每个结果,其中召回率相对于前一个结果有所增加)。

轴对齐条件

在一个 决策树, A 状况 只涉及一个 特征。例如,如果面积是一个要素,则以下是轴对齐条件:

面积 > 200

反向传播

实现的算法 梯度下降神经网络

训练神经网络涉及很多方面 迭代 以下两遍循环的:

神经网络通常包含跨多个隐藏层的许多神经元。每个神经元都以不同的方式导致整体损失。反向传播确定是否增加或减少应用于特定神经元的权重。

学习率 是一个乘数,控制每次向后传递增加或减少每个权重的程度。较大的学习率会比较小的学习率更多地增加或减少每个权重。

用微积分术语来说,反向传播实现了微积分 链式法则。也就是说,反向传播计算 偏导数 每个参数的误差。欲了解更多详情,请参阅此 机器学习速成课程教程

多年前,机器学习从业者必须编写代码来实现反向传播。 TensorFlow 等现代 ML API 现在可以为您实现反向传播。唷!

套袋

一种方法 火车 一个 合奏 其中每个成分 模型 对训练示例的随机子集进行训练 替换采样。例如,一个 随机森林 是一个集合 决策树 通过装袋进行训练。

期限 套袋 是缩写 尾带 聚合雷加特

词袋

短语或段落中单词的表示,与顺序无关。例如,词袋相同地表示以下三个短语:

  • 狗跳了
  • 狗跳
  • 狗跳

每个单词都映射到一个索引 稀疏向量,其中向量具有词汇表中每个单词的索引。例如,短语 狗跳了 被映射到与单词对应的三个索引处具有非零值的特征向量 , , 和 跳跃。非零值可以是以下任意值:

  • 1 表示单词的存在。
  • 单词在词袋中出现的次数计数。例如,如果该短语是 栗色狗是一种有栗色皮毛的狗,那么两者 栗色 将表示为 2,而其他单词将表示为 1。
  • 其他一些值,例如单词在词袋中出现次数的对数。

基线

A 模型 用作比较另一个模型(通常是更复杂的模型)执行情况的参考点。例如,一个 逻辑回归模型 可以作为一个很好的基线 深度模型

对于特定问题,基线可帮助模型开发人员量化新模型必须达到的最低预期性能才能发挥作用。

的集合 例子 在一次训练中使用 迭代。这 批量大小 确定批次中示例的数量。

时代 解释批次与纪元的关系。

批量归一化

正火化 的输入或输出 激活函数 在一个 隐藏层。批量归一化可以提供以下好处:

批量大小

的数量 例子 在一个 。例如,如果批量大小为 100,则模型每个处理 100 个示例 迭代

以下是流行的批量大小策略:

贝叶斯神经网络

概率性的 神经网络 这说明了不确定性 重量 和输出。标准神经网络回归模型通常 预测 标量值;例如,标准模型预测房价为 853,000。相比之下,贝叶斯神经网络预测值的分布;例如,贝叶斯模型预测房价为 853,000,标准差为 67,200。

贝叶斯神经网络依靠贝叶斯定理来计算权重和预测的不确定性。当量化不确定性很重要时(例如与药物相关的模型),贝叶斯神经网络会很有用。贝叶斯神经网络还可以帮助预防 过拟合

贝叶斯优化

A 概率回归模型 计算成本高昂的优化技术 目标函数 相反,通过贝叶斯学习技术来优化量化不确定性的代理。由于贝叶斯优化本身非常昂贵,因此它通常用于优化具有少量参数的评估昂贵的任务,例如选择 超参数

贝尔曼方程

在强化学习中,最优满足以下恒等式 Q函数

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

强化学习 算法应用这个身份来创建 Q-学习 通过以下更新规则:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \右] \]

除了强化学习之外,贝尔曼方程还可以应用于动态规划。请参阅贝尔曼方程的维基百科条目。

BERT(来自 Transformers 的双向编码器表示)

文本的模型架构 表示。经过训练的 BERT 模型可以作为文本分类或其他 ML 任务的更大模型的一部分。

BERT具有以下特点:

BERT 的变体包括:

偏见(道德/公平)

1. 对某些事物、人或群体的成见、偏见或偏袒。这些偏差会影响数据的收集和解释、系统的设计以及用户与系统的交互方式。这种偏见的形式包括:

2. 抽样或报告程序引入的系统误差。这种偏见的形式包括:

不要与 偏差项 在机器学习模型或 预测偏差

偏差(数学)或偏差项

距原点的截距或偏移。偏差是机器学习模型中的一个参数,用以下任一参数表示:

  • w0

例如,偏差是 在下面的公式中:

在简单的二维直线中,偏差仅意味着“y 轴截距”。例如,下图中线条的偏置为 2。

The plot of a line with a slope of 0.5 and a bias (y-intercept) of 2.

存在偏差是因为并非所有模型都从原点 (0,0) 开始。例如,假设进入游乐园需支付 2 欧元,顾客每逗留一小时需额外支付 0.5 欧元。因此,映射总成本的模型的偏差为 2,因为最低成本为 2 欧元。

偏见不应与 道德和公平方面的偏见 或者 预测偏差

二元组

一个 N-gram 其中N=2。

双向

用于描述评估文本的系统的术语 先于如下 文本的目标部分。相比之下,一个 单向 系统仅评估以下文本 先于 文本的目标部分。

例如,考虑一个 掩码语言模型 必须确定以下问题中代表下划线的一个或多个单词的概率:

你的_____是什么?

单向语言模型必须仅将其概率基于单词“What”、“is”和“the”提供的上下文。相比之下,双向语言模型还可以从“with”和“you”获取上下文,这可能有助于模型生成更好的预测。

双向语言模型

A 语言模型 确定给定标记出现在文本摘录中给定位置的概率 下列的 文本。

二元分类

一种 分类 预测两个互斥类之一的任务:

例如,以下两个机器学习模型各自执行二元分类:

  • 确定电子邮件是否有效的模型 垃圾邮件 (正类)或 不是垃圾邮件 (负类)。
  • 一种评估医学症状以确定一个人是否患有某种特定疾病(正类)或没有该疾病(负类)的模型。

也可以看看 逻辑回归分类阈值

二元条件

在一个 决策树, A 状况 通常只有两种可能的结果 是的 或者 。例如,以下是二元条件:

温度 >= 100

分档

同义词 桶装

BLEU(双语评估学生)

0.0 到 1.0 之间的分数(含 0.0 和 1.0),表示两种人类语言之间(例如英语和俄语之间)的翻译质量。 BLEU 分数为 1.0 表示翻译完美; BLEU 分数为 0.0 表示翻译很糟糕。

提升

一种机器学习技术,通过以下方式迭代地将一组简单且不太准确的分类器(称为“弱”分类器)组合成高精度的分类器(“强”分类器) 增加权重 模型当前错误分类的示例。

边界框

在图像中,(X, y) 感兴趣区域周围矩形的坐标,例如下图中的狗。

Photograph of a dog sitting on a sofa. A green bounding box
          with top-left coordinates of (275, 1271) and bottom-right
          coordinates of (2954, 2761) circumscribes the dog's body

广播

将矩阵数学运算中操作数的形状扩展为 方面 与该操作兼容。例如,线性代数要求矩阵加法运算中的两个操作数必须具有相同的维度。因此,您无法将形状 (m, n) 的矩阵添加到长度为 n 的向量。广播通过在每列中复制相同的值,将长度为 n 的向量虚拟扩展为形状为 (m, n) 的矩阵,从而实现此操作。

例如,给定以下定义,线性代数禁止 A+B,因为 A 和 B 具有不同的维度:

A = [[7, 10, 4], [13, 5, 9]] B = [2]

然而,广播通过将 B 虚拟扩展为以下方式来实现 A+B 操作:

 [[2,2,2],[2,2,2]]

因此,A+B 现在是一个有效的操作:

[[7, 10, 4], + [[2, 2, 2], = [[ 9, 12, 6], [13, 5, 9]] [2, 2, 2]] [15, 7, 11]]

有关更多详细信息,请参阅以下 NumPy 中广播的描述。

桶装

转换单个 特征 分成多个二进制特征,称为 水桶 或者 垃圾箱,通常基于值范围。斩波特征通常是 连续特征

例如,您可以将温度范围分成离散的存储桶,而不是将温度表示为单个连续浮点特征,例如:

  • <= 10 摄氏度将是“冷”桶。
  • 11 - 24 摄氏度是“温带”范围。
  • >= 25 摄氏度将是“温暖”的桶。
第1322章

单击该图标可获取更多注释。

如果将温度表示为连续特征,则模型会将温度视为单个特征。如果将温度表示为三个存储桶,则模型会将每个存储桶视为单独的特征。也就是说,模型可以学习每个桶与 标签。例如,一个 线性回归 模型可以单独学习 重量 对于每个桶。

增加存储桶的数量会增加模型必须学习的关系数量,从而使模型变得更加复杂。例如,寒冷、温带和温暖的桶本质上是模型训练的三个独立的特征。如果您决定再添加两个存储桶(例如,冷冻和热),您的模型现在必须在五个单独的特征上进行训练。

您如何知道要创建多少个存储桶,或者每个存储桶的范围应该是什么?答案通常需要大量的实验。

C

校准层

预测后调整,通常是为了考虑 预测偏差。调整后的预测和概率应与观察到的标签集的分布相匹配。

候选人一代

由a选择的初始建议集 推荐系统。例如,考虑一家提供 100,000 种图书的书店。候选生成阶段为特定用户创建了一个小得多的合适书籍列表,比如 500 本书。但即使是 500 本书也太多了,无法推荐给用户。推荐系统的后续阶段(例如 得分重新排名)将这 500 条建议减少为更小、更有用的一组建议。

候选抽样

训练时优化,计算所有的概率 积极的 标签,例如使用 软最大,但仅适用于负面标签的随机样本。例如,给出一个标记为 比格犬,候选采样计算预测概率和相应的损失项:

  • 比格犬
  • 剩余负类的随机子集(例如, , 棒糖, 栅栏)。

这个想法是 负类 可以从不太频繁的负强化中学习,只要 正向类 总是得到适当的积极强化,这确实是根据经验观察到的。

候选采样比计算预测的训练算法更具计算效率 全部 负类,特别是当负类数量非常大时。

分类数据

交通灯状态
红黄绿
交通灯状态红色绿色黄色

分类特征有时被称为 离散特征

对比 数值数据

因果语言模型

双向语言模型 对比语言建模中的不同方向方法。

质心

簇的中心由 k-均值 或者 k中值 算法。例如,如果 k 为 3,则 k 均值或 k 中值算法会找到 3 个质心。

基于质心的聚类

一类 聚类 将数据组织成非分层集群的算法。 k-均值 是最广泛使用的基于质心的聚类算法。

对比 层次聚类 算法。

检查站

捕获模型状态的数据 参数 在特定的训练迭代中。检查点启用导出模型 重量,或表演 训练 跨多个会话。检查点还使训练能够继续过去的错误(例如,作业抢占)。

什么时候 微调,起点为 训练 新的 模型 将是一个特定的检查点 预训练模型

班级

一个类别 标签 可以属于.例如:

A 分类模型 预测一类。相比之下,一个 回归模型 预测一个数字而不是一个类别。

分类模型

A 模型 其预测是 班级。例如,以下都是分类模型:

  • 预测输入句子的语言(法语?西班牙语?意大利语?)的模型。
  • 预测树种的模型(枫树?橡树?猴面包树?)。
  • 预测特定医疗状况的阳性或阴性类别的模型。

相比之下, 回归模型 预测数字而不是类别。

两种常见的分类模型是:

分类阈值

在一个 二元分类,一个介于 0 和 1 之间的数字,用于转换 a 的原始输出 逻辑回归 模型预测为 正类 或者 负类。请注意,分类阈值是人类选择的值,而不是模型训练选择的值。

逻辑回归模型输出 0 到 1 之间的原始值。然后:

  • 如果这个原始值是 比...更棒 分类阈值,然后预测正类。
  • 如果这个原始值是 少于 分类阈值,然后预测负类。

例如,假设分类阈值是0.8。如果原始值为 0.9,则模型预测为正类。如果原始值为 0.7,则模型预测负类。

分类阈值的选择强烈影响分类的数量 误报假阴性

单击该图标可获取更多注释。

随着模型或数据集的发展,工程师有时也会改变分类阈值。当分类阈值发生变化时,正类预测可能会突然变成负类,反之亦然。

例如,考虑二元分类疾病预测模型。假设系统运行第一年时:

  • 特定患者的原始值为 0.95。
  • 分类阈值为0.94。

因此,系统诊断为阳性类别。 (病人喘息着,“哦不!我病了!”)

一年后,也许现在的值如下所示:

  • 同一患者的原始值仍为 0.95。
  • 分类阈值更改为 0.97。

因此,系统现在将该患者重新分类为阴性类别。 (“快乐的一天!我没有生病。”)同一个病人。诊断不同。

类不平衡数据集

分类问题的数据集,其中的总数 标签 每个班级的差异显着。例如,考虑一个二元分类数据集,其两个标签划分如下:

  • 1,000,000 个负面标签
  • 10 个正面标签

负标签与正标签的比率为 100,000 比 1,因此这是一个类别不平衡的数据集。

相反,以下数据集是 不是 类别不平衡,因为负标签与正标签的比率相对接近 1:

  • 517 负面标签
  • 483 正面标签

多类数据集也可能是类不平衡的。例如,以下多类分类数据集也是类不平衡的,因为一个标签的示例数量远多于其他两个标签:

  • 1,000,000 个“绿色”类别标签
  • 200 个类别为“紫色”的标签
  • 350 个类别为“orange”的标签

也可以看看 , 多数阶层, 和 少数阶层

剪裁

一种处理技术 异常值 通过执行以下一项或两项操作:

  • 减少 特征 大于最大阈值直至该最大阈值的值。
  • 将小于最小阈值的特征值增加到该最小阈值。

例如,假设特定特征的 <0.5% 的值落在 40-60 范围之外。在这种情况下,您可以执行以下操作:

  • 将所有超过 60(最大阈值)的值修剪为正好 60。
  • 将 40(最小阈值)以下的所有值修剪为正好 40。

异常值可能会损坏模型,有时会导致 重量 训练期间溢出。一些异常值也会极大地破坏指标,例如 准确性。剪裁是限制损坏的常用技术。

渐变裁剪 军队 坡度 训练期间的值在指定范围内。

云TPU

一款专门的硬件加速器,旨在加速 Google Cloud Platform 上的机器学习工作负载。

聚类

分组相关 例子,特别是在 无监督学习。一旦所有的例子都被分组,人们就可以选择为每个集群提供含义。

存在许多聚类算法。例如, k-均值 算法根据实例与某个实例的接近度对实例进行聚类 质心,如下图所示:

A two-dimensional graph in which the x-axis is labeled 'tree width'
          and the y-axis is labeled 'tree height'.  The graph contains two
          centroids and several dozen data points. The data points are
          categorized based on their proximity. That is, the data points
          closest to one centroid are categorized as 'cluster 1', while those
          closest to the other centroid are categorized as 'cluster 2'.

然后,人类研究人员可以检查这些簇,例如将簇 1 标记为“矮树”,将簇 2 标记为“全尺寸树”。

作为另一个示例,考虑基于示例到中心点的距离的聚类算法,如下所示:

Dozens of data points are arranged in concentric circles, almost
          like holes around the center of a dart board. The innermost ring
          of data points is categorized as 'cluster 1', the middle ring
          is categorized as 'cluster 2', and the outermost ring as
          'cluster 3.'

共同适应

什么时候 神经元 通过几乎完全依赖特定其他神经元的输出而不是依赖整个网络的行为来预测训练数据中的模式。当验证数据中不存在导致共同适应的模式时,共同适应就会导致过度拟合。 Dropout正则化 减少了共同适应,因为退出确保神经元不能仅仅依赖于特定的其他神经元。

协同过滤

制作 预测 基于许多其他用户的兴趣来了解一个用户的兴趣。协同过滤常用于 推荐系统

状况

在一个 决策树, 任何 节点 计算表达式的值。例如,决策树的以下部分包含两个条件:

A decision tree consisting of two conditions: (x > 0) and
          (y > 0).

条件也称为拆分或测试。

对比条件 叶子

也可以看看:

配置

分配用于训练模型的初始属性值的过程,包括:

  • 模型的构成 层数
  • 数据的位置

在机器学习项目中,可以通过特殊的配置文件或配置库来完成配置,如下所示:

确认偏差

以证实一个人先前存在的信念或假设的方式搜索、解释、支持和回忆信息的倾向。机器学习开发人员可能会无意中收集或标记数据,从而影响支持其现有信念的结果。确认偏差是一种形式 隐性偏见

实验者的偏见 是确认偏差的一种形式,其中实验者继续训练模型,直到先前存在的假设得到证实。

混淆矩阵

一个 NxN 表,总结了预测正确和错误的数量 分类模型 制成。例如,考虑以下混淆矩阵 二元分类 模型:

肿瘤(预测) 非肿瘤(预测)
肿瘤(基本事实) 18(TP) 1(前线)
非肿瘤(基本事实) 6(FP) 452(田纳西州)

前面的混淆矩阵显示以下内容:

  • 在 19 个预测中, 基本事实 是肿瘤,模型正确分类为 18,错误分类为 1。
  • 在 458 个真实值为非肿瘤的预测中,模型正确分类了 452 个,错误分类了 6 个。

混淆矩阵为 多类分类 问题可以帮助您识别错误模式。例如,请考虑以下 3 类多类分类模型的混淆矩阵,该模型对三种不同的虹膜类型(Virginica、Versicolor 和 Setosa)进行分类。当基本事实是 Virginica 时,混淆矩阵显示该模型错误预测 Versicolor 的可能性远高于 Setosa:

  塞托萨(预测) 杂色(预测) 维吉尼卡(预计)
Setosa(地面实况) 88 12 0
Versicolor(地面实况) 6 141 7
弗吉尼亚(基本事实) 2 27 109

再举一个例子,混淆矩阵可能表明,经过训练来识别手写数字的模型往往会错误地预测 9 而不是 4,或者错误地预测 1 而不是 7。

混淆矩阵包含足够的信息来计算各种性能指标,包括 精确记起

连续特征

浮点数 特征 具有无限范围的可能值,例如温度或重量。

简单采样

使用未科学收集的数据集来进行快速实验。随后,必须切换到科学收集的数据集。

收敛

达到的状态时 损失 每个值变化很小或根本没有变化 迭代。例如,以下 损失曲线 建议在 700 次迭代左右收敛:

Cartesian plot. X-axis is loss. Y-axis is the number of training
          iterations. Loss is very high during first few iterations, but
          drops sharply. After about 100 iterations, loss is still
          descending but far more gradually. After about 700 iterations,
          loss stays flat.

一个模型 收敛 当额外的训练不会改善模型时。

深度学习,损失值有时在多次迭代中保持恒定或接近恒定,然后最终下降。在长时间的恒定损失值期间,您可能会暂时产生收敛的错误感觉。

凸函数

函数图形上方的区域是 凸集。原型凸函数的形状类似于字母 U。例如,以下都是凸函数:

U-shaped curves, each with a single minimum point.

相反,以下函数不是凸函数。请注意图形上方的区域不是凸集:

A W-shaped curve with two different local minimum points.

A 严格凸函数 恰好有一个局部极小点,也是全局极小点。经典的 U 形函数是严格的凸函数。然而,某些凸函数(例如直线)不是 U 形的。

单击该图标可更深入地了解数学。

许多常见的损失函数(包括以下)都是凸函数:

许多变体 梯度下降 保证找到接近严格凸函数最小值的点。同样,许多变体 随机梯度下降 有很高的概率(但不能保证)找到接近严格凸函数最小值的点。

两个凸函数之和(例如,L2 损失+L1 正则化)是凸函数。

深度模型 永远不是凸函数。值得注意的是,为凸优化设计的算法无论如何都倾向于在深度网络上找到相当好的解决方案,即使这些解决方案不能保证是全局最小值。

凸优化

使用数学技术的过程,例如 梯度下降 找到 a 的最小值 凸函数。机器学习领域的大量研究都集中在将各种问题表述为凸优化问题并更有效地解决这些问题。

有关完整的详细信息,请参阅 Boyd 和 Vandenberghe,凸优化。

凸集

欧几里得空间的子集,使得子集中任意两点之间绘制的线完全保持在子集中。例如,以下两个形状是凸集:

One illustration of a rectangle. Another illustration of an oval.

相反,以下两个形状不是凸集:

One illustration of a pie-chart with a missing slice.
          Another illustration of a wildly irregular polygon.

卷积

在数学中,通俗地说,是两个函数的混合。在机器学习中,卷积混合了 卷积滤波器 和输入矩阵以便训练 重量

机器学习中的术语“卷积”通常是指代以下任意一个的简写方式: 卷积运算 或者 卷积层

如果没有卷积,机器学习算法将必须为大数据中的每个单元学习单独的权重。 张量。例如,在 2K x 2K 图像上训练的机器学习算法将被迫找到 4M 个单独的权重。借助卷积,机器学习算法只需找到网络中每个单元的权重 卷积滤波器,大大减少了训练模型所需的内存。当应用卷积滤波器时,它只是在单元之间复制,以便每个单元都乘以滤波器。

卷积滤波器

一部剧中的两位演员之一 卷积运算。 (另一个参与者是输入矩阵的一部分。)卷积滤波器是具有相同矩阵 作为输入矩阵,但形状更小。例如,给定 28x28 输入矩阵,滤波器可以是任何小于 28x28 的二维矩阵。

在摄影处理中,卷积滤波器中的所有单元通常都设置为恒定的 1 和 0 模式。在机器学习中,卷积滤波器通常用随机数播种,然后网络 火车 理想值。

卷积层

一层a 深度神经网络 其中一个 卷积滤波器 传递一个输入矩阵。例如,考虑以下 3x3 卷积滤波器

A 3x3 matrix with the following values: [[0,1,0], [1,0,1], [0,1,0]]

以下动画显示了一个由涉及 5x5 输入矩阵的 9 个卷积运算组成的卷积层。请注意,每个卷积运算都在输入矩阵的不同 3x3 切片上进行。生成的 3x3 矩阵(右侧)由 9 次卷积运算的结果组成:

An animation showing two matrices. The first matrix is the 5x5
          matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          The second matrix is the 3x3 matrix:
          [[181,303,618], [115,338,605], [169,351,560]].
          The second matrix is calculated by applying the convolutional
          filter [[0, 1, 0], [1, 0, 1], [0, 1, 0]] across
          different 3x3 subsets of the 5x5 matrix.

卷积神经网络

A 神经网络 其中至少一层是 卷积层。典型的卷积神经网络由以下层的某种组合组成:

卷积神经网络在某些类型的问题上取得了巨大的成功,例如图像识别。

卷积运算

以下两步数学运算:

  1. 逐元素乘法 卷积滤波器 和输入矩阵的切片。 (输入矩阵的切片与卷积滤波器具有相同的秩和大小。)
  2. 所得乘积矩阵中所有值的总和。

例如,考虑以下 5x5 输入矩阵:

The 5x5 matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

现在想象一下以下 2x2 卷积滤波器:

The 2x2 matrix: [[1, 0], [0, 1]]

每个卷积运算都涉及输入矩阵的单个 2x2 切片。例如,假设我们使用输入矩阵左上角的 2x2 切片。因此,该切片上的卷积运算如下所示:

Applying the convolutional filter [[1, 0], [0, 1]] to the top-left
          2x2 section of the input matrix, which is [[128,97], [35,22]].
          The convolutional filter leaves the 128 and 22 intact, but zeroes
          out the 97 and 35. Consequently, the convolution operation yields
          the value 150 (128+22).

A 卷积层 由一系列卷积运算组成,每个运算作用于输入矩阵的不同切片。

成本

同义词 损失

共同培训

A 半监督学习 当满足以下所有条件时,该方法特别有用:

协同训练本质上是将独立信号放大为更强的信号。例如,考虑一个 分类模型 将个人二手车分类为 好的 或者 坏的。一组预测功能可能侧重于总体特征,例如汽车的年份、品牌和型号;另一组预测功能可能会关注前车主的驾驶记录和汽车的维护历史。

关于协同训练的开创性论文是 Blum 和 Mitchell 的《Combining Labeled and Unlabeled Data with Co-Training》。

反事实公平

A 公平性度量 检查分类器对一个个体产生的结果是否与对与第一个个体相同的另一个个体产生的结果相同,除了一个或多个 敏感属性。评估分类器的反事实公平性是揭示模型中潜在偏差来源的一种方法。

覆盖偏差

崩溃开花

含义不明确的句子或短语。崩溃的花朵带来了一个严重的问题 自然语言理解。例如,标题 繁琐的手续支撑着摩天大楼 之所以能迅速开花,是因为 NLU 模型可以从字面或比喻上解释标题。

单击该图标可获取其他注释。

只是为了澄清这个神秘的标题:

  • 繁文缛节 可以指以下任一内容:
    • 一种粘合剂
    • 官僚主义过多
  • 可容纳 可以指以下任一内容:
    • 结构支撑
    • 延误

评论家

交叉熵

的概括 对数损失多类分类问题。交叉熵量化两个概率分布之间的差异。也可以看看 困惑

交叉验证

一种评估机制 模型 通过针对一个或多个不重叠的数据子集测试模型,可以推广到新数据 训练集

D

数据分析

通过考虑样本、测量和可视化来了解数据。当第一次收到数据集、构建第一个数据集之前,数据分析特别有用 模型。它对于理解实验和调试系统问题也至关重要。

数据增强

人为地增加范围和数量 训练 通过改造现有的例子 例子 创建更多示例。例如,假设图像是您的图像之一 特征,但您的数据集没有包含足够的图像示例供模型学习有用的关联。理想情况下,你应该添加足够的 贴上标签 将图像添加到数据集以使模型能够正确训练。如果这是不可能的,数据增强可以旋转、拉伸和反映每个图像以产生原始图片的许多变体,可能产生足够的标记数据以实现出色的训练。

数据框

一个流行的 熊猫 用于表示的数据类型 数据集 在记忆中。

DataFrame 类似于表格或电子表格。 DataFrame 的每一列都有一个名称(标题),每一行都由唯一的数字标识。

DataFrame 中的每一列的结构类似于二维数组,只不过每一列都可以分配自己的数据类型。

数据并行性

一种缩放方式 训练 或者 推理 将整个模型复制到多个设备上,然后将输入数据的子集传递到每个设备。数据并行性可以实现非常大的训练和推理 批量大小;然而,数据并行性要求模型足够小以适合所有设备。

数据集或数据集

原始数据的集合,通常(但不限于)按以下格式之一组织:

  • 电子表格
  • CSV(逗号分隔值)格式的文件

数据集 API (tf.data)

tf.data.Datasettf.data.IteratorDataset

有关 Dataset API 的详细信息,请参阅 tf.data:构建 TensorFlow 输入管道 TensorFlow 程序员指南

决策边界

之间的分隔符 学习者 模型 在一个 二元类 或者 多类分类问题。例如,在代表二元分类问题的下图中,决策边界是橙色类和蓝色类之间的边界:

A well-defined boundary between one class and another.

决策森林

由多个创建的模型 决策树。决策森林通过聚合其决策树的预测来进行预测。流行的决策森林类型包括 随机森林梯度提升树

决策阈值

决策树

监督学习模型由一组 状况树叶 分层组织。例如,下面是一个决策树:

A decision tree consisting of four conditions arranged
          hierarchically, which lead to five leaves.

深度模型

A 神经网络 包含不止一个 隐藏层

深度模型也称为 深度神经网络

对比 宽型

解码器

一般来说,任何从经过处理的、密集的或内部表示转换为更原始、稀疏或外部表示的机器学习系统。

解码器通常是较大模型的组成部分,它们经常与 编码器

序列到序列任务,解码器从编码器生成的内部状态开始预测下一个序列。

参考 变压器 用于 Transformer 架构中解码器的定义。

深度神经网络

同义词 深度模型

深度 Q 网络 (DQN)

Q-学习, 一个深 神经网络 预测 Q函数

评论家 是深度 Q 网络的同义词。

人口均等

A 公平性度量 如果模型的分类结果不依赖于给定的,则满足 敏感属性

例如,如果小人国人和大人国人都申请格鲁布杜德里布大学,那么只要小人国人的录取比例与大人国人的录取比例相同,就可以实现人口平等,无论一组人的平均资格是否比另一组人高。

对比 均等赔率机会平等,它允许聚合的分类结果依赖于敏感属性,但不允许某些指定的真实标签的分类结果依赖于敏感属性。请参阅“通过更智能的机器学习来攻击歧视”,以可视化方式探索优化人口平等时的权衡。

去噪

一个常见的方法是 自我监督学习 其中:

去噪可以让学习 未标记的示例。原本的 数据集 作为目标或 标签 和噪声数据作为输入。

一些 掩蔽语言模型 按如下方式使用去噪:

  1. 通过屏蔽一些标记,将噪声人为添加到未标记的句子中。
  2. 该模型尝试预测原始标记。

密集特征

A 特征 其中大多数或所有值都非零,通常是 张量 浮点值。例如,以下 10 元素张量是稠密的,因为其中 9 个值非零:

8 3 7 5 2 4 0 4 9 6

对比 稀疏特征

致密层

深度

a 中以下各项的总和 神经网络

例如,具有 5 个隐藏层和 1 个输出层的神经网络的深度为 6。

请注意, 输入层 不影响深度。

深度可分离卷积神经网络 (sepCNN)

A 卷积神经网络 基于 Inception 的架构,但其中 Inception 模块被深度可分离卷积取代。也称为 Xception。

深度可分离卷积(也简称为可分离卷积)将标准 3-D 卷积分解为两个计算效率更高的独立卷积运算:首先是深度为 1 (n ✕ n ✕ 1) 的深度卷积,然后第二个是逐点卷积,长度和宽度均为 1 (1 ✕ 1 ✕ n)。

派生标签

同义词 代理标签

设备

可以运行 TensorFlow 会话的一类硬件,包括 CPU、GPU 和 TPU

降维

减少用于表示特征向量中特定特征的维数,通常通过转换为 嵌入向量

方面

具有以下任一定义的重载术语:

[“你好”][3,5,7,11][[2,4,18],[5,7,14]]

离散特征

A 特征 具有一组有限的可能值。例如,一个特征的值只能是 动物, 蔬菜, 或者 矿物 是离散(或分类)特征。

判别模型

A 模型 预测 标签 来自一组一个或多个 特征。更正式地说,判别模型定义了给定特征和输出的条件概率 重量;那是:

p(输出|特征,权重)

例如,根据特征和权重预测电子邮件是否为垃圾邮件的模型就是判别模型。

绝大多数监督学习模型,包括分类和回归模型,都是判别模型。

鉴别器

一个系统可以判断是否 例子 是真的还是假的。

或者,子系统内 生成对抗网络 决定是否创建的示例 发电机 是真的还是假的。

不同的影响

做出对不同人群产生不成比例影响的决策。这通常指的是算法决策过程对某些子群体的伤害或益处大于其他子群体的情况。

例如,假设一个确定小人国获得小型住房贷款资格的算法,如果他们的邮寄地址包含特定的邮政编码,则更有可能将他们归类为“不合格”。如果 Big-Endian Lilliputians 比 Little-Endian Lilliputians 更有可能拥有包含此邮政编码的邮寄地址,则此算法可能会产生不同的影响。

对比 区别对待,它重点关注当子组特征是算法决策过程的显式输入时所产生的差异。

区别对待

因式分解科目 敏感属性 进入算法决策过程,以便不同的人群得到不同的对待。

例如,考虑一种算法,该算法根据小人国在贷款申请中提供的数据来确定他们获得小型住房贷款的资格。如果算法使用小人国的从属关系作为大端或小端作为输入,那么它就会沿着该维度实施不同的处理。

对比 不同的影响,其重点关注算法决策对子组的社会影响的差异,无论这些子组是否是模型的输入。

分裂聚类

下采样

重载术语可以表示以下任一含义:

数据质量网络

缩写为 深度Q网络

辍学正则化

一种形式 正则化 在训练中有用 神经网络。 Dropout 正则化删除了网络层中单个梯度步骤中固定数量单元的随机选择。退出的单位越多,正规化就越强。这类似于训练网络来模拟指数级大的 合奏 较小的网络。有关完整详细信息,请参阅 Dropout:防止神经网络过度拟合的简单方法。

动态的

经常或连续做的事情。条款 动态的在线的 是机器学习中的同义词。以下是常见用途 动态的在线的 在机器学习中:

  • A 动态模型 (或者 在线模型)是经常或连续重新训练的模型。
  • 动态训练 (或者 在线培训)是经常或持续训练的过程。
  • 动态推理 (或者 在线推理)是按需生成预测的过程。

动态模型

A 模型 经常(甚至连续)接受再培训。动态模型是一个“终身学习者”,不断适应不断变化的数据。动态模型也称为 在线模型

对比 静态模型

急于执行

TensorFlow 编程环境,其中 运营 立即运行。相反,调用的操作 图形执行 在明确评估它们之前不要运行。急切执行是一个命令式接口,很像大多数编程语言中的代码。急切执行程序通常比图形执行程序更容易调试。

提前停止

一种方法用于 正则化 这涉及到结束 训练 训练损失结束减少。在早期停止中,当损失发生时,您有意停止训练模型 验证数据集 开始增加;也就是说,当 概括 性能恶化。

单击该图标可获取其他注释。

提前停止似乎违反直觉。毕竟,在损失仍在减少的情况下告诉模型停止训练似乎就像告诉厨师在甜点完全烘烤之前停止烹饪一样。然而,训练模型时间过长可能会导致过度拟合。也就是说,如果训练模型的时间过长,该模型可能会与训练数据非常吻合,以至于无法对新示例做出良好的预测。

推土机距离 (EMD)

两个文档之间相对相似性的度量。推土机的距离越短,文档越相似。

编辑距离

衡量两个文本字符串彼此相似程度的方法。在机器学习中,编辑距离非常有用,因为它简单且易于计算,并且是比较已知相似的两个字符串或查找与给定字符串相似的字符串的有效方法。

编辑距离有多种定义,每种定义使用不同的字符串操作。例如,编辑距离考虑最少的删除、插入和替换操作。

例如,单词“heart”和“darts”之间的编辑距离为 3,因为以下 3 次编辑是将一个单词变为另一个单词的最少更改:

  1. 心 → 亲爱的(用“d”代替“h”)
  2. Deart → dart(删除“e”)
  3. 飞镖 → 飞镖(插入“s”)

Einsum 表示法

一种有效的符号来描述两个 张量 是要合并的。通过将一个张量的元素乘以另一个张量的元素,然后对乘积求和来组合张量。 Einsum 表示法使用符号来标识每个张量的轴,并且这些相同的符号被重新排列以指定新的结果张量的形状。

数值模拟 提供通用的 Einsum 实现。

嵌入层

一个特别的 隐藏层 在高维上训练 绝对的 特征逐渐学习较低维度的嵌入向量。嵌入层使神经网络的训练效率比仅在高维分类特征上进行训练要高效得多。

猴面包树

An array of 73,000 elements. The first 6,232 elements hold the value
     0. The next element holds the value 1. The final 66,767 elements hold
     the value zero.

73,000 个元素的数组非常长。如果不向模型添加嵌入层,由于要乘以 72,999 个零,训练将非常耗时。也许您选择由 12 个维度组成的嵌入层。因此,嵌入层将逐渐为每个树种学习一个新的嵌入向量。

在某些情况下, 散列 是嵌入层的合理替代方案。

嵌入空间

高维向量空间的特征映射到的 d 维向量空间。理想情况下,嵌入空间包含一个能够产生有意义的数学结果的结构;例如,在理想的嵌入空间中,嵌入的加法和减法可以解决单词类比任务。

两个嵌入的点积是它们相似性的度量。

嵌入向量

从广义上讲,浮点数数组取自 任何 隐藏层 描述该隐藏层的输入。通常,嵌入向量是在嵌入层中训练的浮点数数组。例如,假设嵌入层必须学习地球上 73,000 种树种中每一种的嵌入向量。也许以下数组是猴面包树的嵌入向量:

An array of 12 elements, each holding a floating-point number
          between 0.0 and 1.0.

嵌入向量不是一堆随机数。嵌入层通过训练确定这些值,类似于神经网络在训练期间学习其他权重的方式。数组的每个元素都是根据树种的某些特征进行的评级。哪个元素代表哪个树种的特征?这对人类来说很难确定。

嵌入向量在数学上值得注意的部分是相似的项具有相似的浮点数集。例如,相似的树种比不同的树种具有更相似的浮点数集。红杉和红杉是相关树种,因此它们比红杉和椰子树具有更相似的浮点数字集。每次重新训练模型时,嵌入向量中的数字都会发生变化,即使使用相同的输入重新训练模型也是如此。

经验风险最小化(ERM)

选择最小化训练集损失的函数。对比 结构性风险最小化

编码器

一般来说,任何从原始、稀疏或外部表示转换为经过处理、更密集或更内部表示的机器学习系统。

编码器通常是较大模型的组件,它们经常与 解码器。一些 变形金刚 将编码器与解码器配对,尽管其他 Transformer 仅使用编码器或仅使用解码器。

一些系统使用编码器的输出作为分类或回归网络的输入。

序列到序列任务,编码器接受输入序列并返回内部状态(向量)。然后, 解码器 使用该内部状态来预测下一个序列。

参考 变压器 用于 Transformer 架构中编码器的定义。

合奏

的集合 楷模 独立训练,其预测被平均或聚合。在许多情况下,集成模型比单个模型能产生更好的预测。例如,一个 随机森林 是一个由多个构建的集成体 决策树。请注意,并非所有 决策森林 是合奏团。

在信息论中,描述概率分布的不可预测性。或者,熵也被定义为每个信息量有多少 例子 包含。当随机变量的所有值均等可能时,分布具有最高可能的熵。

具有两个可能值“0”和“1”的集合的熵(例如, 二元分类 问题)有以下公式:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

在哪里:

  • H 是熵。
  • p 是“1”示例的分数。
  • q 是“0”示例的分数。请注意 q = (1 - p)
  • 日志 一般是日志2。在这种情况下,熵的单位是比特。

例如,假设以下情况:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)对数2(0.75) = 0.81 每个示例的位数

完美平衡的集合(例如,200 个“0”和 200 个“1”)每个示例的熵为 1.0 位。当一套变得更多 不平衡,其熵向 0.0 移动。

决策树,熵有助于制定 信息增益 帮助 分离器 选择 状况 在分类决策树的生长过程中。

比较熵:

熵通常称为香农熵。

环境

在强化学习中,世界包含 代理人 并允许代理观察那个世界 状态。例如,所表示的世界可以是象棋这样的游戏,也可以是迷宫这样的物理世界。当代理人申请 行动 到环境,然后环境在状态之间转换。

插曲

在强化学习中,每次重复尝试 代理人 学习一个 环境

时代

整个训练过程的完整训练 训练集 使得每个 例子 已处理过一次。

神经网络

例如,假设以下情况:

  • 该数据集包含 1,000 个示例。
  • 批量大小为 50 个示例。

因此,单个 epoch 需要 20 次迭代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 次迭代

epsilon 贪婪策略

在强化学习中, 政策 要么遵循一个 随机策略 具有 epsilon 概率或 贪婪政策 否则。例如,如果 epsilon 为 0.9,则策略在 90% 的时间内遵循随机策略,在 10% 的时间内遵循贪婪策略。

在连续的回合中,算法会降低 epsilon 的值,以便从遵循随机策略转变为遵循贪婪策略。通过改变策略,智能体首先随机探索环境,然后贪婪地利用随机探索的结果。

机会平等

A 公平性度量 检查是否对于首选 标签 (赋予某人优势或好处的)和给定的 属性,分类器对该属性的所有值都同样有效地预测首选标签。换句话说,机会平等衡量的是那些应该有资格获得机会的人是否同样有可能这样做,而不管他们的群体成员身份如何。

例如,假设 Glubbdubdrib 大学录取小人国人和大人人参加严格的数学课程。小人国的中学提供完善的数学课程,绝大多数学生都有资格进入大学课程。布罗布丁纳吉斯人的中学根本不提供数学课程,因此合格的学生要少得多。如果合格的学生无论是小人国还是大人国,都有同等的可能性被录取,那么就国籍(小人国或大人国)而言,“录取”的首选标签就满足了机会平等。

例如,假设有 100 个小人国和 100 个大人国申请 Glubbdubdrib 大学,录取决定如下:

表格1。 小人国申请者(90%合格)

  合格的 不合格
录取 45 3
拒绝 45 7
全部的 90 10
合格学生录取比例:45/90 = 50%
不合格学生被拒绝的百分比:7/10 = 70%
小人国学生录取总比例:(45+3)/100 = 48%

 

表 2. Brobdingnagian 申请人(10% 合格):

  合格的 不合格
录取 5 9
拒绝 5 81
全部的 10 90
合格学生录取百分比:5/10 = 50%
不合格学生被拒绝的百分比:81/90 = 90%
布罗布丁纳吉安学生录取总比例:(5+9)/100 = 14%

前面的例子满足了录取合格学生的机会平等,因为合格的小人国和大人都有 50% 的机会被录取。

有关机会平等的更详细讨论,请参阅“监督学习中的机会平等”。另请参阅“通过更智能的机器学习来攻击歧视”,以可视化方式探索优化机会平等时的权衡。

均等赔率

A 公平性度量 检查对于任何特定标签和属性,分类器是否对该属性的所有值都同样好地预测该标签。

例如,假设 Glubbdubdrib 大学录取小人国人和大人人参加严格的数学课程。小人国的中学提供完善的数学课程,绝大多数学生都有资格进入大学课程。布罗布丁纳吉斯人的中学根本不提供数学课程,因此,合格的学生要少得多。满足均等赔率的条件是,无论申请人是小人国还是大人,如果他们符合资格,他们被录取的可能性相同,如果他们不合格,他们被拒绝的可能性相同。

假设有 100 个小人国人和 100 个大人国申请 Glubbdubdrib 大学,录取决定如下:

表3。 小人国申请者(90%合格)

  合格的 不合格
录取 45 2
拒绝 45 8
全部的 90 10
合格学生录取比例:45/90 = 50%
不合格学生被拒绝的百分比:8/10 = 80%
小人国学生录取总比例:(45+2)/100 = 47%

 

表 4. Brobdingnagian 申请人(10% 合格):

  合格的 不合格
录取 5 18
拒绝 5 72
全部的 10 90
合格学生录取百分比:5/10 = 50%
不合格学生被拒绝的百分比:72/90 = 80%
布罗布丁纳吉安学生录取总比例:(5+18)/100 = 23%

满足均等赔率,因为合格的小人国学生和大人国学生都有 50% 的机会被录取,不合格的小人国学生和大人国学生有 80% 的机会被拒绝。

均等赔率在《监督学习中的机会均等》中正式定义如下:“如果 Ŷ 和 A 独立,并且以 Y 为条件,则预测器 Ŷ 满足受保护属性 A 和结果 Y 的均等赔率。”

估算器

已弃用的 TensorFlow API。使用 tf.keras 而不是估算器。

例子

一行的值 特征 并且可能有一个 标签。中的示例 监督学习 分为两大类:

例如,假设您正在训练一个模型来确定天气条件对学生考试成绩的影响。以下是三个带标签的示例:

特征 标签
温度 湿度 压力 测试成绩
15 47 998 好的
19 34 1020 出色的
18 92 1012 贫穷的

以下是三个未标记的示例:

温度 湿度 压力  
12 62 1014  
21 47 1017  
19 41 1021  

的一排 数据集 通常是示例的原始来源。也就是说,一个示例通常由数据集中的列的子集组成。此外,示例中的特征还可以包括 综合特征, 例如 特征交叉

体验回放

在强化学习中, 数据质量网络 用于减少训练数据中的时间相关性的技术。这 代理人 将状态转换存储在 重播缓冲区,然后从重放缓冲区中采样转换以创建训练数据。

实验者的偏见

梯度爆炸问题

趋势为 渐变深度神经网络 (尤其 循环神经网络)变得异常陡峭(高)。陡峭的梯度通常会导致非常大的更新 重量 每个 节点 在深度神经网络中。

遭受梯度爆炸问题的模型变得难以或不可能训练。 渐变裁剪 可以缓解这个问题。

F

F1

一个“卷” 二元分类 依赖于两者的指标 精确记起。公式如下:

例如,给定以下情况:

  • 精度 = 0.6
  • 召回率 = 0.4

当精确率和召回率相当相似时(如前面的示例所示),F1 接近他们的平均值。当精确率和召回率显着差异时,F1 更接近较低的值。例如:

  • 精度 = 0.9
  • 召回率 = 0.1

公平约束

对算法应用约束以确保满足一个或多个公平性定义。公平约束的示例包括:

公平性度量

可测量的“公平”的数学定义。一些常用的公平性指标包括:

许多公平性指标是相互排斥的;看 公平性指标的不兼容

假阴性(FN)

模型错误预测的示例 负类。例如,该模型预测特定电子邮件是 不是垃圾邮件 (负类),但是那封电子邮件 实际上是垃圾邮件

假阴性率

模型错误预测负类的实际正例的比例。以下公式计算假阴性率:

误报 (FP)

模型错误预测的示例 正类。例如,该模型预测特定电子邮件是 垃圾邮件 (正面类别),但是该电子邮件是 实际上不是垃圾邮件

误报率(FPR)

模型错误预测正类的实际负例的比例。以下公式计算误报率:

假阳性率是图中的 x 轴 ROC曲线

特征

机器学习模型的输入变量。一个 例子 由一个或多个特征组成。例如,假设您正在训练一个模型来确定天气条件对学生考试成绩的影响。下表显示了三个示例,每个示例包含三个特征和一个标签:

特征 标签
温度 湿度 压力 测试成绩
15 47 998 92
19 34 1020 84
18 92 1012 87

对比 标签

特征交叉

A 综合特征 由“交叉”组成 绝对的 或者 装桶的 特征。

例如,考虑一个“情绪预测”模型,它表示以下四个桶之一的温度:

冰冻寒冷温带温暖

并表示以下三个桶之一的风速:

仍然有微风
冰冷的风

或者,您可以创建温度和风速的特征组合。该综合特征有以下 12 个可能的值:

冻结-静止冻结-光冻结-风寒冷-静止寒冷-光寒冷-风温带-静止温带-光温带-有风温暖-仍然温暖-光温暖-有风
冰冻-有风 冰冻-静止

如果您从两个具有许多不同存储桶的特征创建合成特征,则生成的特征组合将具有大量可能的组合。例如,如果一个要素有 1,000 个存储桶,另一个要素有 2,000 个存储桶,则生成的要素组合有 2,000,000 个存储桶。

形式上,十字是笛卡尔积。

特征交叉主要与线性模型一起使用,很少与神经网络一起使用。

特征工程

一个过程涉及以下步骤:

  1. 确定哪个 特征 可能对训练模型有用。
  2. 将数据集中的原始数据转换为这些特征的有效版本。
温度温度

特征工程有时被称为 特征提取

单击该图标可获取有关 TensorFlow 的其他说明。

在 TensorFlow 中,特征工程通常意味着将原始日志文件条目转换为 tf.示例 协议缓冲区。另请参见 tf.Transform。

特征提取

具有以下任一定义的重载术语:

特征重要性

功能集

该组 特征 你的机器学习 模型 火车开动。例如,邮政编码、房产面积和房产状况可能构成预测房价模型的简单特征集。

功能规格

描述提取所需的信息 特征 数据来自 tf.示例 协议缓冲区。由于 tf.Example 协议缓冲区只是数据容器,因此您必须指定以下内容:

  • 要提取的数据(即特征的键)
  • 数据类型(例如 float 或 int)
  • 长度(固定或可变)

特征向量

的数组 特征 值包括 例子。特征向量是在 训练 以及期间 推理。例如,具有两个离散特征的模型的特征向量可能是:

[0.92,0.56]

Four layers: an input layer, two hidden layers, and one output layer.
          The input layer contains two nodes, one containing the value
          0.92 and the other containing the value 0.56.

每个示例为特征向量提供不同的值,因此下一个示例的特征向量可能类似于:

[0.73, 0.49]

特征工程 确定如何表示特征向量中的特征。例如,具有五个可能值的二元分类特征可以表示为 独热编码。在这种情况下,特定示例的特征向量部分将由四个零和第三个位置的单个 1.0 组成,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子,假设您的模型包含三个特征:

[0.0, 1.0, 0.0, 0.0, 0.0][0.0, 0.0, 1.0]8.3

在这种情况下,每个示例的特征向量将表示为 价值观。给定前面列表中的示例值,特征向量将是:

0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3

联邦学习

一种分布式机器学习方法 火车 机器学习 楷模 使用去中心化的 例子 驻留在智能手机等设备上。在联合学习中,设备子集从中央协调服务器下载当前模型。设备使用存储在设备上的示例来改进模型。然后,设备将模型改进(但不是训练示例)上传到协调服务器,在那里它们与其他更新聚合以产生改进的全局模型。聚合后,设备计算的模型更新不再需要,可以丢弃。

由于训练示例从未上传,联邦学习遵循集中数据收集和数据最小化的隐私原则。

有关联合学习的更多信息,请参阅本教程。

反馈回路

在机器学习中,模型的预测影响同一模型或另一个模型的训练数据的情况。例如,推荐电影的模型会影响人们观看的电影,进而影响后续的电影推荐模型。

前馈神经网络(FFN)

没有循环或递归连接的神经网络。例如,传统的 深度神经网络 是前馈神经网络。对比 循环神经网络,它们是循环的。

少样本学习

一种机器学习方法,通常用于对象分类,旨在仅通过少量训练示例来训练有效的分类器。

也可以看看 一次性学习零样本学习

小提琴

Python优先 配置 无需侵入性代码或基础设施即可设置函数和类的值的库。如果是 帕克斯- 以及其他 ML 代码库 - 这些函数和类代表 楷模训练 超参数

Fiddle 假设机器学习代码库通常分为:

  • 库代码,定义层和优化器。
  • 数据集“粘合”代码,它调用库并将所有内容连接在一起。

Fiddle 以未评估且可变的形式捕获粘合代码的调用结构。

微调

执行二次优化以调整已训练的参数 模型 来适应新的问题。微调通常是指重新调整受过训练的权重 无监督 模型到一个 监督的 模型。

亚麻

一个基于深度学习的高性能开源库 贾克斯。 Flax 提供以下功能 训练 神经网络,以及评估其绩效的方法。

亚麻成形者

一个开源的 变压器 库,建立在 亚麻,主要为自然语言处理和多模态研究而设计。

忘记门

的一部分 长短期记忆 调节细胞内信息流动的细胞。遗忘门通过决定从单元状态中丢弃哪些信息来维护上下文。

完整的softmax

同义词 软最大

全连接层

A 隐藏层 其中每个 节点 连接到 每一个 后续隐藏层的节点。

全连接层也称为 致密层

G

生成网络

概括

A 楷模 对新的、以前未见过的数据做出正确预测的能力。可以泛化的模型与泛化模型相反 过拟合

单击该图标可获取其他注释。

您可以根据训练集中的示例训练模型。因此,模型学习训练集中数据的特性。泛化本质上是问你的模型是否可以对以下示例做出良好的预测: 不是 在训练集中。

为了鼓励普遍化, 正则化 帮助模型不太准确地训练训练集中数据的特性。

泛化曲线

两者的情节 训练损失验证损失 作为数量的函数 迭代

泛化曲线可以帮助您检测可能的情况 过拟合。例如,以下泛化曲线表明过度拟合,因为验证损失最终明显高于训练损失。

A Cartesian graph in which the y-axis is labeled 'loss' and the x-axis
          is labeled 'iterations'. Two plots appear. One plots shows the
          training loss and the other shows the validation loss.
          The two plots start off similarly, but the training loss eventually
          dips far lower than the validation loss.

广义线性模型

的概括 最小二乘回归 基于高斯噪声的模型到基于其他类型噪声(例如泊松噪声或分类噪声)的其他类型的模型。广义线性模型的示例包括:

  • 多类回归
  • 最小二乘回归

广义线性模型的参数可以通过以下方式找到 凸优化

广义线性模型具有以下属性:

  • 最佳最小二乘回归模型的平均预测等于训练数据上的平均标签。
  • 最优逻辑回归模型预测的平均概率等于训练数据上的平均标签。

广义线性模型的能力受到其特征的限制。与深度模型不同,广义线性模型无法“学习新特征”。

生成对抗网络(GAN)

一个创建新数据的系统,其中 发电机 创建数据和 鉴别器 确定创建的数据是有效还是无效。

生成模型

实际上,模型可以执行以下任一操作:

生成模型理论上可以辨别数据集中示例或特定特征的分布。那是:

p(示例)

无监督学习模型是生成式的。

发电机

内的子系统 生成对抗网络 创造新的 例子

GPT(生成式预训练变压器)

一个家庭 变压器-基于 大语言模型 由 OpenAI 开发。

GPT 变体可以应用于多个 方式, 包括:

  • 图像生成(例如 ImageGPT)
  • 文本到图像的生成(例如,DALL-E)。

基尼杂质

类似于以下的指标 分离器 使用从基尼杂质或熵派生的值来组成 状况 用于分类 决策树信息增益 是从熵导出的。对于源自基尼不纯度的指标,没有普遍接受的等效术语;然而,这个未命名的指标与信息增益同样重要。

基尼杂质也称为 基尼指数,或者简单地 基尼系数

单击该图标可获取有关基尼杂质的数学详细信息。

基尼不纯度是对取自同一分布的新数据进行错误分类的概率。具有两个可能值“0”和“1”的集合(例如问题中的标签)的基尼不纯度由以下公式计算:

   我 = 1 - (p2 + q2) = 1 - (p2 + (1-p)2

在哪里:

  • 是基尼杂质。
  • p 是“1”示例的分数。
  • q 是“0”示例的分数。注意 q = 1-p

例如,考虑以下数据集:

  • 100 个标签(数据集的 0.25)包含值“1”
  • 300 个标签(数据集的 0.75)包含值“0”

因此,基尼杂质为:

  • p = 0.25
  • q = 0.75
  • 我 = 1 - (0.252 + 0.752)= 0.375

因此,来自同一数据集的随机标签有 37.5% 的机会被错误分类,62.5% 的机会被正确分类。

完美平衡的标签(例如,200 个“0”和 200 个“1”)的基尼不纯度为 0.5。一个高度 不平衡 标签的基尼杂质接近 0.0。

坡度

向量为 偏导数 相对于所有自变量。在机器学习中,梯度是模型函数的偏导数的向量。梯度指向最陡上升的方向。

梯度提升

一种训练算法,通过训练弱模型来迭代地提高强模型的质量(减少损失)。例如,弱模型可以是线性或小型决策树模型。强模型成为所有先前训练的弱模型的总和。

在最简单的梯度提升形式中,在每次迭代时,都会训练一个弱模型来预测强模型的损失梯度。然后,通过减去预测梯度来更新强模型的输出,类似于 梯度下降

在哪里:

  • $F_{0}$ 是起始强模型。
  • $F_{i+1}$ 是下一个强模型。
  • $F_{i}$ 是当前的强模型。
  • $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为 收缩,这类似于 学习率 在梯度下降中。
  • $f_{i}$ 是经过训练来预测 $F_{i}$ 损失梯度的弱模型。

梯度提升的现代变体还在其计算中包括损失的二阶导数(Hessian)。

决策树 通常用作梯度提升中的弱模型。看 梯度提升(决策)树

梯度提升(决策)树(GBT)

一种 决策森林 其中:

梯度裁剪

一种常用的缓解机制 梯度爆炸问题 通过在使用时人为地限制(裁剪)梯度的最大值 梯度下降火车 一个模型。

梯度下降

最小化的数学技术 损失。梯度下降迭代调整 重量偏见,逐渐寻找最佳组合以最小化损失。

梯度下降比机器学习更古老——古老得多。

图形

在 TensorFlow 中,一种计算规范。图中的节点代表操作。边是有向的并表示传递操作结果(a 张量) 作为另一个操作的操作数。使用 张量板 可视化图表。

图形执行

一个 TensorFlow 编程环境,其中程序首先构建一个 图形 然后执行该图的全部或部分。图执行是 TensorFlow 1.x 中的默认执行模式。

对比 急于执行

贪婪政策

在强化学习中, 政策 总是选择期望最高的行动 返回

基本事实

现实。

实际发生的事情。

例如,考虑一个 二元分类 该模型预测大学一年级的学生是否会在六年内毕业。该模型的基本事实是该学生是否在六年内真正毕业。

单击该图标可获取其他注释。

我们根据真实情况评估模型质量。然而,基本事实并不总是完全真实的。例如,考虑以下地面实况中潜在缺陷的示例:

  • 在毕业的例子中,我们是 肯定 每个学生的毕业记录总是正确的吗?大学的记录保存完美吗?
  • 假设标签是由仪器(例如气压计)测量的浮点值。我们如何确保每个仪器都经过相同的校准,或者每个读数都是在相同的情况下获取的?
  • 如果标签是人类观点的问题,我们如何确定每个人 评价者 以同样的方式评估事件吗?为了提高一致性, 专家 人类评估者有时会进行干预。

群体归因偏差

假设适用于个人的事情也适用于该群体中的每个人。如果群体归因偏差的影响可能会加剧 简单采样 用于数据收集。在非代表性样本中,可能会做出不反映现实的归因。

也可以看看 外群体同质性偏差群体内偏见

H

幻觉

由一个人产生看似合理但实际上不正确的输出 生成模型 旨在对现实世界做出断言。例如,如果对话代理声称巴拉克·奥巴马 (Barack Obama) 于 1865 年去世,则该代理是 产生幻觉

散列

在机器学习中,一种分桶机制 分类数据,特别是当类别数量很大,但数据集中实际出现的类别数量相对较少时。

例如,地球上有大约 73,000 种树种。您可以在 73,000 个单独的分类桶中表示 73,000 种树种中的每一种。或者,如果这些树种中只有 200 个实际出现在数据集中,您可以使用散列将树种划分为大约 500 个桶。

一个桶可以包含多种树种。例如,散列可以放置 猴面包树红枫树——两个基因不同的物种——放入同一个桶中。无论如何,散列仍然是将大型分类集映射到所需数量的存储桶的好方法。散列通过以确定性方式对值进行分组,将具有大量可能值的分类特征转换为数量少得多的值。

启发式

一个简单且快速实施的问题解决方案。例如,“通过启发式方法,我们达到了 86% 的准确率。当我们切换到深度神经网络时,准确率上升到 98%。”

隐藏层

中的一个层 神经网络 在。。之间 输入层 (特征)和 输出层 (预测)。每个隐藏层由一个或多个 神经元。例如,以下神经网络包含两个隐藏层,第一个包含三个神经元,第二个包含两个神经元:

Four layers. The first layer is an input layer containing two
          features. The second layer is a hidden layer containing three
          neurons. The third layer is a hidden layer containing two
          neurons. The fourth layer is an output layer. Each feature
          contains three edges, each of which points to a different neuron
          in the second layer. Each of the neurons in the second layer
          contains two edges, each of which points to a different neuron
          in the third layer. Each of the neurons in the third layer contain
          one edge, each pointing to the output layer.

A 深度神经网络 包含多个隐藏层。例如,上图是一个深度神经网络,因为该模型包含两个隐藏层。

层次聚类

一类 聚类 创建簇树的算法。层次聚类非常适合层次数据,例如植物分类学。层次聚类算法有两种类型:

  • 凝聚聚类 首先将每个示例分配给其自己的集群,然后迭代合并最接近的集群以创建分层树。
  • 分裂聚类 首先将所有示例分组到一个集群中,然后迭代地将集群划分为分层树。

铰链损失

一个家庭 损失 函数为 分类 旨在找到 决策边界 与每个训练样本的距离尽可能远,从而最大化样本和边界之间的余量。 KSVM 使用铰链损失(或相关函数,例如平方铰链损失)。对于二元分类,铰链损失函数定义如下:

在哪里 y 是真实标签,-1 或 +1,并且 你' 是分类器模型的原始输出:

因此,铰链损耗与 (y * y') 的关系图如下所示:

A Cartesian plot consisting of two joined line segments. The first
          line segment starts at (-3, 4) and ends at (1, 0). The second line
          segment begins at (1, 0) and continues indefinitely with a slope
          of 0.

保留数据

例子 在训练期间故意不使用(“保留”)。这 验证数据集测试数据集 是保留数据的示例。保留数据有助于评估模型泛化到其训练数据以外的数据的能力。与训练集上的损失相比,保留集上的损失可以更好地估计未见过的数据集上的损失。

超参数

您或超参数调优服务在连续运行模型训练期间调整的变量。例如, 学习率 是一个超参数。您可以在一次训练之前将学习率设置为 0.01。如果您确定 0.01 太高,您可以将下一次训练的学习率设置为 0.003。

相比之下, 参数 是各种 重量偏见 该模型 学习 在训练中。

超平面

将空间分成两个子空间的边界。例如,直线是二维超平面,平面是三维超平面。在机器学习中更典型的是,超平面是分隔高维空间的边界。 内核支持向量机 使用超平面将正类与负类分开,通常是在非常高维的空间中。

i.i.d.

图像识别

对图像中的对象、模式或概念进行分类的过程。图像识别也称为 图像分类

不平衡的数据集

隐性偏见

根据一个人的心理模型和记忆自动做出关联或假设。隐性偏见会影响以下方面:

  • 如何收集和分类数据。
  • 机器学习系统是如何设计和开发的。

例如,当构建分类器来识别婚礼照片时,工程师可能会使用照片中存在白色连衣裙作为特征。然而,白色服装仅在某些时代和某些文化中才成为惯例。

归因

公平性指标的不兼容

认为某些公平观念是相互不相容且不能同时满足的观点。因此,没有一个通用的 公制 用于量化可应用于所有机器学习问题的公平性。

虽然这可能看起来令人沮丧,但公平指标的不兼容并不意味着公平的努力是徒劳的。相反,它建议必须根据给定的机器学习问题的上下文来定义公平性,目的是防止特定于其用例的损害。

有关此主题的更详细讨论,请参阅“论公平的(不)可能性”。

独立同分布 (i.i.d)

从不变的分布中提取的数据,并且提取的每个值不依赖于之前提取的值。一个 i.i.d.是机器学习的理想气体——一种有用的数学结构,但在现实世界中几乎从未找到过。例如,网页访问者的分布可能是独立同分布的。在很短的时间内;也就是说,分布在这个短暂的窗口期间不会改变,并且一个人的访问通常独立于另一个人的访问。但是,如果您扩大该时间范围,网页访问者的季节性差异可能会出现。

个人公平

一种公平性指标,用于检查相似的个体是否被相似地分类。例如,布罗布丁纳吉安学院可能希望通过确保成绩和标准化考试成绩相同的两名学生获得录取的可能性相同来满足个人公平性。

请注意,个人公平性完全取决于您如何定义“相似性”(在本例中为成绩和考试分数),如果您的相似性度量遗漏了重要信息(例如学生的严谨性),您可能会面临引入新公平性问题的风险。课程)。

有关个人公平性的更详细讨论,请参阅“通过意识实现公平”。

推理

在机器学习中,通过应用经过训练的模型来进行预测的过程 未标记的示例

推断在统计学中具有有些不同的含义。有关详细信息,请参阅有关统计推断的维基百科文章。

推理路径

在一个 决策树, 期间 推理,特定路线 例子 取自 给其他人 状况,以 叶子。例如,在下面的决策树中,较粗的箭头显示具有以下特征值的示例的推理路径:

  • x = 7
  • y = 12
  • z = -3
泽塔

A decision tree consisting of four conditions and five leaves.
          The root condition is (x > 0). Since the answer is Yes, the
          inference path travels from the root to the next condition (y > 0).
          Since the answer is Yes, the inference path then travels to the
          next condition (z > 0). Since the answer is No, the inference path
          travels to its terminal node, which is the leaf (Zeta).

三个粗箭头显示了推理路径。

信息增益

决策森林,节点之间的差异 及其子节点熵的加权(按示例数量)总和。节点的熵是该节点中示例的熵。

例如,考虑以下熵值:

  • 父节点的熵 = 0.6
  • 具有 16 个相关示例的一个子节点的熵 = 0.2
  • 具有 24 个相关示例的另一个子节点的熵 = 0.1

因此,40% 的示例位于一个子节点中,60% 的示例位于另一子节点中。所以:

  • 子节点加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

所以,信息增益为:

  • 信息增益=父节点的熵-子节点的加权熵和
  • 信息增益 = 0.6 - 0.14 = 0.46

最多 分离器 寻求创造 状况 最大化信息增益。

群体内偏见

对自己的群体或自己的特征表现出偏爱。如果测试人员或评估人员由机器学习开发人员的朋友、家人或同事组成,则群体内偏见可能会使产品测试或数据集无效。

群体内偏见是一种形式 群体归因偏差。也可以看看 外群体同质性偏差

输入发生器

一种将数据加载到 神经网络

输入生成器可以被认为是负责将原始数据处理为张量的组件,这些张量被迭代以生成用于训练、评估和推理的批次。

输入层

的一个 神经网络 持有 特征向量。也就是说,输入层提供 例子 为了 训练 或者 推理。例如,以下神经网络中的输入层由两个特征组成:

Four layers: an input layer, two hidden layers, and an output layer.

内定条件

在一个 决策树, A 状况 测试一组项目中是否存在一个项目。例如,以下是一个 in-set 条件:

  [都铎王朝、殖民时期、海角]的房屋风格
都铎殖民地雀跃

集合内条件通常会产生比测试条件更有效的决策树 独热编码 特征。

实例

同义词 例子

可解释性

以人类可以理解的方式解释或呈现 ML 模型推理的能力。

例如,大多数线性回归模型都具有高度可解释性。 (您只需要查看每个特征的训练权重。)决策森林也具有高度可解释性。然而,有些模型需要复杂的可视化才能变得可解释。

评估者间协议

衡量人类评估者在执行任务时达成一致的频率。如果评估者不同意,则任务说明可能需要改进。有时也称为 注释者间协议 或者 评估者间的可靠性。另请参阅 Cohen 的 kappa,它是最流行的评估者间一致性测量之一。

并集交集 (IoU)

两个集合的交集除以它们的并集。在机器学习图像检测任务中,IoU 用于衡量模型预测的准确性 边界框 相对于该 地面实况 边界框。在这种情况下,两个框的 IoU 是重叠面积与总面积之间的比率,其值范围从 0(预测边界框和地面实况边界框没有重叠)到 1(预测边界框和地面边界框) -真实边界框具有完全相同的坐标)。

例如,在下图中:

  • 预测的边界框(界定模型预测画中床头柜所在位置的坐标)以紫色勾勒。
  • 地面实况边界框(界定画中床头柜实际位置的坐标)以绿色勾勒。

The Van Gogh painting 'Vincent's Bedroom in Arles', with two different
          bounding boxes around the night table beside the bed. The ground-truth
          bounding box (in green) perfectly circumscribes the night table. The
          predicted bounding box (in purple) is offset 50% down and to the right
          of the ground-truth bounding box; it encloses the bottom-right quarter
          of the night table, but misses the rest of the table.

这里,预测边界框和真实值(左下)的交集为 1,预测边界框和真实值(右下)的并集为 7,因此 IoU 为 \(\frac{1} {7}\)。

IOU

项目矩阵

推荐系统,矩阵 嵌入向量 产生于 矩阵分解 持有关于每个的潜在信号 物品。项目矩阵的每一行保存所有项目的单个潜在特征的值。例如,考虑一个电影推荐系统。项目矩阵中的每一列代表一部电影。潜在信号可能代表类型,或者可能是更难以解释的信号,涉及类型、明星、电影年龄或其他因素之间复杂的相互作用。

项目矩阵与正在分解的目标矩阵具有相同的列数。例如,给定一个评估 10,000 个电影标题的电影推荐系统,项目矩阵将有 10,000 列。

项目

在一个 推荐系统,系统推荐的实体。例如,视频是音像店推荐的商品,书籍是书店推荐的商品。

迭代

单个更新 楷模 参数——模型的 重量偏见-期间 训练。这 批量大小 确定模型在单次迭代中处理的示例数量。例如,如果批量大小为 20,则模型在调整参数之前会处理 20 个示例。

当训练一个 神经网络,单次迭代涉及以下两遍:

  1. 用于评估单个批次损失的前向传播。
  2. 向后传递(反向传播)根据损失和学习率调整模型的参数。

J

贾克斯

一个数组计算库,汇集了 XLA(加速线性代数) 以及高性能数值计算的自动微分。 JAX 提供了一个简单而强大的 API,用于编写具有可组合转换的加速数字代码。 JAX 提供以下功能:

gradjitvmappmap

JAX 是一种用于表达和编写数字代码转换的语言,与 Python 类似,但范围要大得多 数值模拟 图书馆。 (事实上​​,JAX 下的 .numpy 库在功能上等效,但完全重写了 Python NumPy 库的版本。)

JAX 特别适合通过将模型和数据转换为适合跨 GPU 并行的形式来加速许多机器学习任务 热塑性聚氨酯 加速器芯片

亚麻, 光税, 帕克斯,以及许多其他库都构建在 JAX 基础架构上。

K

喀拉斯

流行的 Python 机器学习 API。 Keras 在多个深度学习框架上运行,包括 TensorFlow,它以 tf.keras 的形式提供。

关键点

图像中特定特征的坐标。例如,对于一个 图像识别 在区分花种的模型中,关键点可能是每个花瓣的中心、茎、雄蕊等。

内核支持向量机 (KSVM)

一种分类算法,旨在最大化之间的间隔 积极的负类 通过将输入数据向量映射到更高维度的空间。例如,考虑一个分类问题,其中输入数据集具有一百个特征。为了最大化正类和负类之间的间隔,KSVM 可以在内部将这些特征映射到百万维空间。 KSVM 使用称为的损失函数 铰链损失

k折交叉验证

一种预测模型能力的算法 概括 到新数据。这 k in k-fold 是指将数据集的示例划分为相等组的数量;也就是说,您训练和测试模型 k 次。对于每一轮的训练和测试,不同的组是测试集,所有剩余的组成为训练集。经过 k 轮训练和测试后,您可以计算所需测试指标的平均值和标准差。

例如,假设您的数据集包含 120 个示例。进一步假设,您决定将 k 设置为 4。因此,在打乱示例后,您将数据集分为四个相等的组,每组 30 个示例,并进行四轮训练/测试:

A dataset broken into four equal groups of examples. In Round 1,
          the first three groups and used for training and the last group
          is used for testing. In Round 2, the first two groups and the last
          group are used for training, while the third group is used for
          testing. In Round 3, the first group and the last two groups are
          used for training, while the second group is used for testing.
          In Round 4, the first group is used is for testing, while the final
          three groups are used for training.

例如, 均方误差 (MSE) 可能是线性回归模型最有意义的指标。因此,您将找到所有四轮的 MSE 平均值和标准差。

k-均值

一个流行的 聚类 在无监督学习中对示例进行分组的算法。 k-means 算法基本上执行以下操作:

  • 迭代地确定最佳的 k 个中心点(称为 质心)。
  • 将每个示例分配给最近的质心。最接近同一质心的那些例子属于同一组。

k-means 算法选择质心位置以最小化累积 正方形 从每个示例到其最近质心的距离。

例如,考虑以下狗的高度与宽度的关系图:

A Cartesian plot with several dozen data points.

如果k=3,k-means算法将确定三个质心。每个示例都被分配到其最近的质心,产生三组:

The same Cartesian plot as in the previous illustration, except
          with three centroids added.
          The previous data points are clustered into three distinct groups,
          with each group representing the data points closest to a particular
          centroid.

想象一下,一家制造商想要确定小型、中型和大型狗毛衣的理想尺寸。三个质心确定了该簇中每只狗的平均高度和平均宽度。因此,制造商可能应该根据这三个质心来确定毛衣尺寸。请注意,簇的质心通常是 不是 集群中的一个例子。

上图显示了仅具有两个特征(高度和宽度)的示例的 k 均值。请注意,k 均值可以对许多特征的示例进行分组。

k中值

与以下密切相关的聚类算法 k-均值。两者的实际区别如下:

  • 在 k 均值中,质心是通过最小化 正方形 候选质心与其每个示例之间的距离。
  • 在 k 中值中,质心是通过最小化质心候选者与其每个示例之间的距离之和来确定的。

请注意,距离的定义也不同:

L

L0 正则化

一种 正则化 从而惩罚了 总数 非零的 重量 在一个模型中。例如,具有 11 个非零权重的模型将比具有 10 个非零权重的类似模型受到更多惩罚。

L0 正则化有时被称为 L0 范数正则化

单击该图标可获取其他注释。

L0 正则化在大型模型中通常不切实际,因为 L0 正则化将训练变成 凸的 优化问题。

L1 损失

A 损失函数 计算实际之间差异的绝对值 标签 值和值 模型 预测。例如,这是 L 的计算1 损失为 五个 例子

示例的实际价值 模型的预测值 δ的绝对值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

L1 损失不太敏感 异常值L2 损失

平均绝对误差 是平均 L1 每个例子的损失。

单击该图标可查看正式的数学运算。

$$ L_1 损失 = \sum_{i=0}^n | y_i - \hat{y}_i |$$

在哪里:
  • $n$ 是示例的数量。
  • $y$ 是标签的实际值。
  • $\hat{y}$ 是模型为 $y$ 预测的值。

L1 正则化

一种 正则化 惩罚 重量 与权重绝对值之和成正比。 L1 正则化有助于将不相关或几乎不相关的特征的权重推向 正好 0。 A 特征 权重为 0 的值被有效地从模型中移除。

L2 损失

A 损失函数 计算实际之间差异的平方 标签 值和值 模型 预测。例如,这是 L 的计算2 损失为 五个 例子

示例的实际价值 模型的预测值 三角洲的平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = 左2 损失

由于平方,L2 损失放大了影响 异常值。即,L2 损失对错误预测的反应比 L1 损失。例如,L1 前一批的损失将为 8,而不是 16。请注意,单个异常值占 16 个中的 9 个。

回归模型 通常使用 L2 损失作为损失函数。

均方误差 是平均 L2 每个例子的损失。 平方损失 是 L 的另一个名字2 损失。

单击该图标可查看正式的数学运算。

$$ L_2 损失 = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

在哪里:
  • $n$ 是示例的数量。
  • $y$ 是标签的实际值。
  • $\hat{y}$ 是模型为 $y$ 预测的值。

L2 正则化

一种 正则化 惩罚 重量 与总和成正比 正方形 的权重。 L2 正规化有助于推动 异常值 权重(具有高正值或低负值的权重)接近 0,但 不完全是0。值非常接近 0 的特征保留在模型中,但不会对模型的预测产生太大影响。

L2 正则化总是可以提高泛化能力 线性模型

标签

监督机器学习,“答案”或“结果”部分 例子

每个 标记示例 由一个或多个组成 特征 和一个标签。例如,在垃圾邮件检测数据集中,标签可能是“垃圾邮件”或“非垃圾邮件”。在降雨数据集中,标签可能是特定时期内的降雨量。

标记示例

包含一个或多个的示例 特征 和一个 标签。例如,下表显示了房屋评估模型中的三个带标签的示例,每个示例具有三个特征和一个标签:

卧室数量 浴室数量 房屋年龄 房价(标签)
3 2 15 345,000 美元
2 1 72 179,000 美元
4 2 34 392,000 美元

监督机器学习,模型在标记示例上进行训练并做出预测 未标记的示例

将标记的示例与未标记的示例进行对比。

标签泄漏

SpokeToCustomerAgentSpokeToCustomerAgent

LaMDA(对话应用语言模型)

A 变压器-基于 大语言模型 由谷歌开发,在大型对话数据集上进行训练,可以生成真实的对话响应。

拉姆达

Lambda 是一个重载的术语。在这里,我们重点关注该术语的定义 正则化

地标

同义词 关键点

语言模型

A 模型 估计 a 的概率 代币 或出现在较长令牌序列中的令牌序列。

单击该图标可获取其他注释。

尽管违反直觉,但许多评估文本的模型并不 语言模型。例如,文本分类模型和情感分析模型不是 语言模型

大语言模型

没有严格定义的非正式术语,通常表示 语言模型 拥有大量 参数。一些大型语言模型包含超过 1000 亿个参数。

单击该图标可获取其他注释。

您可能想知道什么时候 语言模型 变得足够大,可以称为 大语言模型。目前,对于参数的数量没有商定的定义线。

当前大多数大型语言模型(例如, GPT)基于 变压器 建筑学。

一套 神经元 在一个 神经网络。三种常见的图层类型如下:

例如,下图显示了一个具有一个输入层、两个隐藏层和一个输出层的神经网络:

A neural network with one input layer, two hidden layers, and one
          output layer. The input layer consists of two features. The first
          hidden layer consists of three neurons and the second hidden layer
          consists of two neurons. The output layer consists of a single node.

TensorFlow, 层数 也是 Python 函数 张量 和配置选项作为输入并产生其他张量作为输出。

图层 API (tf.layers)

用于构建 深的 神经网络由层组成。 Layers API 使您能够构建不同类型的 层数, 例如:

tf.layers.Densetf.layers.Conv2D

Layers API 遵循 喀拉斯 层 API 约定。也就是说,除了不同的前缀之外,Layers API 中的所有函数都与 Keras Layer API 中的对应函数具有相同的名称和签名。

叶子

中的任意端点 决策树。不像一个 状况,叶子不执行测试。相反,一片叶子是一种可能的预测。一片叶子也是终端 节点 的一个 推理路径

例如,以下决策树包含三个叶子:

A decision tree with two conditions leading to three leaves.

学习率

一个浮点数,告诉 梯度下降 算法如何强烈地调整每个的权重和偏差 迭代。例如,学习率为 0.3 时,调整权重和偏差的力度是学习率 0.1 的三倍。

学习率是关键 超参数。如果学习率设置得太低,训练时间就会太长。如果学习率设置太高,梯度下降往往难以达到 收敛

单击该图标可获得更多数学解释。

在每次迭代期间, 梯度下降 算法将学习率乘以梯度。所得产品称为 梯度步长

最小二乘回归

通过最小化训练的线性回归模型 L2 损失

线性模型

A 模型 分配一个 重量特征 使 预测。 (线性模型还包含 偏见。)相比之下,特征与预测的关系 深度模型 一般是 非线性

线性模型通常更容易训练并且更多 可解释的 比深度模型。然而,深度模型可以学习复杂的关系 之间 特征。

线性回归逻辑回归 是两种类型的线性模型。

y' = 7 + (-2.5)(x1) + (-1.2)(x2) + (1.4)(x3
y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5) y' = 16

线性

两个或多个变量之间的关系,可以仅通过加法和乘法来表示。

线性关系的图是一条线。

对比 非线性

线性回归

一种机器学习模型,其中以下两个条件均成立:

对比线性回归 逻辑回归。此外,将回归与 分类

逻辑回归

一种 回归模型 预测概率。逻辑回归模型具有以下特点:

例如,考虑一个逻辑回归模型,该模型计算输入电子邮件是垃圾邮件或非垃圾邮件的概率。在推理过程中,假设模型预测为 0.72。因此,该模型估计:

  • 该电子邮件有 72% 的可能性是垃圾邮件。
  • 该电子邮件有 28% 的可能性不是垃圾邮件。

逻辑回归模型使用以下两步架构:

  1. 该模型通过应用输入特征的线性函数来生成原始预测 (y')。
  2. 该模型使用该原始预测作为输入 乙状结肠函数,它将原始预测转换为 0 到 1 之间的值(不包括 0 和 1)。

与任何回归模型一样,逻辑回归模型预测一个数字。然而,这个数字通常成为二元分类模型的一部分,如下所示:

  • 如果预测的数字是 更大分类阈值,二元分类模型预测正类。
  • 如果预测的数字是 较少的 超过分类阈值,二元分类模型预测负类。

逻辑数

分类模型生成的原始(非标准化)预测向量,通常会传递给标准化函数。如果模型正在求解 多类分类 问题,logits 通常成为 软最大 功能。然后,softmax 函数生成一个(归一化)概率向量,每个可能的类别都有一个值。

对数损失

损失函数 以二进制形式使用 逻辑回归

单击该图标可查看数学结果。

以下公式计算对数损失:

$$\text{对数损失} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$
在哪里:
  • D 中的 \((x,y)\) 是包含许多标记示例的数据集,这些标记示例是 \((x,y)\) 对。
  • \(y\) 是带标签示例中的标签。由于这是逻辑回归,因此 \(y\) 的每个值都必须为 0 或 1。
  • \(y'\) 是给定 \(x\) 中的特征集的预测值(介于 0 和 1 之间,不包括)。

对数赔率

某些事件发生的几率的对数。

单击该图标可查看数学结果。

如果事件是二元概率,那么 赔率 指成功概率的比率(p) 到失败概率 (1-p)。例如,假设给定事件有 90% 的成功概率和 10% 的失败概率。在这种情况下,赔率计算如下:

$$ {\text{赔率}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $ $

对数赔率只是赔率的对数。按照惯例,“对数”指的是自然对数,但对数实际上可以是大于 1 的任何底数。按照惯例,我们示例的对数赔率是:

$$ {\text{对数赔率}} = ln(9) ~= 2.2 $$

对数赔率函数是 乙状结肠函数

长短期记忆 (LSTM)

细胞中的一种类型 循环神经网络 用于处理手写识别、机器翻译和图像字幕等应用中的数据序列。 LSTM 解决了 梯度消失问题 由于长数据序列而训练 RNN 时会发生这种情况,方法是根据 RNN 中先前单元的新输入和上下文将历史记录保留在内部记忆状态中。

损失

在此期间 训练 的一个 监督模型,衡量模型的距离 预言 是从其 标签

A 损失函数 计算损失。

损失聚合器

一种 机器学习 改进的算法 表现 的一个 模型 通过结合 预测 多个模型的组合并使用这些预测进行单个预测。因此,损失聚合器可以减少预测的方差并提高 准确性 的预测。

损失曲线

一个情节 损失 作为训练次数的函数 迭代。下图显示了典型的损耗曲线:

A Cartesian graph of loss versus training iterations, showing a
          rapid drop in loss for the initial iterations, followed by a gradual
          drop, and then a flat slope during the final iterations.

损失曲线可以帮助您确定模型何时 汇聚 或者 过拟合

损失曲线可以绘制以下所有类型的损失:

损失函数

期间 训练 或测试,计算损失的数学函数 的例子。损失函数为做出良好预测的模型返回的损失低于做出错误预测的模型的损失。

训练的目标通常是最小化损失函数返回的损失。

存在许多不同类型的损失函数。为您正在构建的模型类型选择适当的损失函数。例如:

损失面

体重与损失的图表。 梯度下降 旨在找到损失表面处于局部最小值的权重。

长短期记忆网络

中号

机器学习

一个程序或系统 火车 A 模型 来自输入数据。经过训练的模型可以根据新的(以前从未见过的)数据做出有用的预测,这些新的数据来自与训练模型所用的分布相同的分布。

机器学习也指与这些程序或系统有关的研究领域。

多数阶层

中更常见的标签 类不平衡数据集。例如,给定一个包含 99% 负标签和 1% 正标签的数据集,负标签是大多数类别。

对比 少数阶层

马尔可夫决策过程(MDP)

代表决策模型的图表,其中决策(或 行动)被用来导航一系列 状态 假设 马尔可夫性质 成立。在 强化学习,这些状态之间的转换返回一个数字 报酬

马尔可夫性质

某财产 环境,其中状态转换完全由当前隐含的信息决定 状态 以及代理人的 行动

掩码语言模型

A 语言模型 预测候选标记填充序列中空白的概率。例如,掩码语言模型可以计算候选词替换以下句子中下划线的概率:

帽子里的____又回来了。

文献通常使用字符串“MASK”而不是下划线。例如:

帽子里的“面具”又回来了。

大多数现代掩码语言模型是 双向

绘图库

一个开源 Python 2D 绘图库。 matplotlib 可帮助您可视化机器学习的不同方面。

矩阵分解

在数学中,一种查找点积近似于目标矩阵的矩阵的机制。

推荐系统,目标矩阵通常保存用户的评分 项目。例如,电影推荐系统的目标矩阵可能如下所示,其中正整数是用户评分,0 表示用户没有对电影评分:

  卡萨布兰卡 费城故事 黑豹 神奇女侠 低俗小说
用户1 5.0 3.0 0.0 2.0 0.0
用户2 4.0 0.0 0.0 1.0 5.0
用户3 3.0 1.0 4.0 5.0 0.0

电影推荐系统旨在预测未评级电影的用户评级。例如,用户 1 会喜欢 黑豹

推荐系统的一种方法是使用矩阵分解来生成以下两个矩阵:

例如,对三个用户和五个项目使用矩阵分解可以产生以下用户矩阵和项目矩阵:

用户矩阵 项目矩阵 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

用户矩阵和项目矩阵的点积生成推荐矩阵,该矩阵不仅包含原始用户评分,还包含每个用户未看过的电影的预测。例如,考虑用户 1 的评分 卡萨布兰卡,这是 5.0。推荐矩阵中该单元格对应的点积应该在 5.0 左右,它是:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是,用户1会喜欢 黑豹?取第一行和第三列对应的点积,得出预测评分为 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩阵分解通常会产生用户矩阵和项目矩阵,它们一起比目标矩阵更紧凑。

平均绝对误差 (MAE)

每个例子的平均损失 L1 损失 用来。计算平均绝对误差如下:

  1. 计算L1 一批的损失。
  2. 除L1 批次中示例数量的损失。

单击该图标可查看正式的数学运算。

$$\text{平均绝对误差} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$ 其中:

  • $n$ 是示例的数量。
  • $y$ 是标签的实际值。
  • $\hat{y}$ 是模型为 $y$ 预测的值。

例如,考虑 L 的计算1 以下批次的五个示例的损失:

示例的实际价值 模型的预测值 损失(实际与预测之间的差异)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

所以,L1 损失为 8,示例数为 5。因此,平均绝对误差为:

平均绝对误差 = L1 损失 / 示例数平均绝对误差 = 8/5 = 1.6

对比平均绝对误差 均方误差均方根误差

均方误差 (MSE)

每个例子的平均损失 L2 损失 用来。计算均方误差如下:

  1. 计算L2 一批的损失。
  2. 除L2 批次中示例数量的损失。

单击该图标可查看正式的数学运算。

$$\text{均方误差} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ 其中:
  • $n$ 是示例的数量。
  • $y$ 是标签的实际值。
  • $\hat{y}$ 是模型对 $y$ 的预测。

例如,考虑以下批次的五个示例的损失:

实际价值 模型的预测 损失 平方损失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = 左2 损失

因此,均方误差为:

均方误差 = L2 损失/样本数均方误差 = 16/5 = 3.2

均方误差是一种流行的训练 优化器,特别是对于 线性回归

对比均方误差 平均绝对误差均方根误差

TensorFlow 游乐场 使用均方误差来计算损失值。

单击该图标可查看有关异常值的更多详细信息。

异常值 强烈影响均方误差。例如,损失为 1 的损失为 1 的平方,但损失为 3 的损失的平方为 9。在上表中,损失为 3 的示例约占均方误差的 56%,而每个损失为 1 的示例仅占均方误差的 6%。

异常值对平均绝对误差的影响不如均方误差那么大。例如,损失 3 仅占平均绝对误差的约 38%。

剪裁 是防止极端异常值损害模型预测能力的一种方法。

公制

您关心的统计数据。

一个 客观的 是机器学习系统试图优化的指标。

元学习

机器学习的一个子集,用于发现或改进学习算法。元学习系统还可以训练模型从少量数据或从先前任务中获得的经验快速学习新任务。元学习算法通常尝试实现以下目标:

  • 改进/学习手工设计的功能(例如初始化器或优化器)。
  • 提高数据效率和计算效率。
  • 提高泛化能力。

元学习与 少样本学习

指标 API (tf.metrics)

tf.metrics.accuracy

小批量

一个小的、随机选择的子集 加工成一 迭代。这 批量大小 小批量的样本数通常在 10 到 1,000 个之间。

例如,假设整个训练集(完整批次)由 1,000 个示例组成。进一步假设您设置 批量大小 每个小批量为 20。因此,每次迭代确定 1,000 个示例中随机 20 个示例的损失,然后调整 重量偏见 因此。

计算小批量的损失比计算全批次中所有示例的损失要高效得多。

小批量随机梯度下降

A 梯度下降 使用的算法 小批量。换句话说,小批量随机梯度下降根据训练数据的一个小子集来估计梯度。常规的 随机梯度下降 使用大小为 1 的小批量。

最小最大损失

损失函数为 生成对抗网络,基于 交叉熵 生成数据和真实数据的分布之间的关系。

第一篇论文使用 Minimax 损失来描述生成对抗网络。

少数阶层

中不太常见的标签 类不平衡数据集。例如,给定一个包含 99% 负标签和 1% 正标签的数据集,正标签是少数类。

对比 多数阶层

单击该图标可获取更多注释。

包含一百万个样本的训练集听起来令人印象深刻。然而,如果少数群体的代表性较差,那么即使非常大的训练集也可能不够。较少关注数据集中的示例总数,而更多关注少数类中的示例数量。

如果您的数据集没有包含足够的少数类示例,请考虑使用 下采样 (第二个项目符号中的定义)补充少数群体。

机器学习

缩写为 机器学习

MNIST

由 LeCun、Cortes 和 Burges 编译的公共领域数据集,包含 60,000 张图像,每张图像都显示人类如何手动书写 0 到 9 的特定数字。每个图像都存储为 28x28 整数数组,其中每个整数都是 0 到 255 之间的灰度值(含 0 和 255)。

MNIST 是机器学习的规范数据集,通常用于测试新的机器学习方法。有关详细信息,请参阅 MNIST 手写数字数据库。

情态

高级数据类别。例如,数字、文本、图像、视频和音频是五种不同的形式。

模型

一般来说,任何处理输入数据并返回输出的数学构造。换句话说,模型是系统进行预测所需的一组参数和结构。在 监督机器学习,模型需要一个 例子 作为输入并推断 预言 作为输出。在监督机器学习中,模型有些不同。例如:

  • 线性回归模型由一组 重量 和一个 偏见
  • A 神经网络 模型包括:
  • A 决策树 模型包括:
    • 树的形状;即条件和叶子连接的模式。
    • 条件和叶子。

您可以保存、恢复或复制模型。

无监督机器学习 还生成模型,通常是一个可以将输入示例映射到最合适的函数

  f(x, y) = 3x -5xy + y2 + 17
def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

型号容量

模型可以学习的问题的复杂性。模型可以学习的问题越复杂,模型的能力就越高。模型的容量通常随着模型参数数量的增加而增加。有关分类器容量的正式定义,请参阅 VC 维度。

模型并行性

一种扩展训练或推理的方法,将一个模型的不同部分放在不同的设备上。模型并行性使得模型太大而无法适应单个设备。

模型训练

确定最佳方案的过程 模型

势头

一种复杂的梯度下降算法,其中学习步骤不仅取决于当前步骤中的导数,还取决于紧邻其之前的步骤的导数。动量涉及计算梯度随时间的指数加权移动平均值,类似于物理学中的动量。动力有时可以防止学习陷入局部最小值。

多类分类

在监督学习中, 分类 数据集包含的问题 超过两个 的标签。例如,Iris 数据集中的标签必须是以下三个类别之一:

  • 山鸢尾
  • 弗吉尼亚鸢尾
  • 杂色鸢尾

在 Iris 数据集上训练的模型可以预测新示例的 Iris 类型,该模型正在执行多类分类。

相反,精确区分两个类别的分类问题是 二元分类模型。例如,一个电子邮件模型可以预测 垃圾邮件 或者 不是垃圾邮件 是一个二元分类模型。

在聚类问题中,多类分类是指两个以上的聚类。

多类逻辑回归

使用 逻辑回归多类分类 问题。

多头自注意力

的延伸 自我关注 对输入序列中的每个位置多次应用自注意力机制。

变形金刚 引入了多头自注意力。

多模式

一种模型,其输入和/或输出包括多个 情态。例如,考虑一个同时采用图像和文本标题(两种模式)的模型 特征,并输出一个分数,指示文本标题对于图像的合适程度。因此,该模型的输入是多峰的,输出是单峰的。

多项式分类

多项式回归

多任务

一种机器学习技术,其中单个 模型 被训练执行多项 任务

多任务模型是通过对适合每个不同任务的数据进行训练来创建的。这使得模型能够学习跨任务共享信息,从而帮助模型更有效地学习。

针对多个任务训练的模型通常具有更高的泛化能力,并且在处理不同类型的数据时更加稳健。

NaN陷阱

当模型中的一个数字在训练期间变成 NaN 时,这会导致模型中的许多或所有其他数字最终变成 NaN。

NaN 是缩写 奥特 A 数。

自然语言理解

根据用户键入或所说的内容确定用户的意图。例如,搜索引擎使用自然语言理解来根据用户键入或所说的内容来确定用户正在搜索的内容。

负类

二元分类,一类被称为 积极的 另一个被称为 消极的。正类是模型正在测试的事物或事件,负类是另一种可能性。例如:

  • 医学测试中的阴性结果可能是“不是肿瘤”。
  • 电子邮件分类器中的否定类别可能是“不是垃圾邮件”。

对比 正类

负采样

神经架构搜索 (NAS)

一种自动设计架构的技术 神经网络。 NAS 算法可以减少训练神经网络所需的时间和资源。

NAS 通常使用:

  • 搜索空间,是一组可能的架构。
  • 适应度函数,衡量特定架构在给定任务上的执行情况。

NAS 算法通常从一小组可能的架构开始,随着算法更多地了解哪些架构是有效的,逐渐扩大搜索空间。适应度函数通常基于架构在训练集上的性能,并且算法通常使用 强化学习 技术。

事实证明,NAS 算法可以有效地为各种任务找到高性能架构,包括图像处理 分类、文本分类和机器翻译。

神经网络

A 模型 含有至少一个 隐藏层。 A 深度神经网络 是一种包含多个隐藏层的神经网络。例如,下图显示了包含两个隐藏层的深度神经网络。

A neural network with an input layer, two hidden layers, and an
          output layer.

神经网络中的每个神经元都连接到下一层中的所有节点。例如,在上图中,请注意第一个隐藏层中的三个神经元分别连接到第二个隐藏层中的两个神经元。

在计算机上实现的神经网络有时称为 人工神经网络 将它们与大脑和其他神经系统中发现的神经网络区分开来。

一些神经网络可以模拟不同特征和标签之间极其复杂的非线性关系。

也可以看看 卷积神经网络循环神经网络

神经元

在机器学习中,一个独特的单元 隐藏层 的一个 神经网络。每个神经元执行以下两步操作:

第一个隐藏层中的神经元接受来自特征值的输入 输入层。第一个隐藏层之外的任何隐藏层中的神经元都接受来自前一隐藏层中的神经元的输入。例如,第二隐藏层中的神经元接受来自第一隐藏层中的神经元的输入。

下图突出显示了两个神经元及其输入。

A neural network with an input layer, two hidden layers, and an
          output layer. Two neurons are highlighted: one in the first
          hidden layer and one in the second hidden layer. The highlighted
          neuron in the first hidden layer receives inputs from both features
          in the input layer. The highlighted neuron in the second hidden layer
          receives inputs from each of the three neurons in the first hidden
          layer.

神经网络中的神经元模仿大脑和神经系统其他部分的神经元的行为。

N-gram

N 个单词的有序序列。例如, 真的很疯狂 是2克。因为顺序是相关的, 真正疯狂地 与 2 克不同 真的很疯狂

此类 N 元语法的名称 例子
2 二元组或 2 元组 去,去,吃午饭,吃晚饭
3 三元组或三元组 吃太多了,三只瞎老鼠,丧钟敲响了
4 4克 在公园散步,风中扬起灰尘,男孩吃了扁豆

许多 自然语言理解 模型依靠 N-gram 来预测用户将输入或说出的下一个单词。例如,假设用户输入 三盲。基于三元组的 NLU 模型可能会预测用户接下来会输入的内容 老鼠

将 N 元语法与 词袋,它们是无序的单词集。

自然语言单元

节点(神经网络)

A 神经元 在一个 隐藏层

节点(TensorFlow 图)

TensorFlow 中的操作 图形

节点(决策树)

在一个 决策树, 任何 状况 或者 叶子

A decision tree with two conditions and three leaves.

噪音

从广义上讲,任何掩盖数据集中信号的东西。噪声可以通过多种方式引入数据中。例如:

  • 人类评分者在标注时会犯错误。
  • 人类和仪器错误记录或遗漏特征值。

非二元条件

A 状况 包含两种以上可能的结果。例如,以下非二元条件包含三种可能的结果:

A condition (number_of_legs = ?) that leads to three possible
          outcomes. One outcome (number_of_legs = 8) leads to a leaf
          named spider. A second outcome (number_of_legs = 4) leads to
          a leaf named dog. A third outcome (number_of_legs = 2) leads to
          a leaf named penguin.

非线性

两个或多个变量之间的关系,不能仅通过加法和乘法来表示。 A 线性 关系可以用一条线来表示; A 非线性 关系不能用一条线来表示。例如,考虑两个模型,每个模型将单个特征与单个标签相关联。左边的模型是线性的,右边的模型是非线性的:

Two plots. One plot is a line, so this is a linear relationship.
          The other plot is a curve, so this is a nonlinear relationship.

无反应偏差

非平稳性

其值在一个或多个维度(通常是时间)上变化的特征。例如,考虑以下非平稳性示例:

  • 特定商店出售的泳衣数量随季节而变化。
  • 特定地区收获的特定水果的数量在一年中的大部分时间里为零,但在短时间内却很大。
  • 由于气候变化,年平均气温正在发生变化。

对比 平稳性

正常化

广义上讲,就是将变量的实际取值范围转换为标准取值范围的过程,例如:

  • -1至+1
  • 0 到 1
  • 正态分布

例如,假设某个特征的实际值范围是 800 到 2,400。作为...的一部分 特征工程,您可以将实际值归一化到标准范围,例如 -1 到 +1。

标准化是一个常见的任务 特征工程。当模型中的每个数值特征都存在时,模型通常会训练得更快(并产生更好的预测) 特征向量 具有大致相同的范围。

新颖性检测

确定新的(新颖的)示例是否来自与原示例相同的分布的过程 训练集。换句话说,在训练集上训练之后,新颖性检测确定是否 新的 示例(在推理或额外训练期间)是 异常值

数值数据

特征 表示为整数或实数值。例如,房屋估价模型可能会将房屋的大小(以平方英尺或平方米为单位)表示为数值数据。将特征表示为数值数据表明该特征的值具有 数学的 与标签的关系。也就是说,房子的平方米数可能与房子的价值存在某种数学关系。

20000

数值特征有时被称为 连续特征

数值模拟

一个开源数学库,可在 Python 中提供高效的数组运算。 熊猫 是建立在 NumPy 之上的。

客观的

您的算法试图优化的指标。

目标函数

数学公式或 公制 模型旨在优化。例如,目标函数为 线性回归 通常是 均方损失。因此,在训练线性回归模型时,训练的目的是最小化均方损失。

在某些情况下,目标是 最大化 目标函数。例如,如果目标函数是准确性,则目标是最大化准确性。

也可以看看 损失

倾斜条件

在一个 决策树, A 状况 涉及多个 特征。例如,如果高度和宽度都是特征,则以下是倾斜条件:

  高度 > 宽度

离线

同义词 静止的

离线推理

模型生成一批的过程 预测 然后缓存(保存)这些预测。然后,应用程序可以从缓存中访问所需的预测,而不是重新运行模型。

例如,考虑一个每四个小时生成一次当地天气预报(预测)的模型。每次模型运行后,系统都会缓存所有本地天气预报。天气应用程序从缓存中检索天气预报。

离线推理也称为 静态推理

独热编码

将分类数据表示为向量,其中:

  • 一个元素设置为 1。
  • 所有其他元素均设置为 0。
斯堪的纳维亚半岛
  • “丹麦”
  • “瑞典”
  • “挪威”
  • “芬兰”
  • “冰岛”

One-hot 编码可以表示这五个值中的每一个,如下所示:

国家 向量
“丹麦” 1 0 0 0 0
“瑞典” 0 1 0 0 0
“挪威” 0 0 1 0 0
“芬兰” 0 0 0 1 0
“冰岛” 0 0 0 0 1

借助 one-hot 编码,模型可以根据五个国家/地区中的每一个国家学习不同的连接。

将一个特征表示为 数值数据 是 one-hot 编码的一种替代方法。不幸的是,用数字代表斯堪的纳维亚国家并不是一个好的选择。例如,考虑以下数字表示:

  • “丹麦”为 0
  • “瑞典”是1
  • “挪威”是2
  • “芬兰”是 3
  • “冰岛”是4

通过数字编码,模型将以数学方式解释原始数字,并尝试对这些数字进行训练。然而,冰岛的面积实际上并不是挪威的两倍(或一半),因此该模型会得出一些奇怪的结论。

一次性学习

一种机器学习方法,通常用于对象分类,旨在从单个训练示例中学习有效的分类器。

也可以看看 少样本学习零样本学习

一对多

给定一个包含 N 个类别的分类问题,解决方案由 N 个独立的类别组成 二元分类器——每个可能的结果都有一个二元分类器。例如,给定一个将示例分类为动物、蔬菜或矿物的模型,一对多解决方案将提供以下三个单独的二元分类器:

  • 动物与非动物
  • 蔬菜与非蔬菜
  • 矿物与非矿物

在线的

同义词 动态的

在线推理

生成 预测 一经请求。例如,假设应用程序将输入传递给模型并发出预测请求。使用在线推理的系统通过运行模型(并将预测返回到应用程序)来响应请求。

操作(操作)

在 TensorFlow 中,任何创建、操作或销毁对象的过程 张量。例如,矩阵乘法是一种将两个张量作为输入并生成一个张量作为输出的运算。

光税

梯度处理和优化库 贾克斯。 Optax 通过提供可以以自定义方式重新组合的构建块来优化参数模型(例如深度神经网络)来促进研究。其他目标包括:

  • 提供可读的、经过充分测试的、高效的核心组件实现。
  • 通过将低水平成分组合到定制优化器(或其他梯度处理组件)中来提高生产率。
  • 让任何人都可以轻松做出贡献,从而加速新想法的采用。

袋外评估(OOB评估)

一种评估产品质量的机制 决策森林 通过测试每个 决策树 反对这 例子 不是 期间使用 训练 该决策树的。例如,在下图中,请注意系统在大约三分之二的示例上训练每个决策树,然后针对其余三分之一的示例进行评估。

A decision forest consisting of three decision trees.
          One decision tree trains on two-thirds of the examples
          and then uses the remaining one-third for OOB evaluation.
          A second decision tree trains on a different two-thirds
          of the examples than the previous decision tree, and then
          uses a different one-third for OOB evaluation than the
          previous decision tree.

袋外评估是计算效率高且保守的近似值 交叉验证 机制。在交叉验证中,每一轮交叉验证都会训练一个模型(例如,在 10 倍交叉验证中训练 10 个模型)。通过 OOB 评估,可以训练单个模型。因为 套袋 在训练期间保留每棵树的一些数据,OOB 评估可以使用该数据来近似交叉验证。

优化器

一、具体实施 梯度下降 算法。流行的优化器包括:

  • 阿达格勒,代表自适应梯度下降。
  • Adam,代表 ADaptive with Momentum。

外群体同质性偏差

在比较态度、价值观、人格特质和其他特征时,倾向于认为外群体成员比内群体成员更相似。 组内 指与您经常互动的人; 外群体 指的是那些你不经常接触的人。如果您通过要求人们提供有关外群体的属性来创建数据集,那么这些属性可能比参与者为其内群体中的人员列出的属性不那么细致入微且更加刻板。

例如,小人国可能会详细描述其他小人国的房屋,并引用建筑风格、窗户、门和尺寸方面的细微差别。然而,同样的小人国可能会简单地宣称大人都住在相同的房子里。

外群体同质性偏差是一种形式 群体归因偏差

异常值检测

识别过程 异常值 在一个 训练集

异常值

与大多数其他值相距甚远的值。在机器学习中,以下任何一项都属于异常值:

  • 输入数据的值与平均值相差大约 3 个标准差。
  • 重量 具有高绝对值。
  • 预测值与实际值相差较大。
小部件价格小部件价格小部件价格

异常值通常是由拼写错误或其他输入错误引起的。在其他情况下,异常值并不是错误,而是错误。毕竟,偏离平均值五个标准差的值很少见,但也几乎不可能。

异常值经常会导致模型训练出现问题。 剪裁 是管理异常值的一种方法。

输出层

神经网络的“最后”层。输出层包含预测。

下图显示了一个小型深度神经网络,具有一个输入层、两个隐藏层和一个输出层:

A neural network with one input layer, two hidden layers, and one
          output layer. The input layer consists of two features. The first
          hidden layer consists of three neurons and the second hidden layer
          consists of two neurons. The output layer consists of a single node.

过拟合

创建一个 模型 匹配的 训练数据 如此接近以至于模型无法对新数据做出正确的预测。

正则化 可以减少过度拟合。在大型且多样化的训练集上进行训练也可以减少过度拟合。

单击该图标可获取其他注释。

过度拟合就像严格遵循您最喜欢的老师的建议。您可能会在该老师的课程中取得成功,但您可能会“过度适应”该老师的想法,而在其他课程中会失败。遵循多位老师的建议将使您能够更好地适应新情况。

过采样

重复使用 例子 的一个 少数阶层 在一个 类不平衡数据集 为了创造一个更加平衡的 训练集

例如,考虑一个 二元分类 问题,其中的比率 多数阶层 与少数民族班的比例是5000:1。如果数据集包含一百万个示例,那么数据集仅包含少数类的大约 200 个示例,这对于有效训练来说可能太少了。为了克服这一缺陷,您可以多次对这 200 个示例进行过采样(重复使用),可能会产生足够的示例用于有用的训练。

你需要小心超过 过拟合 过采样时。

对比 欠采样

打包数据

一种更有效地存储数据的方法。

打包数据通过使用压缩格式或以允许更有效地访问数据的其他方式来存储数据。打包数据最大限度地减少了访问数据所需的内存和计算量,从而实现更快的训练和更高效的模型推理。

打包数据通常与其他技术一起使用,例如 数据增强正则化,进一步提高性能 楷模

熊猫

构建于之上的面向列的数据分析 API 麻木。许多机器学习框架(包括 TensorFlow)都支持 pandas 数据结构作为输入。有关详细信息,请参阅 pandas 文档。

范围

重量偏见 模型在期间学习 训练。例如,在一个 线性回归 模型,参数包括偏差()和所有权重(w1, w2,依此类推)在以下公式中:

相比之下, 超参数 是那些值 (或超参数转换服务)提供给模型。例如, 学习率 是一个超参数。

参数服务器(PS)

跟踪模特的工作 参数 在分布式环境中。

参数更新

调整模型的操作 参数 在训练期间,通常在单次迭代内 梯度下降

偏导数

一种导数,其中除了一个变量之外的所有变量都被视为常数。例如,偏导数 f(x,y) 关于 XF 被视为函数 X 单独(即保持 y 持续的)。的偏导数 F 关于 X 只关注如何 X 正在变化并忽略方程中的所有其他变量。

参与偏差

无反应偏差的同义词。看 选择偏差

分区策略

变量划分的算法 参数服务器

帕克斯

专为大规模训练而设计的编程框架 神经网络 楷模 如此之大以至于它们跨越多个 热塑性聚氨酯 加速器芯片 切片 或者 豆荚

Pax 建立在 亚麻,这是建立在 贾克斯

Diagram indicating Pax's position in the software stack.
          Pax is built on top of JAX. Pax itself consists of three
          layers. The bottom layer contains TensorStore and Flax.
          The middle layer contains Optax and Flaxformer. The top
          layer contains Praxis Modeling Library. Fiddle is built
          on top of Pax.

感知器

一种系统(硬件或软件),它接受一个或多个输入值,对输入的加权和运行函数,并计算单个输出值。在机器学习中,函数通常是非线性的,例如 ReLU, 乙状结肠,或 tanh。例如,以下感知器依赖 sigmoid 函数来处理三个输入值:

在下图中,感知器采用三个输入,每个输入在进入感知器之前都会通过权重进行修改:

A perceptron that takes in 3 inputs, each multiplied by separate
          weights. The perceptron outputs a single value.

感知器是 神经元神经网络

表现

重载术语具有以下含义:

  • 软件工程中的传统含义。即:这个软件运行的速度(或效率)有多快?
  • 机器学习中的含义。在这里,性能回答了以下问题:这有多正确 模型?也就是说,模型的预测有多好?

排列变量重要性

一种 可变重要性 评估模型预测误差的增加 排列特征的值。排列变量重要性是一个与模型无关的指标。

困惑

衡量一个人的表现如何的一个标准 模型 正在完成它的任务。例如,假设您的任务是读取用户在智能手机键盘上键入的单词的前几个字母,并提供可能的补全单词列表。对于此任务,困惑度 P 大约是您需要提供的猜测次数,以便您的列表包含用户尝试输入的实际单词。

困惑与以下因素有关 交叉熵 如下:

管道

围绕机器学习算法的基础设施。管道包括收集数据、将数据放入训练数据文件、训练一个或多个模型以及将模型导出到生产环境。

流水线

一种形式 模型并行性 其中模型的处理被分为连续的阶段,每个阶段在不同的设备上执行。当一个阶段正在处理一批时,前一阶段可以处理下一批。

普吉特

A 贾克斯 分割代码以跨多个运行的函数 加速器芯片。用户将一个函数传递给 pjit,pjit 返回一个具有等效语义但被编译为 XLA 跨多个设备(例如 GPU 或 热塑性聚氨酯 核心)。

pjit 使用户能够对计算进行分片,而无需使用 SPMD 分区器。

普吉吉特

映射图

A 贾克斯 在多个底层硬件设备(CPU、GPU 或 TPU),具有不同的输入值。 pmap 依赖于 SPMD

政策

在强化学习中, 代理人的 概率映射从 状态行动

汇集

减少先前创建的矩阵(或多个矩阵) 卷积层 到更小的矩阵。池化通常涉及取池化区域的最大值或平均值。例如,假设我们有以下 3x3 矩阵:

The 3x3 matrix [[5,3,1], [8,2,5], [9,4,3]].

池化操作就像卷积操作一样,将该矩阵划分为多个切片,然后将该卷积操作滑动 跨步。例如,假设池化操作将卷积矩阵划分为步长为 1x1 的 2x2 切片。如下图所示,发生了四次池化操作。想象一下,每个池化操作都会选择该切片中四个值中的最大值:

The input matrix is 3x3 with the values: [[5,3,1], [8,2,5], [9,4,3]].
          The top-left 2x2 submatrix of the input matrix is [[5,3], [8,2]], so
          the top-left pooling operation yields the value 8 (which is the
          maximum of 5, 3, 8, and 2). The top-right 2x2 submatrix of the input
          matrix is [[3,1], [2,5]], so the top-right pooling operation yields
          the value 5. The bottom-left 2x2 submatrix of the input matrix is
          [[8,2], [9,4]], so the bottom-left pooling operation yields the value
          9.  The bottom-right 2x2 submatrix of the input matrix is
          [[2,5], [4,3]], so the bottom-right pooling operation yields the value
          5.  In summary, the pooling operation yields the 2x2 matrix
          [[8,5], [9,5]].

汇集有助于执行 平移不变性 在输入矩阵中。

视觉应用程序的池化更正式地称为 空间池化。时间序列应用通常将池化称为 时间池。不那么正式,池化通常被称为 二次抽样 或者 下采样

位置编码

一种添加有关信息的技术 位置 序列中的标记到标记的嵌入。 变压器型号 使用位置编码可以更好地理解序列不同部分之间的关​​系。

位置编码的常见实现使用正弦函数。 (具体来说,正弦函数的频率和幅度由序列中令牌的位置决定。)该技术使 Transformer 模型能够学习根据序列的不同部分的位置来处理它们。

正类

您正在测试的班级。

例如,癌症模型中的阳性类别可能是“肿瘤”。电子邮件分类器中的肯定类别可能是“垃圾邮件”。

对比 负类

单击该图标可获取更多注释。

期限 正类 可能会令人困惑,因为许多测试的“阳性”结果往往是不良结果。例如,许多医学测试中的阳性类别对应于肿瘤或疾病。一般来说,您希望医生告诉您:“恭喜!您的检测结果呈阴性。”无论如何,正类是测试试图找到的事件。

诚然,您正在同时测试正类和负类。

后期处理

调整模型的输出 该模型已运行。后处理可用于强制公平约束,而无需修改模型本身。

例如,可以通过设置分类阈值将后处理应用于二元分类器,以便 机会平等 通过检查某些属性来维护 真阳性率 对于该属性的所有值都是相同的。

PR AUC(PR 曲线下面积)

插值下的面积 精确率-召回率曲线,通过绘制不同值的(召回率、精度)点来获得 分类阈值。根据计算方式,PR AUC 可能相当于 平均精度 模型的。

实践

核心、高性能 ML 库 帕克斯。 Praxis 通常被称为“图层库”。

Praxis 不仅包含 Layer 类的定义,还包含其大多数支持组件,包括:

  • 数据输入
  • 配置库(HParam 和 小提琴

Praxis 提供了 Model 类的定义。

精确

一个指标 分类模型 这回答了以下问题:

当模型预测 正类,预测正确的百分比是多少?

公式如下:

在哪里:

  • 真阳性意味着模型 正确地 预测了正类。
  • 误报意味着模型 错误地 预测了正类。

例如,假设模型做出了 200 个正面预测。在这 200 个积极预测中:

  • 150 个为真阳性。
  • 50 个为误报。

在这种情况下:

对比 准确性记起

精确率-召回率曲线

一条曲线 精确记起 在不同的 分类阈值

预言

模型的输出。例如:

  • 二元分类模型的预测要么是正类,要么是负类。
  • 多类分类模型的预测是一类。
  • 线性回归模型的预测是一个数字。

预测偏差

表示平均值相距多远的值 预测 是从平均值 标签 在数据集中。

不要与 偏差项 在机器学习模型中或与 道德和公平方面的偏见

预测均等

A 公平性度量 检查对于给定的分类器是否 精确 所考虑的亚组的比率相同。

例如,如果一个预测大学录取的模型对于小人国人和大人来说准确率相同,那么它就满足国籍的预测平等。

预测奇偶校验有时也称为 预测利率平价

有关预测奇偶性的更详细讨论,请参阅“公平性定义解释”(第 3.2.1 节)。

预测利率平价

另一个名字为 预测均等

预处理

在将数据用于训练模型之前对其进行处理。预处理可以像从英语文本语料库中删除英语词典中未出现的单词一样简单,也可以像以消除尽可能多的相关属性的方式重新表达数据点一样复杂。 敏感属性 尽可能。预处理可以帮助满足 公平约束

预训练模型

模型或模型组件(例如 嵌入向量)已经接受过训练。有时,您会将预先训练的嵌入向量输入到 神经网络。其他时候,您的模型将自行训练嵌入向量,而不是依赖于预先训练的嵌入。

先验信念

在开始训练之前您对数据的看法。例如, L2 正则化 依赖于先前的信念 重量 应该很小并且正态分布在零附近。

概率回归模型

A 回归模型 不仅使用 重量 对于每个 特征,还有这些权重的不确定性。概率回归模型生成预测以及该预测的不确定性。例如,概率回归模型可能会产生 325 的预测,标准差为 12。有关概率回归模型的更多信息,请参阅tensorflow.org 上的此 Colab。

代理(敏感属性)

用作替代的属性 敏感属性。例如,个人的邮政编码可以用作其收入、种族或民族的代表。

代理标签

用于近似标签的数据在数据集中不直接可用。

例如,假设您必须训练一个模型来预测员工的压力水平。您的数据集包含大量预测特征,但不包含名为 压力水平。 你毫不畏惧,选择“工作场所事故”作为压力水平的代理标签。毕竟,处于高压力下的员工比平静的员工更容易发生事故。或者他们有吗?也许工作场所事故的起起落落实际上有多种原因。

作为第二个例子,假设你想要 在下雨吗? 作为数据集的布尔标签,但您的数据集不包含降雨数据。如果有照片,您可以建立人们撑着雨伞的照片作为代理标签 在下雨吗? 这是一个好的代理标签吗?有可能,但在某些文化中,人们可能更愿意携带雨伞来防晒而不是防雨。

代理标签通常是不完美的。如果可能,请选择实际标签而不是代理标签。也就是说,当实际标签不存在时,请非常仔细地选择代理标签,选择最不可怕的代理标签候选者。

纯函数

其输出仅基于其输入的函数,并且没有副作用。具体来说,纯函数不使用或更改任何全局状态,例如文件的内容或函数外部变量的值。

纯函数可用于创建线程安全代码,这在分片时很有用 模型 跨多个代码 加速器芯片

贾克斯的 函数转换方法要求输入函数是纯函数。

Q函数

强化学习,预测预期的函数 返回 从采取 行动 在一个 状态 然后按照给定的 政策

Q 函数也称为 状态-动作值函数

Q-学习

强化学习,一种算法允许 代理人 来学习最优的 Q函数 的一个 马尔可夫决策过程 通过应用 贝尔曼方程。马尔可夫决策过程模型 环境

分位数

分位数分桶

将特征的值分配到 水桶 以便每个桶包含相同(或几乎相同)数量的示例。例如下图,将44个点分为4个桶,每个桶包含11个点。为了使图中的每个桶包含相同数量的点,一些桶跨越不同宽度的 x 值。

44 data points divided into 4 buckets of 11 points each.
          Although each bucket contains the same number of data points,
          some buckets contain a wider range of feature values than other
          buckets.

量化

可以通过以下两种方式使用的重载术语:

队列

TensorFlow 手术 实现队列数据结构。通常用于 I/O。

随机森林

一个 合奏决策树 其中每个决策树都用特定的随机噪声进行训练,例如 套袋

随机森林是一种 决策森林

随机策略

强化学习, A 政策 选择一个 行动 随机的。

排行

一种 监督学习 其目标是订购项目列表。

等级(序数)

机器学习问题中类的顺序位置,将类从最高到最低进行分类。例如,行为排名系统可以将狗的奖励从最高(牛排)到最低(枯萎的羽衣甘蓝)排名。

秩(张量)

a 中的维数 张量。例如,标量的秩为 0,向量的秩为 1,矩阵的秩为 2。

不要混淆 等级(序数)

评价者

一个提供 标签 为了 例子。 “注释者”是评估者的别称。

记起

一个指标 分类模型 这回答了以下问题:

公式如下:

\[\text{召回} = \frac{\text{真阳性}} {\text{真阳性} + \text{假阴性}} \]

在哪里:

  • 真阳性意味着模型 正确地 预测了正类。
  • 假阴性意味着模型 错误地 预测了 负类

例如,假设您的模型对示例进行了 200 个预测,其中真实值是正类。在这 200 个预测中:

  • 180 为真阳性。
  • 20 例为假阴性。

在这种情况下:

\[\text{召回} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

召回率 = TP / (TP + FN) 召回率 = 30 / (30 + 20) = 0.6 = 60%
准确率 = (TP + TN) / (TP + TN + FP + FN) 准确率 = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

推荐系统

为每个用户选择相对较小的一组所需的系统 项目 来自一个大语料库。例如,视频推荐系统可能会从 100,000 个视频的语料库中推荐两个视频,选择 卡萨布兰卡费城故事 对于一个用户,以及 神奇女侠黑豹 为了另一个。视频推荐系统的推荐可能基于以下因素:

  • 类似用户评分或观看的电影。
  • 类型、导演、演员、目标人群……

修正线性单元 (ReLU)

一个 激活函数 具有以下行为:

  • 如果输入为负或零,则输出为 0。
  • 如果输入为正,则输出等于输入。

例如:

  • 如果输入为-3,则输出为0。
  • 如果输入为+3,则输出为3.0。

这是 ReLU 的图:

A cartesian plot of two lines. The first line has a constant
          y value of 0, running along the x-axis from -infinity,0 to 0,-0.
          The second line starts at 0,0. This line has a slope of +1, so
          it runs from 0,0 to +infinity,+infinity.

ReLU 是一种非常流行的激活函数。尽管其行为简单,ReLU 仍然使神经网络能够学习 非线性 之间的关系 特征标签

循环神经网络

A 神经网络 这是有意运行多次,其中每次运行的部分内容都会输入到下一次运行中。具体来说,上一次运行的隐藏层将部分输入提供给下一次运行中的同一隐藏层。循环神经网络对于评估序列特别有用,因此隐藏层可以从神经网络先前运行的序列的早期部分中学习。

例如,下图显示了运行四次的循环神经网络。请注意,第一次运行中在隐藏层中学到的值将成为第二次运行中相同隐藏层的输入的一部分。类似地,第二次运行中隐藏层中学习到的值将成为第三次运行中同一隐藏层输入的一部分。通过这种方式,循环神经网络逐渐训练和预测整个序列的含义,而不仅仅是单个单词的含义。

An RNN that runs four times to process four input words.

回归模型

非正式地说,是生成数值预测的模型。 (相比之下,一个 分类模型 生成类别预测。)例如,以下都是回归模型:

  • 预测某栋房屋价值的模型,例如 423,000 欧元。
  • 预测某棵树预期寿命的模型,例如 23.2 年。
  • 预测某个城市未来 6 小时内降雨量的模型,例如 0.18 英寸。

两种常见类型的回归模型是:

并非每个输出数值预测的模型都是回归模型。在某些情况下,数值预测实际上只是一个恰好具有数字类名称的分类模型。例如,预测数字邮政编码的模型是分类模型,而不是回归模型。

正则化

任何减少的机制 过拟合。流行的正则化类型包括:

正则化也可以定义为对模型复杂性的惩罚。

单击该图标可获取更多注释。

正则化是违反直觉的。通常增加正则化 增加 训练损失,这很令人困惑,因为,这不是目标 最小化 训练损失?

事实上,没有。目标不是最小化训练损失。目标是对现实世界的例子做出出色的预测。值得注意的是,尽管增加正则化会增加训练损失,但它通常有助于模型对现实世界的示例做出更好的预测。

正则化率

指定相对重要性的数字 正则化 在训练中。提高正则化率会降低 过拟合 但可能会降低模型的预测能力。相反,减少或省略正则化率会增加过度拟合。

单击该图标可查看数学结果。

正则化率通常用希腊字母 lambda 表示。以下简化 损失 方程显示了 lambda 的影响:

$$\text{最小化(损失函数 + }\lambda\text{(正则化))}$$
在哪里 正则化 是任何正规化机制,包括;

强化学习(RL)

学习最优算法的一系列算法 政策,其目标是最大化 返回 当与一个人互动时 环境。例如,大多数游戏的最终奖励是胜利。通过评估最终导致胜利的先前游戏动作序列和最终导致失败的序列,强化学习系统可以成为玩复杂游戏的专家。

ReLU

重播缓冲区

数据质量网络- 类似算法,代理使用的内存来存储状态转换以供使用 体验回放

报告偏见

事实上,人们书写行为、结果或属性的频率并不能反映他们在现实世界中的频率,也不能反映某个属性对某一类个体的特征程度。报告偏差会影响机器学习系统学习的数据的组成。

例如,在书籍中,这个词 笑了呼吸的。从书籍语料库中估计笑和呼吸的相对频率的机器学习模型可能会确定笑比呼吸更常见。

表示

将数据映射到有用的过程 特征

重新排名

的最后阶段 推荐系统,在此期间,评分项目可能会根据某些其他(通常是非 ML)算法重新评分。重新排名评估由生成的项目列表 得分 阶段,采取以下行动:

  • 消除用户已经购买的商品。
  • 提高新鲜物品的分数。

检索增强生成

大型语言模型 (LLM) 应用程序中常用的软件架构。使用检索增强生成的常见动机包括:

  • 提高模型生成的响应的事实准确性
  • 让模型获得未经训练的知识
  • 改变模型使用的知识
  • 使模型能够引用来源

例如,假设化学应用程序使用 PaLM API 生成与用户查询相关的摘要。当应用程序的后端收到查询时,后端首先搜索(“检索”)与用户查询相关的数据,将相关化学数据附加(“增强”)到用户的查询中,并指示法学硕士创建基于关于附加数据。

返回

在强化学习中,给定一定的策略和一定的状态,回报是所有策略和状态的总和 奖励 认为 代理人 期望在遵循时收到 政策 来自 状态 到最后 插曲。代理通过根据获得奖励所需的状态转换对奖励进行折扣来解释预期奖励的延迟性质。

因此,如果折扣因子为 \(\gamma\),且 \(r_0, \ldots, r_{N}\) 表示直到剧集结束为止的奖励,则收益计算如下:

报酬

在强化学习中,采取的数值结果 行动 在一个 状态,定义为 环境

岭正则化

同义词 L2 正则化。期限 岭正则化 在纯统计环境中更常用,而 L2 正则化 在机器学习中更常用。

循环神经网络

ROC(接收器工作特性)曲线

的图表 真阳性率误报率 对于不同的 分类阈值 在二元分类中。

ROC 曲线的形状表明二元分类模型能够区分正类和负类。例如,假设二元分类模型完美地将所有负类与所有正类分开:

A number line with 8 positive examples on the right side and
          7 negative examples on the left.

前述模型的 ROC 曲线如下所示:

An ROC curve. The x-axis is False Positive Rate and the y-axis
          is True Positive Rate. The curve has an inverted L shape. The curve
          starts at (0.0,0.0) and goes straight up to (0.0,1.0). Then the curve
          goes from (0.0,1.0) to (1.0,1.0).

相比之下,下图显示了一个糟糕的模型的原始逻辑回归值,该模型根本无法将负类与正类分开:

A number line with positive examples and negative classes
          completely intermixed.

该模型的 ROC 曲线如下所示:

An ROC curve, which is actually a straight line from (0.0,0.0)
          to (1.0,1.0).

同时,回到现实世界,大多数二元分类模型在一定程度上分离正类和负类,但通常并不完美。因此,典型的 ROC 曲线介于两个极端之间:

An ROC curve. The x-axis is False Positive Rate and the y-axis
          is True Positive Rate. The ROC curve approximates a shaky arc
          traversing the compass points from West to North.

ROC 曲线上最接近 (0.0,1.0) 的点理论上可确定理想的分类阈值。然而,其他几个现实问题会影响理想分类阈值的选择。例如,也许假阴性比假阳性造成的痛苦要大得多。

一个称为 曲线下面积 将 ROC 曲线汇总为单个浮点值。

开始的 节点 (首先 状况) 在一个 决策树。按照惯例,图表将根放在决策树的顶部。例如:

A decision tree with two conditions and three leaves. The
          starting condition (x > 2) is the root.

根目录

您指定用于托管多个模型的 TensorFlow 检查点和事件文件的子目录的目录。

均方根误差 (RMSE)

的平方根 均方误差

旋转不变性

在图像分类问题中,算法即使在图像方向发生变化时也能成功对图像进行分类的能力。例如,该算法仍然可以识别网球拍,无论它是向上、向侧面还是向下。请注意,旋转不变性并不总是可取的;例如,颠倒的 9 不应归类为 9。

也可以看看 平移不变性尺寸不变性

R平方

A 回归 指标表明有多少变化 标签 是由于单个功能或功能集造成的。 R 平方是 0 到 1 之间的值,您可以将其解释如下:

  • R 平方为 0 意味着标签的任何变化都不是由特征集引起的。
  • R 平方为 1 意味着标签的所有变化都是由特征集引起的。
  • 0 到 1 之间的 R 平方表示可以从特定特征或特征集预测标签变化的程度。例如,R 平方为 0.10 意味着标签中 10% 的方差是由特征集引起的,R 平方为 0.20 意味着 20% 是由特征集引起的,依此类推。

R 平方是模型预测值与预测值之间 Pearson 相关系数的平方 基本事实

S

抽样偏差

放回抽样

一种从一组候选项目中挑选项目的方法,其中同一项目可以被多次挑选。短语“替换”是指在每次选择之后,将所选项目返回到候选项目池中。逆法, 不放回抽样,意味着候选项目只能被选择一次。

例如,考虑以下水果组:

水果 = {猕猴桃、苹果、梨、无花果、樱桃、酸橙、芒果}
如图
水果 = {猕猴桃、苹果、梨、无花果、樱桃、酸橙、芒果}
如图
无花果
水果 = {猕猴桃、苹果、梨、樱桃、酸橙、芒果}

单击该图标可获取更多注释。

这个单词 替代品放回抽样 让很多人感到困惑。用英语讲, 替代品 意思是“替代”。然而, 放回抽样 实际上使用法语定义 替代品,意思是“把东西放回去”。英语单词 替代品 被翻译为法语单词 更换

保存的模型

保存和恢复 TensorFlow 模型的推荐格式。 SavedModel 是一种语言中立、可恢复的序列化格式,使更高级别的系统和工具能够生成、使用和转换 TensorFlow 模型。

有关完整详细信息,请参阅《TensorFlow 程序员指南》中的“保存和恢复”一章。

节省者

负责保存模型检查点的 TensorFlow 对象。

标量

可以表示为的单个数字或单个字符串 张量 0. 例如,以下代码行每行在 TensorFlow 中创建一个标量:

品种 = tf.Variable("poodle", tf.string) 温度 = tf.Variable(27, tf.int16) 精度 = tf.Variable(0.982375101275, tf.float64)

缩放

任何改变标签和/或特征值范围的数学变换或技术。某些形式的缩放对于转换非常有用,例如 正常化

在机器学习中有用的常见扩展形式包括:

  • 线性缩放,通常使用减法和除法的组合将原始值替换为 -1 到 +1 或 0 到 1 之间的数字。
  • 对数缩放,用对数替换原始值。
  • Z 分数标准化,它将原始值替换为浮点值,该浮点值表示与该特征平均值的标准差数。

scikit学习

一个流行的开源机器学习平台。请参阅 scikit-learn.org。

得分

的一部分 推荐系统 为生产的每个项目提供一个值或排名 候选人一代 阶段。

选择偏差

由于选择过程会在数据中观察到的样本与未观察到的样本之间产生系统差异,因此从采样数据中得出的结论存在错误。存在以下形式的选择偏差:

  • 覆盖偏差:数据集中表示的人口与机器学习模型预测的人口不匹配。
  • 抽样偏差:数据不是从目标组中随机收集的。
  • 无反应偏差 (也叫 参与偏差):某些群体的用户选择退出调查的比例与其他群体的用户不同。

例如,假设您正在创建一个机器学习模型来预测人们对电影的喜爱程度。为了收集训练数据,您向放映电影的剧院前排的每个人分发一份调查。顺便说一句,这听起来可能是一种收集数据集的合理方法;但实际上,这似乎是一种合理的收集数据集的方式。然而,这种形式的数据收集可能会引入以下形式的选择偏差:

  • 覆盖偏差:通过从选择观看电影的人群中进行抽样,您的模型的预测可能无法推广到尚未对电影表达出这种兴趣程度的人。
  • 抽样偏差:您没有从目标人群(电影中的所有人)中随机抽样,而是仅对前排的人进行了抽样。坐在前排的人可能比其他排的人对这部电影更感兴趣。
  • 无回应偏差:一般来说,持强烈意见的人往往比持温和意见的人更频繁地回应选择性调查。由于电影调查是可选的,因此响应更有可能形成双峰分布而不是正态(钟形)分布。

自注意力(也称为自注意力层)

转换嵌入序列的神经网络层(例如, 代币 嵌入)到另一个嵌入序列中。输出序列中的每个嵌入都是通过集成来自输入序列元素的信息来构造的 注意力 机制。

自己 部分 自我关注 指的是关注自身而不是其他上下文的序列。自注意力是主要构建模块之一 变形金刚 并使用字典查找术语,例如“查询”、“键”和“值”。

自注意力层以一系列输入表示开始,每个输入表示一个单词。单词的输入表示可以是简单的嵌入。对于输入序列中的每个单词,网络都会对该单词与整个单词序列中每个元素的相关性进行评分。相关性分数决定了单词的最终表示包含多少其他单词的表示。

例如,考虑以下句子:

那只动物没有过马路,因为它太累了。

下图(来自 Transformer: A Novel Neural Network Architecture for Language Understanding)显示了代词的自注意力层的注意力模式 ,每行的深度表示每个单词对表示的贡献程度:

The following sentence appears twice: 'The animal didn't cross the
          street because it was too tired.'  Lines connect the word 'it' in
          one sentence to five tokens ('The', 'animal', 'street', 'it', and
          the period) in the other sentence.  The line between 'it' and
          'animal' is strongest.

自注意力层突出显示与“it”相关的单词。在这种情况下,注意力层学会了突出显示以下单词: 可能指的是,将最高权重分配给 动物

对于一个序列 n 代币,自注意力变换一系列嵌入 n 单独的时间,在序列中的每个位置一次。

另请参阅 注意力多头自注意力

自我监督学习

一系列用于转换的技术 无监督机器学习 问题转化为 监督机器学习 通过创建代理来解决问题 标签未标记的示例

一些 变压器基于模型,例如 伯特 使用自我监督学习。

自我监督训练是一种 半监督学习 方法。

自我训练

的一个变体 自我监督学习 当满足以下所有条件时,这特别有用:

自我训练的工作原理是迭代以下两个步骤,直到模型停止改进:

  1. 使用 监督机器学习 在标记的示例上训练模型。
  2. 使用步骤 1 中创建的模型对未标记的示例生成预测(标签),将置信度较高的示例移动到具有预测标签的标记示例中。

请注意,步骤 2 的每次迭代都会添加更多带标签的示例,供步骤 1 进行训练。

半监督学习

使用数据训练模型,其中一些训练示例具有标签,而其他训练示例则没有。半监督学习的一种技术是推断未标记示例的标签,然后根据推断的标签进行训练以创建新模型。如果获取标签的成本昂贵但未标记的示例很多,那么半监督学习可能会很有用。

自我训练 是半监督学习的一种技术。

敏感属性

出于法律、道德、社会或个人原因可能受到特殊考虑的人类属性。

情绪分析

使用统计或机器学习算法来确定群体对服务、产品、组织或主题的总体态度(积极或消极)。例如,使用 自然语言理解,一种算法可以对大学课程的文本反馈进行情感分析,以确定学生普遍喜欢或不喜欢该课程的程度。

序列模型

输入具有顺序依赖性的模型。例如,根据之前观看的视频序列预测下一个观看的视频。

序列到序列任务

转换输入序列的任务 代币 到令牌的输出序列。例如,两种流行的序列到序列任务是:

  • 译者:
    • 输入序列示例:“我爱你。”
    • 示例输出序列:“Je t'aime”。
  • 问题解答:
    • 输入序列示例:“我在纽约需要车吗?”
    • 示例输出序列:“不。请把你的车停在家里。”

服务

同义词 推断

形状(张量)

每个张量中的元素数量。该形状表示为整数列表。例如,以下二维张量的形状为[3,4]:

[[5,7,6,4],[2,9,4,8​​],[3,6,5,1]]

TensorFlow 使用行主(C 风格)格式来表示维度顺序,这就是 TensorFlow 中的形状是 [3,4] 而不是 [4,3] 的原因。换句话说,在二维 TensorFlow Tensor 中,形状为 [行数, 列数]。

收缩

A 超参数梯度提升 控制 过拟合。梯度提升中的收缩类似于 学习率梯度下降。收缩率是 0.0 到 1.0 之间的小数值。较低的收缩值比较大的收缩值更能减少过度拟合。

乙状结肠函数

将输入值“压缩”到受限范围(通常为 0 到 1 或 -1 到 +1)的数学函数。也就是说,您可以将任何数字(二、一百万、负十亿等)传递给 sigmoid,并且输出仍将在约束范围内。 sigmoid 激活函数图如下所示:

A two-dimensional curved plot with x values spanning the domain
          -infinity to +positive, while y values span the range almost 0 to
          almost 1. When x is 0, y is 0.5. The slope of the curve is always
          positive, with the highest slope at 0,0.5 and gradually decreasing
          slopes as the absolute value of x increases.

sigmoid 函数在机器学习中有多种用途,包括:

单击该图标可查看数学结果。

输入数字的 sigmoid 函数 X 有以下公式:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

在机器学习中, X 一般是一个 加权和

相似性度量

聚类 算法,用于确定任意两个示例有多相似(有多相似)的度量。

单程序/多数据(SPMD)

一种并行技术,其中相同的计算在不同设备上的不同输入数据上并行运行。 SPMD 的目标是更快地获得结果。这是最常见的并行编程风格。

尺寸不变性

在图像分类问题中,算法即使在图像大小发生变化时也能成功对图像进行分类的能力。例如,无论猫消耗200万像素还是20万像素,该算法仍然可以识别猫。请注意,即使是最好的图像分类算法在尺寸不变性方面仍然存在实际限制。例如,算法(或人类)不太可能对仅消耗 20 个像素的猫图像进行正确分类。

也可以看看 平移不变性旋转不变性

素描

无监督机器学习,一类对示例执行初步相似性分析的算法。草图算法使用局部敏感哈希函数来识别可能相似的点,然后将它们分组到桶中。

绘制草图减少了大型数据集相似性计算所需的计算量。我们不是计算数据集中每对示例的相似度,而是仅计算每个桶中每对点的相似度。

软最大

确定某个类别中每个可能类别的概率的函数 多类分类模型。概率加起来恰好为 1.0。例如,下表显示了softmax如何分配各种概率:

图像是一个... 可能性
.85
.13
.02

Softmax 也称为 完整的softmax

[1.2、2.5、1.8]

稀疏特征

A 特征 其值主要为零或空。例如,包含单个 1 值和一百万个 0 值的特征是稀疏的。相比之下,一个 密集特征 具有主要不为零或空的值。

在机器学习中,数量惊人的特征是稀疏特征。分类特征通常是稀疏特征。例如,在森林中 300 种可能的树种中,一个示例可能仅识别出其中一种 枫树。或者,在视频库中数百万个可能的视频中,一个示例可能仅识别“卡萨布兰卡”。

在模型中,通常用以下方式表示稀疏特征 独热编码。如果 one-hot 编码很大,你可以放一个 嵌入层 在 one-hot 编码之上以提高效率。

稀疏表示

仅存储 职位 稀疏特征中的非零元素。

物种
10枫木

A vector in which positions 0 through 23 hold the value 0, position
          24 holds the value 1, and positions 25 through 35 hold the value 0.

枫枫
24

请注意,稀疏表示比独热表示更加紧凑。

我的狗是一只很棒的狗
0:1 26100:2 45770:1 58906:1 91520:1

如果您感到困惑,请单击该图标。

“稀疏表示”这个术语让很多人感到困惑,因为稀疏表示本身就是 不是稀疏向量。相反,稀疏表示实际上是 稀疏向量的稠密表示。同义词 索引表示 比“稀疏表示”更清晰一些。

稀疏向量

值大部分为零的向量。也可以看看 稀疏特征稀疏性

稀疏性

向量或矩阵中设置为零(或空)的元素数量除以该向量或矩阵中的条目总数。例如,考虑一个 100 个元素的矩阵,其中 98 个单元格包含零。稀疏度的计算如下:

特征稀疏 指的是特征向量的稀疏性; 模型稀疏性 指的是模型权重的稀疏性。

空间池化

分裂

在一个 决策树, 的另一个名称 状况

分离器

在训练一个 决策树,负责寻找最佳的例程(和算法) 状况 在每一个 节点

SPMD

平方铰链损耗

的平方 铰链损失。平方铰链损失对异常值的惩罚比常规铰链损失更严厉。

平方损失

同义词 L2 损失

阶段性训练

在一系列离散阶段中训练模型的策略。目标可以是加快训练过程,也可以是实现更好的模型质量。

渐进式堆叠方法的图示如下所示:

  • 第 1 阶段包含 3 个隐藏层,第 2 阶段包含 6 个隐藏层,第 3 阶段包含 12 个隐藏层。
  • 第 2 阶段开始使用第 1 阶段的 3 个隐藏层中学习的权重进行训练。第 3 阶段开始使用第 2 阶段的 6 个隐藏层中学习的权重进行训练。

Three stages, which are labeled 'Stage 1', 'Stage 2', and 'Stage 3'.
          Each stage contains a different number of layers: Stage 1 contains
          3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.
          The 3 layers from Stage 1 become the first 3 layers of Stage 2.
          Similarly, the 6 layers from Stage 2 become the first 6 layers of
          Stage 3.

也可以看看 流水线

状态

在强化学习中,描述环境当前配置的参数值, 代理人 用于选择一个 行动

状态-动作值函数

同义词 Q函数

静止的

某件事只做一次而不是连续做。条款 静止的离线 是同义词。以下是常见用途 静止的离线 在机器学习中:

  • 静态模型 (或者 离线模式)是训练一次然后使用一段时间的模型。
  • 静态训练 (或者 线下培训)是训练静态模型的过程。
  • 静态推理 (或者 离线推理)是模型一次生成一批预测的过程。

对比 动态的

静态推理

平稳性

一种特征,其值不会在一个或多个维度(通常是时间)上发生变化。例如,某个特征在 2021 年和 2023 年的值看起来大致相同,则表现出平稳性。

在现实世界中,很少有特征表现出平稳性。甚至与稳定性同义的特征(如海平面)也会随着时间的推移而变化。

对比 非平稳性

一个前向传播和一个反向传播

反向传播 有关前向传播和后向传播的更多信息。

一步的大小

同义词 学习率

随机梯度下降 (SGD)

A 梯度下降 算法其中 批量大小 是一。换句话说,SGD 在从一个样本中均匀随机选择的单个样本上进行训练。 训练集

跨步

在卷积运算或池化中,下一系列输入切片的每个维度的增量。例如,以下动画演示了卷积运算期间的 (1,1) 步幅。因此,下一个输入切片从前一个输入切片右侧的一个位置开始。当操作到达右边缘时,下一个切片一直向左移动,但向下一个位置。

An input 5x5 matrix and a 3x3 convolutional filter. Because the
     stride is (1,1), a convolutional filter will be applied 9 times. The first
     convolutional slice evaluates the top-left 3x3 submatrix of the input
     matrix. The second slice evaluates the top-middle 3x3
     submatrix. The third convolutional slice evaluates the top-right 3x3
     submatrix.  The fourth slice evaluates the middle-left 3x3 submatrix.
     The fifth slice evaluates the middle 3x3 submatrix. The sixth slice
     evaluates the middle-right 3x3 submatrix. The seventh slice evaluates
     the bottom-left 3x3 submatrix.  The eighth slice evaluates the
     bottom-middle 3x3 submatrix. The ninth slice evaluates the bottom-right 3x3
     submatrix.

前面的示例演示了二维跨步。如果输入矩阵是三维的,则步幅也将是三维的。

结构风险最小化(SRM)

平衡两个目标的算法:

  • 渴望建立最具预测性的模型(例如,最低的损失)。
  • 希望保持模型尽可能简单(例如,强正则化)。

例如,在训练集上最小化损失+正则化的函数是结构风险最小化算法。

二次抽样

概括

在 TensorFlow 中,在特定时刻计算的一个值或一组值 ,通常用于在训练期间跟踪模型指标。

监督机器学习

训练一个 模型特征 以及他们对应的 标签。监督机器学习类似于通过研究一组问题及其相应答案来学习一门学科。掌握问题和答案之间的映射后,学生可以为同一主题的新(以前从未见过的)问题提供答案。

综合特征

A 特征 不存在于输入特征中,而是由其中一个或多个特征组合而成。创建合成特征的方法包括:

ABC

创建的功能 正常化 或者 缩放 单独的特征不被视为合成特征。

时间

T5

文本到文本 迁移学习 模型 由 Google AI 于 2020 年推出。T5 是 编码器-解码器 模型,基于 变压器 架构,在非常大的数据集上进行训练。它在各种自然语言处理任务中都很有效,例如生成文本、翻译语言以及以对话方式回答问题。

T5 的名字来源于“文本到文本传输转换器”中的五个 T。

T5X

一个开源的, 机器学习 旨在构建和 火车 大规模自然语言处理(NLP)模型。 T5 在 T5X 代码库上实现(构建于 贾克斯亚麻)。

表格Q学习

强化学习,实施 Q-学习 通过使用表来存储 Q函数 对于每一个组合 状态行动

目标

同义词 标签

目标网络

深度 Q 学习,一个神经网络,它是主神经网络的稳定近似,其中主神经网络实现 Q函数 或一个 政策。然后,您可以根据目标网络预测的 Q 值来训练主网络。因此,您可以防止主网络根据其自身预测的 Q 值进行训练时出现的反馈循环。通过避免这种反馈,可以提高训练稳定性。

任务

可以使用机器学习技术解决的问题,例如:

时间数据

不同时间点记录的数据。例如,一年中每一天记录的冬季外套销售量将是时间数据。

张量

TensorFlow 程序中的主要数据结构。张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以保存整数、浮点或字符串值。

张量板

显示一个或多个 TensorFlow 程序执行期间保存的摘要的仪表板。

TensorFlow

大规模、分布式的机器学习平台。该术语还指 TensorFlow 堆栈中的基础 API 层,它支持数据流图上的通用计算。

尽管 TensorFlow 主要用于机器学习,但您也可以将 TensorFlow 用于需要使用数据流图进行数值计算的非 ML 任务。

TensorFlow 游乐场

一个直观地展示差异的程序 超参数 影响模型(主要是神经网络)训练。请访问 http://playground.tensorflow.org 来尝试 TensorFlow Playground。

TensorFlow 服务

在生产中部署经过训练的模型的平台。

张量处理单元 (TPU)

一种专用集成电路 (ASIC),可优化机器学习工作负载的性能。这些 ASIC 被部署为多个 TPU芯片 在一个 TPU装置

张量秩

张量形状

元素个数a 张量 包含在各个维度。例如,[5, 10] 张量在一个维度上具有 5 的形状,在另一维度上具有 10 的形状。

张量大小

标量 a 的总数 张量 包含。例如,[5, 10] 张量的大小为 50。

张量商店

用于高效读取和写入大型多维数组的库。

终止条件

强化学习,确定何时的条件 插曲 结束,例如当代理达到某个状态或超过状态转换的阈值数量时。例如,在井字棋(也称为圈和十字)中,当玩家标记三个连续空格或标记所有空格时,情节终止。

测试

在一个 决策树, 的另一个名称 状况

测试损失

A 公制 代表一个模型的 损失 反对这 测试集。当建造一个 模型,您通常会尝试最小化测试损失。这是因为低测试损耗是比低测试损耗更强的质量信号。 训练损失 或低 验证损失

测试损失与训练损失或验证损失之间的巨大差距有时表明您需要增加 正则化率

测试集

的一个子集 数据集 保留用于测试训练有素的 模型

传统上,您将数据集中的示例分为以下三个不同的子集:

  • 一个测试集

数据集中的每个示例应仅属于前面的子集之一。例如,单个示例不应同时属于训练集和测试集。

训练集和验证集都与模型的训练密切相关。因为测试集仅与训练间接相关, 测试损失 是一个偏见更少、质量更高的指标 训练损失 或者 验证损失

文本跨度

货物=“现在就乖”

tf.示例

用于描述机器学习模型训练或推理的输入数据的标准协议缓冲区。

tf.keras

一个实现 喀拉斯 集成为 TensorFlow

阈值(对于决策树)

在一个 轴对齐条件,a 的值 特征 正在被比较。例如,75是以下条件下的阈值:

等级 >= 75

时间序列分析

机器学习和统计学的一个子领域,用于分析 时间数据。许多类型的机器学习问题都需要时间序列分析,包括分类、聚类、预测和异常检测。例如,您可以使用时间序列分析,根据历史销售数据按月预测冬季外套的未来销量。

时间步长

一个“展开”的单元格内 循环神经网络。例如,下图显示了三个时间步(用下标 t-1、t 和 t+1 标记):

Three timesteps in a recurrent neural network. The output of the
          first timestep becomes input to the second timestep. The output
          of the second timestep becomes input to the third timestep.

代币

在一个 语言模型,模型训练和预测的原子单位。令牌通常是以下之一:

  • 一个单词——例如,短语“dogs like cats”由三个单词标记组成:“dogs”、“like”和“cats”。
  • 一个字符 - 例如,短语“bikefish”由九个字符标记组成。 (请注意,空格算作标记之一。)
  • 子词——其中单个词可以是单个标记或多个标记。子词由根词、前缀或后缀组成。例如,使用子词作为标记的语言模型可能会将单词“dogs”视为两个标记(根词“dog”和复数后缀“s”)。相同的语言模型可能会将单个单词“tall”视为两个子词(根词“tall”和后缀“er”)。

在语言模型之外的领域中,标记可以表示其他类型的原子单元。例如,在计算机视觉中,令牌可能是图像的子集。

的一个组成部分 深度神经网络 它本身就是一个没有输出层的深度神经网络。通常,每个塔都从独立的数据源读取数据。塔是独立的,直到它们的输出被组合到最后一层。

热塑性聚氨酯

TPU芯片

具有片上高带宽存储器的可编程线性代数加速器,针对机器学习工作负载进行了优化。多个TPU芯片部署在一个 TPU装置

TPU装置

一块印刷电路板 (PCB) 上有多个 TPU芯片、高带宽网络接口和系统冷却硬件。

TPU主控

运行在主机上的中央协调进程,用于向主机发送和接收数据、结果、程序、性能和系统健康信息。 TPU工人。 TPU 主设备还管理设置和关闭 TPU设备

TPU节点

Google Cloud Platform 上具有特定属性的 TPU 资源 TPU型。 TPU 节点从对等 VPC 网络连接到您的 VPC 网络。 TPU 节点是 Cloud TPU API 中定义的资源。

TPU吊舱

具体配置为 TPU设备 在谷歌数据中心。 TPU Pod 中的所有设备都通过专用高速网络相互连接。 TPU Pod 是最大的配置 TPU设备 适用于特定 TPU 版本。

TPU资源

您在 Google Cloud Platform 上创建、管理或使用的 TPU 实体。例如, TPU节点TPU类型 是TPU资源。

TPU切片

TPU 切片是 TPU 的一小部分 TPU设备 在一个 TPU吊舱。 TPU 切片中的所有设备都通过专用高速网络相互连接。

TPU型

v2-8v3-2048

TPU工人

在主机上运行并执行机器学习程序的进程 TPU设备

训练

确定理想的过程 参数 (权重和偏差)包括 模型。在训练期间,系统读入 例子 并逐步调整参数。训练中每个示例的使用次数从几次到数十亿次不等。

训练损失

A 公制 代表一个模型的 损失 在特定的训练迭代期间。例如,假设损失函数是 均方误差。也许第 10 次迭代的训练损失(均方误差)是 2.2,第 100 次迭代的训练损失是 1.9。

A 损失曲线 绘制训练损失与迭代次数的关系图。损失曲线提供了以下有关训练的提示:

  • 向下的斜率意味着模型正在改进。
  • 向上的斜率意味着模型变得更糟。
  • 平坦的斜率意味着模型已达到 收敛

例如,下面这个有点理想化的例子 损失曲线 显示:

  • 初始迭代期间出现陡峭的向下斜率,这意味着模型的快速改进。
  • 逐渐平坦(但仍然向下)的斜率,直到接近训练结束,这意味着模型的持续改进速度比初始迭代期间稍慢。
  • 训练接近尾声时呈平坦斜率,表明收敛。

The plot of training loss vs. iterations. This loss curve starts
     with a steep downward slope. The slope gradually flattens until the
     slope becomes zero.

尽管训练损失很重要,另请参阅 概括

训练-服务偏差

模型在不同时期的性能差异 训练 以及同一型号的性能 服务

训练集

的子集 数据集 用于训练一个 模型

传统上,数据集中的示例分为以下三个不同的子集:

  • 一个训练集

理想情况下,数据集中的每个示例应仅属于前面的子集之一。例如,单个示例不应同时属于训练集和验证集。

弹道

强化学习,表示一系列元组的序列 状态 的转变 代理人,其中每个元组对应于状态, 行动, 报酬,以及给定状态转换的下一个状态。

迁移学习

将信息从一项机器学习任务转移到另一项机器学习任务。例如,在多任务学习中,单个模型解决多个任务,例如 深度模型 对于不同的任务有不同的输出节点。迁移学习可能涉及将知识从较简单任务的解决方案迁移到更复杂的任务,或者涉及将知识从数据较多的任务迁移到数据较少的任务。

大多数机器学习系统解决了 单身的 任务。迁移学习是迈向人工智能的一小步,单个程序可以解决 多种的 任务。

变压器

A 神经网络 Google 开发的架构依赖于 自我关注 将输入嵌入序列转换为输出嵌入序列而不依赖于 卷积 或者 循环神经网络。 Transformer 可以被视为自我关注层的堆栈。

Transformer 可以包括以下任意内容:

  • 既是编码器又是解码器

一个 编码器 将嵌入序列转换为相同长度的新序列。编码器包括 N 个相同的层,每个层包含两个子层。这两个子层应用于输入嵌入序列的每个位置,将序列的每个元素转换为新的嵌入。第一个编码器子层聚合来自输入序列的信息。第二编码器子层将聚合信息转换为输出嵌入。

A 解码器 将输入嵌入序列转换为输出嵌入序列,可能具有不同的长度。解码器还包括 N 个相同的层和三个子层,其中两个子层与编码器子层类似。第三个解码器子层获取编码器的输出并应用 自我关注 从中收集信息的机制。

平移不变性

在图像分类问题中,即使图像中对象的位置发生变化,算法也能成功对图像进行分类。例如,该算法仍然可以识别狗,无论它是在帧的中心还是在帧的左端。

也可以看看 尺寸不变性旋转不变性

卦象

一个 N-gram 其中N=3。

真阴性 (TN)

一个例子,其中模型 正确地 预测 负类。例如,该模型推断特定电子邮件是 不是垃圾邮件,那封电子邮件确实是 不是垃圾邮件

真阳性 (TP)

一个例子,其中模型 正确地 预测 正类。例如,该模型推断特定电子邮件是垃圾邮件,并且该电子邮件确实是垃圾邮件。

真阳性率(TPR)

同义词 记起。那是:

真阳性率是图中的 y 轴 ROC曲线

U

不了解(对敏感属性)

一种情况,其中 敏感属性 存在,但不包含在训练数据中。由于敏感属性通常与数据的其他属性相关,因此在不了解敏感属性的情况下训练的模型仍然可能具有 不同的影响 关于该属性,或违反其他 公平约束

欠拟合

生产一个 模型 由于模型没有完全捕捉到训练数据的复杂性,因此预测能力较差。许多问题可能导致拟合不足,包括:

欠采样

去除 例子 来自 多数阶层 在一个 类不平衡数据集 为了创造一个更加平衡的 训练集

例如,考虑一个数据集,其中多数类别与 少数阶层 是20:1。为了克服这种类别不平衡,您可以创建一个包含以下内容的训练集: 全部 少数群体的例子,但只有一个 第十 多数类别示例,这将创建 2:1 的训练集类别比率。由于欠采样,这个更平衡的训练集可能会产生更好的模型。或者,这个更平衡的训练集可能包含不足以训练有效模型的示例。

对比 过采样

单向

一个只评估文本的系统 先于 文本的目标部分。相反,双向系统会评估以下文本: 先于如下 文本的目标部分。看 双向 更多细节。

单向语言模型

A 语言模型 其概率仅基于 代币 出现 , 不是 ,目标令牌。对比 双向语言模型

未标记的示例

一个包含以下内容的示例 特征 但不是 标签。例如,下表显示了房屋估价模型中的三个未标记示例,每个示例具有三个特征,但没有房屋价值:

卧室数量 浴室数量 房屋年龄
3 2 15
2 1 72
4 2 34

监督机器学习,模型在标记示例上进行训练并做出预测 未标记的示例

半监督无监督 学习时,在训练期间使用未标记的示例。

将未标记的示例与 标记示例

无监督机器学习

训练一个 模型 查找数据集中的模式,通常是未标记的数据集。

无监督机器学习最常见的用途是 将数据分成相似示例的组。例如,无监督机器学习算法可以根据音乐的各种属性对歌曲进行聚类。生成的集群可以成为其他机器学习算法的输入(例如,音乐推荐服务)。当有用的标签稀缺或不存在时,聚类可以提供帮助。例如,在反滥用和欺诈等领域,集群可以帮助人类更好地理解数据。

单击该图标可获取其他注释。

无监督机器学习的另一个例子是主成分分析(PCA)。例如,对包含数百万购物车内容的数据集应用 PCA 可能会发现,包含柠檬的购物车通常也包含抗酸剂。

提升造型

营销中常用的一种建模技术,用于对“治疗”对“个体”的“因果效应”(也称为“增量影响”)进行建模。下面是两个例子:

  • 医生可能会根据患者(个人)的年龄和病史,使用提升模型来预测医疗程序(治疗)的死亡率降低(因果效应)。
  • 营销人员可能会使用提升模型来预测由于广告(治疗)对个人(个人)造成的购买可能性(因果效应)的增加。

提升建模不同于 分类 或者 回归 因为一些标签(例如,二元处理中的一半标签)在提升建模中总是丢失。例如,患者可以接受或不接受治疗;因此,我们只能在这两种情况中的一种情况下观察患者是否会痊愈(而不能同时观察两种情况)。提升模型的主要优点是它可以对未观察到的情况(反事实)生成预测,并用它来计算因果效应。

增加权重

施加一个重量到 下采样 类等于您下采样的因子。

用户矩阵

推荐系统, 一个 嵌入向量 产生于 矩阵分解 包含有关用户偏好的潜在信号。用户矩阵的每一行保存有关单个用户的各种潜在信号的相对强度的信息。例如,考虑一个电影推荐系统。在这个系统中,用户矩阵中的潜在信号可能代表每个用户对特定类型的兴趣,或者可能是涉及多个因素之间复杂交互的难以解释的信号。

用户矩阵对于每个潜在特征具有一列,对于每个用户具有一行。也就是说,用户矩阵与被分解的目标矩阵具有相同的行数。例如,给定一个包含 1,000,000 个用户的电影推荐系统,用户矩阵将有 1,000,000 行。

V

验证

对模型质量的初步评估。验证根据实际情况检查模型预测的质量 验证集

因为验证集与验证集不同 训练集,验证有助于防止 过拟合

您可能会考虑将根据验证集评估模型作为第一轮测试,并根据验证集评估模型 测试集 作为第二轮测试。

验证损失

A 公制 代表一个模型的 损失验证集 在特定的期间 迭代 的培训。

验证集

的子集 数据集 对训练有素的人员进行初步评估 模型。通常,您根据 验证集 在根据模型评估模型之前多次 测试集

传统上,您将数据集中的示例分为以下三个不同的子集:

  • 验证集

理想情况下,数据集中的每个示例应仅属于前面的子集之一。例如,单个示例不应同时属于训练集和验证集。

价值归集

用可接受的替代值替换缺失值的过程。当值丢失时,您可以丢弃整个示例,也可以使用值插补来挽救该示例。

温度
时间戳 温度
1680561000 10
1680564600 12
1680568200 丢失的
1680571800 20
1680575400 21
1680579000 21

系统可以删除缺失的示例,也可以将缺失的温度估算为 12、16、18 或 20,具体取决于插补算法。

梯度消失问题

早期梯度的趋势 隐藏层 一些中的 深度神经网络 变得出人意料地平坦(低)。梯度越来越低会导致深度神经网络中节点权重的变化越来越小,从而导致学习很少或根本没有。遭受梯度消失问题的模型变得难以或不可能训练。 长短期记忆 细胞解决了这个问题。

变量重要性

一组分数,表明每个分数的相对重要性 特征 到模型。

例如,考虑一个 决策树 估计房价。假设这个决策树使用三个特征:大小、年龄和风格。如果这三个特征的一组变量重要性计算为{size=5.8,age=2.5,style=4.7},则对于决策树来说,size比age或style更重要。

存在不同的变量重要性指标,可以让机器学习专家了解模型的不同方面。

变分自编码器 (VAE)

深度学习的一种 模型 用于 降维 和数据压缩。 VAE 基于变分推理:一种估计概率模型参数的技术。

VAE 由两个组成 神经网络: 一个 编码器 和一个 解码器。编码器接收输入(例如图像、声音或文本)并将其压缩为潜在变量向量。解码器获取潜在变量向量并重建原始数据。通过将原始数据与重建数据进行比较来计算损失,并通过以下方式更新权重 反向传播 通过两个网络。

瓦瑟斯坦损失

常用的损失函数之一 生成对抗网络,基于 推土机距离 生成数据和真实数据的分布之间的关系。

重量

模型乘以另一个值的值。 训练 是确定模型理想权重的过程; 推理 是使用这些学习到的权重进行预测的过程。

单击该图标可查看线性模型中的权重示例。

想象一个 线性模型 有两个特点。假设训练确定以下权重(和偏差):

  • 偏差 b 的值为 2.2
  • 重量,w1 与一项特征相关的值为 1.5。
  • 重量,w2 与其他特征相关的值为 0.4。

现在想象一个具有以下特征值的示例:

  • 一个特征的值 x1,是 6。
  • 另一个特征 x 的值2,是 10。

该线性模型使用以下公式生成预测 y':

$$y' = b + w_1x_1 + w_2x_2$$

因此,预测是:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

如果权重为0,则相应的特征对模型没有贡献。例如,如果 w1 为0,则x的值1 是无关紧要的。

加权交替最小二乘法 (WALS)

一种最小化目标函数的算法 矩阵分解推荐系统,这允许减少缺失示例的权重。 WALS 通过交替固定行分解和列分解来最小化原始矩阵和重建矩阵之间的加权平方误差。这些优化中的每一个都可以通过最小二乘法来解决 凸优化。有关详细信息,请参阅推荐系统课程。

加权和

所有相关输入值乘以其相应权重的总和。例如,假设相关输入包含以下内容:

输入值 输入权重
2 -1.3
-1 0.6
3 0.4

因此,加权和为:

加权和 = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是一个输入参数 激活函数

宽型

线性模型通常有很多 稀疏输入特征。我们将其称为“宽”,因为这种模型是一种特殊类型的 神经网络 具有大量直接连接到输出节点的输入。宽模型通常比宽模型更容易调试和检查 深度模型。尽管宽模型无法通过以下方式表达非线性 隐藏层,宽模型可以使用诸如 特征交叉分桶化 以不同的方式对非线性进行建模。

对比 深度模型

宽度

的数量 神经元 在特定的 的一个 神经网络

群众的智慧

对一大群人(“人群”)的意见或估计进行平均的想法通常会产生令人惊讶的良好结果。例如,考虑一个游戏,人们猜测装进一个大罐子的软心豆粒糖的数量。尽管大多数个人猜测都是不准确的,但根据经验,所有猜测的平均值与罐子里软心豆粒糖的实际数量惊人地接近。

合奏团 是大众智慧的软件模拟。即使单个模型做出的预测非常不准确,对许多模型的预测进行平均也常常会产生令人惊讶的良好预测。例如,虽然一个人 决策树 可能会做出糟糕的预测, 决策森林 经常做出非常好的预测。

词嵌入

代表 单词集中的每个单词 嵌入向量;也就是说,将每个单词表示为 0.0 到 1.0 之间的浮点值向量。具有相似含义的单词比具有不同含义的单词具有更相似的表示。例如, 萝卜, 芹菜, 和 黄瓜 都会有相对相似的表示,这与以下的表示有很大不同 飞机, 太阳镜, 和 牙膏

X

XLA(加速线性代数)

适用于 GPU、CPU 和 ML 加速器的开源机器学习编译器。

XLA 编译器采用流行的 ML 框架(例如 PyTorch)中的模型, TensorFlow, 和 贾克斯,并优化它们以实现跨不同硬件平台(包括 GPU、CPU 和 ML)的高性能执行 加速器

Z

零样本学习

机器学习的一种 训练 哪里的 模型 推断出一个 预言 对于尚未经过专门训练的任务。换句话说,模型接受零特定任务训练 例子 但要求做 推理 为了那个任务。

Z 分数标准化

A 缩放 替代原始技术 特征 具有浮点值的值,表示与该特征平均值的标准偏差数。例如,考虑一个平均值为 800、标准差为 100 的特征。下表显示了 Z 分数标准化如何将原始值映射到其 Z 分数:

原始值 Z 分数
800 0
950 +1.5
第575章 -2.25

然后,机器学习模型根据该特征的 Z 分数而不是原始值进行训练。