对象

由于机器学习处理未知的对象属性,因此自然的起点就是谈论对象。

出于本教程的目的, 目的 是任何有属性的东西。

我承诺我会将抽象概念具体化,并在合适的地方使用视觉效果。这是一张照片,显示了三个示例性对象(欲望):

图 1:Rawan Hussein 拍摄

除其他属性外,每一勺冰淇淋都具有独特的口味、一系列的颜色、一定的受欢迎程度、售价等。

(三三勺冰淇淋共有的一个属性是它们比华夫蛋筒有更多有趣的属性。)

属性

一个 属性 是表征对象的东西。

让我提前警告你。我喜欢概念树。因此,您将在本系列的过程中看到其中的许多内容。这是第一个:

图2

在较高的层次上,我们可以区分可测量的属性和不可测量的属性。

许多属性是可以测量的。简单的例子包括一勺冰淇淋的重量以及在特定地点和时间单位的销售价格。在可测量的属性中,只有一小部分实际上会作为项目期间数据收集活动的一部分进行测量。

其他属性将不会被测量,因为它们要么不相关,超出我们当前的理解,要么超出我们的预算。据推测,大脑具有我们可以测量的属性,以创造出完美的新冰淇淋口味。然而,在实践中,这种努力受到我们对大脑如何产生品尝美味冰淇淋的主观体验以及所需扫描设备上的价格标签的不完全理解的限制。

测量属性

让我们进一步将测量属性分为两个子类型:

  • 目标
  • 特征

目标 是我们关心并且想要预测的属性。

一些基本上同义的术语是 因变量, 未观察到的变量, 解释变量, 输出变量结果测量

[我应该指出,机器学习中使用的一些概念在其他社区中以不同的名称为人所知。在许多方面,机器学习是统计学的后代,并且这两个领域之间存在很强的重叠。因此,当您深入研究文献时,您可能会遇到统计学家流行的变体。

当引入新术语时,我会提到一些常用的同义词,然后始终使用机器学习社区中最流行且最适合整体情况的变体。]

很多时候,目标是 已知的 对于某些对象和 未知 为他人。例如,我们可能希望部分基于已知的历史销售数据来预测产品的未知未来销售数据。

特征 是与目标(可能)相关的属性。

例如,产品的价格与该产品的需求有关。这种关系可能强也可能弱,具体取决于具体情况[3],但价格无疑是首先应该想到的特征之一。

在其他社区中,功能通常被称为 自变量, 观察变量, 解释变量输入变量

属性值

一个 属性值 是关于特定对象的属性值。

如果目标是下一季度的销售数字,则以下示例 目标价值 可能是 8,000 单位。

与目标类似,我们可以使用术语 特征值 指特定对象的特定特征的值。价格特征的美元值可能是 99.99。

模式识别

机器学习的前提是特征和目标之间存在以可预测的方式重复的关系。我们将这些关系称为 图案

如果我们生活在一个没有模式的世界中,机器学习就没有任何用处,本教程就不会被编写或阅读。幸运的是,我们所处的宇宙是高度结构化的。经验科学[4]的成功证明了模式存在并且可以被发现的理念。

在不久的过去,人们付出了巨大的努力来设计特定任务的功能。例如,有大量关于针对某些计算机视觉问题开发的功能的文献,例如机器人识别房间中物体的能力。 [5]

在过去的十年中,机器学习的进步使得在一定程度上自动搜索特征成为可能。 [6]

计算机视觉的一个例子

为了结束本文,我们用一个具体的例子来更深入地了解特征和目标之间的关系。

图 3:帕特里克·贝里 (Patrick Berry) 拍摄/CC BY-SA 2.0

假设您刚刚开始开发一个系统,其目标是自动识别照片中的动物。

上面的照片具有显示猩猩母亲和她的婴儿的属性,这一事实对我们来说是显而易见的。

然而,对于计算机视觉系统来说,这远非显而易见。在发育之初,它对猩猩、母亲或婴儿没有任何了解。

在我描述我们可以做些什么来改变这一点之前,我想问你一个问题。

怎么办 解决这个任务?也就是说,你如何理解上面的照片显示的是两只猩猩?

人类的视觉(以及一般灵长类动物的视觉)非常高效,而且几乎不需要有意识的努力,因此可能需要一段时间才能得出精确且令人信服的答案。

我建议你停下来思考一下。这样做时,您可能会预见到下面描述的一些想法,并最终意识到至少某些形式的机器学习比它们看起来更直观。