机器学习算法及其应用指南

“机器学习”一词经常错误地与人工智能[JB1]互换,但机器学习实际上是一个子
人工智能的领域/类型。机器学习通常也称为预测分析或预测建模。

“机器学习”一词由美国计算机科学家 Arthur Samuel 于 1959 年创造,被定义为“计算机无需显式编程即可学习的能力”。

最基本的是,机器学习使用编程算法来接收和分析输入数据,以预测可接受范围内的输出值。当新数据输入这些算法时,它们会学习并优化其操作以提高性能,并随着时间的推移发展“智能”。

机器学习算法有四种类型:监督式、半监督式、无监督式和强化式。

监督学习

在监督学习中,机器是通过示例进行教学的。操作员向机器学习算法提供包含所需输入和输出的已知数据集,并且算法必须找到一种方法来确定如何获得这些输入和输出。虽然操作员知道问题的正确答案,但算法可以识别数据模式,从观察中学习并做出预测。该算法进行预测并由操作员进行纠正——这个过程将持续下去,直到算法达到高水平的准确性/性能。

监督学习的范畴包括:分类、回归和预测。

  1. 分类:在分类任务中,机器学习程序必须从观察到的值得出结论并确定
    新的观察结果属于什么类别。例如,当将电子邮件过滤为“垃圾邮件”或“非垃圾邮件”时,程序必须查看现有的观察数据并相应地过滤电子邮件。
  2. 回归:在回归任务中,机器学习程序必须估计并理解变量之间的关系。回归分析侧重于一个因变量和一系列其他变化变量,这使得它对于预测和预报特别有用。
  3. 预测:预测是根据过去和现在的数据对未来进行预测的过程,通常用于分析趋势。


半监督学习

半监督学习与监督学习类似,但同时使用标记和未标记数据。标记数据本质上是具有有意义标签的信息,以便算法可以理解数据,而未标记数据则缺乏该信息。通过使用这个
结合起来,机器学习算法可以学习标记未标记的数据。

无监督学习

在这里,机器学习算法研究数据以识别模式。没有答案键或人工操作员提供指导。相反,机器通过分析可用数据来确定相关性和关系。在无监督学习过程中,机器学习算法负责解释大型数据集并相应地处理该数据。该算法尝试以某种方式组织数据来描述其结构。这可能意味着将数据分组或以看起来更有条理的方式排列。

随着它评估更多数据,其根据数据做出决策的能力逐渐提高并变得更加精细。

在无监督学习的保护下,会出现:

  1. 聚类:聚类涉及对相似数据集进行分组(基于定义的标准)。它对于将数据分为几组并对每个数据集进行分析以查找模式非常有用。
  2. 降维:降维减少了为查找所需的确切信息而考虑的变量数量。


强化学习

强化学习侧重于管制学习过程,其中为机器学习算法提供一组操作、参数和最终值。通过定义规则,机器学习算法会尝试探索不同的选项和可能性,监控和评估每个结果以确定哪一个是最佳的。强化学习教会机器反复试验。它从过去的经验中学习,并开始根据情况调整方法,以实现最佳结果。

您可以使用哪些机器学习算法?

选择正确的机器学习算法取决于多个因素,包括但不限于:数据大小、质量和多样性,以及企业希望从这些数据中得出什么答案。其他考虑因素包括准确性、训练时间、参数、数据点等等。因此,选择正确的算法需要结合业务需求、规范、实验和可用时间。即使是最有经验的数据科学家也无法在尝试其他算法之前告诉您哪种算法表现最好。不过,我们编制了一份机器学习算法“备忘单”,它将帮助您找到最适合您的特定挑战的算法。

最常见和流行的机器学习算法有哪些?

  • 朴素贝叶斯分类器算法(监督学习 - 分类)
    朴素贝叶斯分类器基于贝叶斯定理,并将每个值分类为独立于任何其他值。它允许我们根据给定的一组特征,使用概率来预测类/类别。

    尽管它很简单,但分类器的表现却出人意料地好,并且由于它优于更复杂的分类方法而经常被使用。
  • K均值聚类算法(无监督学习-聚类)
    K 均值聚类算法是一种无监督学习,用于对未标记的数据(即没有定义类别或组的数据)进行分类。该算法的工作原理是在数据中查找组,组数由变量 K 表示。然后,它会迭代工作,根据提供的功能将每个数据点分配给 K 组之一。
  • 支持向量机算法(监督学习-分类)
    支持向量机算法是监督学习模型,用于分析用于分类和回归分析的数据。它们本质上是将数据过滤成类别,这是通过提供一组训练示例来实现的,每组都标记为属于两个类别中的一个或另一个。然后,该算法构建一个模型,为一个类别或另一个类别分配新值。
  • 线性回归(监督学习/回归)
    线性回归是最基本的回归类型。简单线性回归使我们能够理解两个连续变量之间的关系。 
  • 逻辑回归(监督学习 - 分类)
    逻辑回归侧重于根据先前提供的数据估计事件发生的概率。它用于覆盖二元因变量,即只有两个值 0 和 1 代表结果。
  • 人工神经网络(强化学习)
    人工神经网络 (ANN) 由排列在一系列层中的“单元”组成,每个单元都连接到两侧的层。人工神经网络的灵感来自生物系统(例如大脑)及其处理信息的方式。人工神经网络本质上是大量互连的处理元素,它们协同工作来解决特定问题。

    人工神经网络还通过示例和经验进行学习,对于高维数据中的非线性关系建模或输入变量之间的关系难以理解的情况非常有用。
  • 决策树(监督学习 - 分类/回归)
    决策树是一种类似流程图的树结构,它使用分支方法来说明决策的每个可能结果。树中的每个节点代表对特定变量的测试 - 每个分支都是该测试的结果。
  • 随机森林(监督学习 - 分类/回归)
    随机森林或“随机决策森林”是一种集成学习方法,结合多种算法为分类、回归和其他任务生成更好的结果。每个单独的分类器都很弱,但是当与其他分类器结合时,可以产生出色的结果。该算法从“决策树”(树状图或决策模型)开始,并在顶部输入输入。然后,它沿着树向下移动,根据特定变量将数据分割成越来越小的集合。
  • 最近邻(监督学习)
    K 最近邻算法估计数据点成为一组或另一组成员的可能性。它本质上是查看单个数据点周围的数据点,以确定它实际上属于哪个组。例如,如果一个点位于网格上,并且算法试图确定该数据点属于哪个组(A 组或 A 组)例如,B)它会查看附近的数据点,看看大多数点属于哪个组。

    显然,在为您的业务分析选择正确的机器学习算法时,需要考虑很多事情。但是,您无需成为数据科学家或专业统计学家即可将这些模型用于您的业务。在 SAS,我们的产品和解决方案利用全面的机器学习算法选择,帮助您开发能够持续从数据中创造价值的流程。