机器学习

提供了一些有用的机器学习算法流程图和表格。仅选择最完整的内容进行收录。

1. 监督学习

监督学习中使用的模型试图通过将输入映射到输出,将以前见过的数据中发现的模式概括为未见过的数据。回归模型(我们尝试预测连续变量,例如股票价格)或分类模型(我们尝试预测二元或多类因素,例如客户是否会流失)是监督学习的两个示例楷模。我们将在下面的部分中介绍两个广受欢迎的监督学习模型类别:线性模型和基于树的模型。

  •  线性模型

为了预测未知数据,线性模型提供了最佳拟合线。根据线性模型,输出只是特征的线性组合。在本节中,我们将概述机器学习中最流行的线性回归模型及其优点和缺点。

正则回归

用于模拟输入和连续目标输出变量之间的线性关系的简单公式

  • 应用领域
  1. 估计房价趋势
  2. 客户终生价值预测
  • 优点
  1. 显式程序
  2. 通过输出系数可以理解的结果
  3. 比其他机器学习模型训练速度更快
  • 缺点
  1. 假设输入和输出是线性的
  2. 异常现象观察者
  3. 可能与低维、小规模数据欠拟合。
  • 基于树的模型

简而言之,基于树的模型使用一组“if-then”规则从决策树中推断出预测。我们将在本节中概述机器学习中最流行的线性模型及其优点和缺点。

决策树

决策树模型通过将决策规则应用于特征来提供预测。它可以应用于回归或分类。

  • 应用领域
  1. 客户流失预测
  2. 信用评分建模
  3. 疾病预后
  • 优点
  1. 明确且易于理解
  2. 接受缺失值
  • 缺点
  1. 过度拟合的倾向
  2. 异常现象观察者

2.无监督学习

无监督学习的目标是识别数据的广泛趋势。最著名的例子是用户和客户的聚类或细分。这种分割是普遍适用的,并且具有广泛的应用范围,包括论文、企业和基因组。聚类方法(学习将相关数据点分组在一起)和关联算法(根据预先建立的规则组合各种数据点)是无监督学习的示例。

  • 聚类模型

K-均值

最流行的聚类方法是 K-Means,它根据欧氏距离建立 K 个分组。

  • 应用领域
  1. 细分客户
  2. 推荐系统
  • 优点
  1. 支持大数据集
  2. 易于使用和理解
  3. 产生紧凑的簇
  • 缺点
  1. 从一开始就要求预期的集群数量
  2. 存在一系列簇大小和强度的问题
  • 协会

一种基于规则的方法,使用频繁项集特征的先验知识来识别给定数据集中的最多项集

  • 应用领域
  1. 产品插入
  2. 发动机推荐
  3. 广告优化
  • 优点
  1. 结果是可感知和可理解的
  2. 详尽的技术,因为它揭示了基于支持和信心的所有法则
  • 缺点
  1. 创建许多沉闷的物品集
  2. 内存和计算密集型。
  3. 这会导致很多重叠的项目集