机器学习
提供了一些有用的机器学习算法流程图和表格。仅选择最完整的内容进行收录。
1. 监督学习
监督学习中使用的模型试图通过将输入映射到输出,将以前见过的数据中发现的模式概括为未见过的数据。回归模型(我们尝试预测连续变量,例如股票价格)或分类模型(我们尝试预测二元或多类因素,例如客户是否会流失)是监督学习的两个示例楷模。我们将在下面的部分中介绍两个广受欢迎的监督学习模型类别:线性模型和基于树的模型。
-
线性模型
为了预测未知数据,线性模型提供了最佳拟合线。根据线性模型,输出只是特征的线性组合。在本节中,我们将概述机器学习中最流行的线性回归模型及其优点和缺点。
正则回归
用于模拟输入和连续目标输出变量之间的线性关系的简单公式
-
应用领域
- 估计房价趋势
- 客户终生价值预测
-
优点
- 显式程序
- 通过输出系数可以理解的结果
- 比其他机器学习模型训练速度更快
-
缺点
- 假设输入和输出是线性的
- 异常现象观察者
- 可能与低维、小规模数据欠拟合。
-
基于树的模型
简而言之,基于树的模型使用一组“if-then”规则从决策树中推断出预测。我们将在本节中概述机器学习中最流行的线性模型及其优点和缺点。
决策树
决策树模型通过将决策规则应用于特征来提供预测。它可以应用于回归或分类。
-
应用领域
- 客户流失预测
- 信用评分建模
- 疾病预后
-
优点
- 明确且易于理解
- 接受缺失值
-
缺点
- 过度拟合的倾向
- 异常现象观察者
2.无监督学习
无监督学习的目标是识别数据的广泛趋势。最著名的例子是用户和客户的聚类或细分。这种分割是普遍适用的,并且具有广泛的应用范围,包括论文、企业和基因组。聚类方法(学习将相关数据点分组在一起)和关联算法(根据预先建立的规则组合各种数据点)是无监督学习的示例。
-
聚类模型
K-均值
最流行的聚类方法是 K-Means,它根据欧氏距离建立 K 个分组。
-
应用领域
- 细分客户
- 推荐系统
-
优点
- 支持大数据集
- 易于使用和理解
- 产生紧凑的簇
-
缺点
- 从一开始就要求预期的集群数量
- 存在一系列簇大小和强度的问题
-
协会
一种基于规则的方法,使用频繁项集特征的先验知识来识别给定数据集中的最多项集
-
应用领域
- 产品插入
- 发动机推荐
- 广告优化
-
优点
- 结果是可感知和可理解的
- 详尽的技术,因为它揭示了基于支持和信心的所有法则
-
缺点
- 创建许多沉闷的物品集
- 内存和计算密集型。
- 这会导致很多重叠的项目集