机器学习备忘单

无监督学习:降维

  • PCA(主成分分析)

    主成分分析,或 主成分分析,是一种通过将大量变量集合压缩为较小的集合来减少大型数据集中维数的技术,该较小的集合保留了广泛集合的大部分信息。

    以下是在 Python 中成功进行 PCA 的五个步骤:

    • 标准化连续初始变量的范围。
    • 计算协方差矩阵以识别相关性。
    • 计算协方差矩阵的特征向量和特征值以识别主成分。
    • 创建一个特征向量来决定保留哪些主成分。
    • 最后,沿主成分的轴重新投射数据。

    总而言之,减少数据集中变量的数量,同时保留尽可能多的信息是简单的目标 主成分分析

  • SVD(奇异值分解)

    一个矩阵被划分为三个不同的矩阵 奇异值分解算法。例如,在图像处理中,使用更少的向量来重新创建与原始图像相似的图像。 PCA 和 SVD 可以减少数据集的数据维度。然而,SVD 将异常数据转换为 三个独立的矩阵 更容易管理和分析,而 PCA 会忽略不太重要的组件。

  • LDA(线性判别分析)

    当我们使用概率方法时,使用 PCA 和 SVD 是多余的。一种分类方法称为 线性判别分析 (LDA)在已经确定一个或多个类别后,根据新数据的特征将其分为两个或多个组中的一组。与忽略类标签并专注于捕获数据集最显着方差方向的 PCA 相比,LDA 找到了一个可以提高组可分离性的特征子空间。

    该技术使用贝叶斯定理,这是一种概率定理,根据事件与先前事件的关系来评估事件发生的概率。它经常用于面部识别、客户识别和医学以确定患者的疾病状况。

    Dimension Reduction

无监督学习:聚类

  • 层次聚类

    公司可以通过使用目标其定价、产品、运营、营销和其他商业因素 层次聚类 组织数据并查找共性、各种分组和特征。它的层次结构应将信息显示为 树状图,树状数据结构。这是树状图的示例:

    Clustering

  • DBSCAN(基于密度的噪声应用空间聚类)

    当发现异常值或不规则形状的聚类时,基于密度的聚类更适合。 DBSCAN 根据两个参数 eps 和 minPoints 对附近的点进行分组,以识别任意形状的簇和带有噪声的簇。

    eps 解释了两个点必须相距多远才能归类为簇。而 minPoints 代表形成簇所需的最少点。

  • K-模式

    要组织分类变量,请使用 K 模式。我们统计了此类数据项之间的所有差异。我们的数据点越相似,它们之间的差异就越少。该方法用于欺诈检测系统、营销、文档聚类、主题建模和文本挖掘应用程序。每个簇组代表一个特定的主题。

  • K-均值

    将数据分为 k 组,使得同一组中的数据点连接,而其他组中的数据点分开。欧几里德距离被广泛用于测量这个距离。换句话说,K-Means 方法的目标是增加簇之间的距离,同时最小化每个簇内的距离。

    K-means 聚类应用于许多行业,包括无线通信、学术表现、垃圾邮件/非正常邮件检测系统、消费者细分、搜索引擎等。

  • GMM(高斯混合模型)

    对于特定批次的数据, 高斯模型 (高斯混合模型)算法将计算每个数据点属于每个分布的可能性。

    由于使用 GMM,我们不知道数据点是否属于特定簇,因此我们利用概率来量化这种不确定性,这使得 GMM 与 K 均值不同。另一方面,K 均值方法特定于数据点的位置,并开始迭代整个数据集。高斯混合模型经常应用于音乐流派分类、语言识别、异常检测和信号处理。

监督学习:回归

  • 决策树

    决策树是一种类似于树形流程图的数据结构。在这种情况下,数据不断地除以指定的参数。每个参数可以用在一个树节点中,叶子包含整个树的结果。两种类型的决策树是:

    • 分类树: 决策特征是分类的。
    • 回归树: 决策特征在这棵树中是连续的

    这种方法提高了广告活动、欺诈检测以及急性和可治疗疾病患者检测的准确性。

  • 线性回归

    最适合初学者的机器学习算法是线性回归,它根据一个或多个独立特征来预测依赖特征的值。线性回归试图确定数据集的自变量和因变量之间的线性关系。线性回归对于有关序列预测和理解关系的问题陈述非常有帮助。

Regression

  • 神经网络

    综合体 非线性关系 特征和目标之间的关系必须通过 神经网络。它是一种模仿人脑神经元功能的算法。我们可以使用各种神经网络,它是复杂问题陈述的最佳解决方案之一。

    神经网络的应用包括社交媒体功能(“您可能认识的人”功能)、营销和广告生成、医疗保健等。

Neural Network

  • 梯度提升树

    一种基于概念的算法 提升,该算法按顺序构建模型,并且这些后续模型尝试减少先前模型的误差。然而,它是如何做到这一点的呢?

    为了进行回归或分类,它结合了各种树的结果。为了限制过度拟合的风险(当函数与少量数据点过于紧密匹配时发生的统计建模错误,从而可能降低模型的预测能力),两种监督学习都使用大量决策树。

Gradient Boosting Trees

  • 随机森林

    随机森林是分类和回归的最佳算法之一 集成学习,它结合了多个分类器来解决复杂的问题,是随机森林使用的一种方法。它由许多决策树组成,每个决策树的结果将使用均值或平均决策来确定结果。结果的准确性随着树木密度的增加而增加。

    在处理大型数据集时,选择随机森林绝对是理所当然的事情。该方法用于股票市场分析、医疗诊断、贷款申请人信用度预测和欺诈检测。

监督学习:分类

  • 内核支持向量机

    最受欢迎的监督学习算法之一, 支持向量机,或者SVM用于解决分类和回归问题。然而,它主要用于机器学习分类问题。

    SVM算法的目标是建立可以将n维空间划分为类的最佳线或决策边界,使我们能够快速对未来的新数据点进行分类。超平面是这个最佳决策边界的名称。

    Classification

    现在问题来了,我们如何生成用于 2D 和 3D 变换的超平面?我们通过使用 内核技巧。诀窍在于,核方法没有显式应用变换 (x) 并通过这些变换后的坐标来表示数据,而是仅通过原始数据观测值 x 之间的一组成对相似性比较(原始坐标在较低维中)空间)。

  • 逻辑回归

    与线性回归类似,当依赖特征是分类特征时,使用逻辑回归。它有助于通过概率估计来理解因变量与一个或多个自变量之间的关系。逻辑回归使用 乙状结肠 激活函数将预测值映射到各自的概率。

  • 线性支持向量机

    正如我们所讨论的,内核 SVM, 线性支持向量机 适用于线性可分离数据。它适用于仅使用一条直线(线性 SVM 分类器)即可线性拆分为不同变量的数据。通过指定问题看到的用户行为或结果由这条直线表示。

  • 朴素贝叶斯

    最容易使用的机器学习算法是朴素贝叶斯,它基于概率的基本属性。

    这种算法之所以如此流行,是因为它甚至可以胜过最复杂的分类技术。它还可以快速构建并且易于创建。由于它有效且易于使用,因此可以进行实时判断。此外,Gmail 使用此算法来确定邮件是否为垃圾邮件。

    自然语言处理(NLP)是计算机科学的一个领域,朴素贝叶斯被不断使用。