流行的机器学习算法列表

1. 线性回归

要了解线性回归的工作功能,想象一下如何按重量递增的顺序排列随机的木头。有一个问题;然而,您无法对每根原木进行称重。您必须仅通过查看原木的高度和周长(视觉分析)并使用这些可见参数的组合来排列它们来猜测它的重量。这就是机器学习中的线性回归。

在此过程中,通过将自变量和因变量拟合到一条线上,在自变量和因变量之间建立关系。这条线称为回归线,由线性方程 Y= a *X + b 表示。

在这个等式中:

  • Y——因变量
  • a – 坡度
  • X – 自变量
  • b – 拦截

系数 a 和 b 是通过最小化数据点与回归线之间距离的平方差之和得出的。

2. 逻辑回归

Logistic 回归用于估计一组自变量的离散值(通常是二进制值,如 0/1)。它通过将数据拟合到 logit 函数来帮助预测事件的概率。它也称为 Logit 回归。

下面列出的这些方法通常用于帮助改进逻辑回归模型:

  • 包括交互项
  • 消除特征
  • 规范技术
  • 使用非线性模型

3. 决策树

机器学习中的决策树算法是当今最流行的算法之一;这是一种用于对问题进行分类的监督学习算法。它可以很好地对分类因变量和连续因变量进行分类。该算法根据最重要的属性/自变量将总体划分为两个或多个同质集合。

4.SVM(支持向量机)算法

SVM 算法是一种分类算法,您可以将原始数据绘制为 n 维空间中的点(其中 n 是您拥有的特征数量)。然后,每个特征的值都与特定坐标相关联,从而可以轻松对数据进行分类。称为分类器的线可用于分割数据并将其绘制在图表上。

5. 朴素贝叶斯算法

朴素贝叶斯分类器假设类中特定特征的存在与任何其他特征的存在无关。

即使这些特征彼此相关,朴素贝叶斯分类器在计算特定结果的概率时也会独立考虑所有这些属性。

朴素贝叶斯模型易于构建,并且适用于海量数据集。它很简单,而且众所周知,它的性能甚至优于高度复杂的分类方法。

6.KNN(K-最近邻)算法

该算法可应用于分类和回归问题。显然,在数据科学行业中,它更广泛地用于解决分类问题。这是一个简单的算法,它存储所有可用的案例,并通过获得 k 个邻居的多数投票来对任何新案例进行分类。然后将该案例分配给与其最共同的类别。距离函数执行此测量。

通过与现实生活进行比较,KNN 就很容易理解了。例如,如果您想了解一个人的信息,与他或她的朋友和同事交谈是有意义的!

选择K最近邻算法之前需要考虑的事项: 

  • KNN 的计算成本很高
  • 变量应该标准化,否则较高范围的变量可能会使算法产生偏差
  • 数据仍然需要预处理。

7.K-均值

它是一种解决聚类问题的无监督学习算法。数据集被分类为特定数量的簇(我们称之为数量 K),簇内的所有数据点与其他簇中的数据是同质且异质的。

K-means 如何形成簇:

  • K 均值算法为每个簇选取 k 个点,称为质心。
  • 每个数据点形成一个具有最近质心的簇,即 K 个簇。
  • 它现在根据现有的集群成员创建新的质心。
  • 通过这些新的质心,可以确定每个数据点的最近距离。重复此过程,直到质心不再改变。

8.随机森林算法

决策树的集合称为随机森林。为了根据新对象的属性对它进行分类,每棵树都会被分类,并且树会为该类“投票”。森林选择得票最多的分类(在森林中的所有树木中)。

每棵树的种植和生长如下:

  • 如果训练集中的案例数为 N,则随机抽取 N 个案例的样本。该样本将作为种植树的训练集。
  • 如果有 M 个输入变量,则指定一个数字 m<
  • 每棵树都尽可能地生长。没有修剪。 

9. 降维算法

当今世界,企业、政府机构和研究组织正在存储和分析大量数据。作为一名数据科学家,您知道这些原始数据包含大量信息 - 挑战在于识别重要的模式和变量。

决策树、因子分析、缺失值比率和随机森林等降维算法可以帮助您找到相关细节。

10.梯度Boosting算法和AdaBoosting算法

梯度提升算法和 AdaBoosting 算法是在必须处理大量数据以进行高精度预测时使用的提升算法。 Boosting 是一种集成学习算法,它结合了多个基本估计器的预测能力来提高鲁棒性。

简而言之,它结合了多个弱或平均预测器来构建一个强预测器。这些增强算法在 Kaggle、AV Hackathon、CrowdAnalytix 等数据科学竞赛中总是表现良好。这些是当今最受欢迎的机器学习算法。使用它们以及 Python 和 R 代码来获得准确的结果。