什么是机器学习模型?

机器学习模型是一种用于对给定数据集进行预测的程序。机器学习模型是由有监督的机器学习算法构建的,并使用计算方法直接从数据中“学习”信息,而不依赖于预定的方程。更具体地说,该算法采用一组已知的输入数据和已知的数据响应(输出),并训练机器学习模型以生成对新数据响应的合理预测。

机器学习模型的类型

机器学习模型有两种主要类型:机器学习分类(其中响应属于一组类)和机器学习回归(其中响应是连续的)。

选择正确的机器学习模型似乎让人不知所措——有数十种分类和回归模型,每种模型都采用不同的学习方法。此过程需要评估权衡,例如模型速度、准确性和复杂性,并且可能涉及反复试验。

以下是机器学习分类和回归机器学习模型的概述,可帮助您入门。

流行的回归机器学习模型

模型 图像 怎么运行的 MATLAB 函数 示例和操作方法
线性回归 Linear regression model 线性回归是一种统计建模技术,用于将连续响应变量描述为一个或多个预测变量的线性函数。由于线性回归模型易于解释且易于训练,因此它们通常是第一个适合新数据集的模型。
非线性回归 Nonlinear regression model

非线性回归是一种统计建模技术,有助于描述实验数据中的非线性关系。非线性回归模型通常被假定为参数模型,其中模型被描述为非线性方程。

“非线性”是指拟合函数是参数的非线性函数。例如,如果拟合参数为 b0、b1 和 b2:方程 y = b0+b1x+b2X2 是拟合参数的线性函数,而 y = (b0Xb1)/(x+b2) 是拟合参数的非线性函数。

高斯过程回归 (GPR) GPR model

GPR 模型是非参数机器学习模型,用于预测连续响应变量的值。

使用输入变量的协方差将响应变量建模为高斯过程。

这些模型广泛应用于空间分析领域,以在存在不确定性的情况下进行插值。探地雷达也称为克里金法。

支持向量机 (SVM) 回归 SVM Regression model SVM 回归算法的工作原理与 SVM 分类算法类似,但经过修改以能够预测连续响应。 SVM 回归算法不是寻找分隔数据的超平面,而是寻找一个模型,该模型与测量数据的偏差不大于一个小量,并且参数值尽可能小(以最大限度地降低对错误的敏感度)。
广义线性模型 Generalized linear model 广义线性模型 (GLM) 是使用线性方法的非线性模型的特例。它涉及将输入的线性组合拟合到输出的非线性函数(链接函数)。逻辑回归模型是 GLM 的一个示例。
回归树 Regression tree model 用于回归的决策树与用于分类的决策树类似,但它们经过修改以能够预测连续响应。
广义加性模型 (GAM) GAM model GAM 模型使用预测变量的单变量和双变量形状函数之和来解释响应变量。他们使用提升树作为每个预测变量以及可选的每对预测变量的形状函数;因此,该函数可以捕获预测变量和响应变量之间的非线性关系。
神经网络
(浅的)
Neural network model 受人脑的启发,神经网络由高度连接的神经元网络组成,这些神经元将输入与所需的输出相关联。通过迭代修改连接强度来训练网络,以便训练输入映射到训练响应。
神经网络(深度) Deep neural network model 深层神经网络比浅层神经网络具有更多的隐藏层,某些实例具有数百个隐藏层。深度神经网络可以配置为通过在网络末尾放置回归输出层来解决回归问题。
回归树集成 Regression tree ensembles model 在集成方法中,几个“较弱”的回归树被组合成一个“较强”的集成。最终模型使用“较弱”回归树的预测组合来计算最终预测。

流行的分类机器学习模型

模型 图像 怎么运行的 MATLAB 函数 进一步阅读
决策树 Decision Tree model 决策树可让您通过遵循树中从根(开始)到叶节点的决策来预测对数据的响应。树由分支条件组成,其中将预测变量的值与训练的权重进行比较。分支的数量和权重的值是在训练过程中确定的。可以使用额外的修改或修剪来简化模型。
k-最近邻(KNN) KNN model KNN 是一种机器学习模型,它根据数据集中对象最近邻的类别对对象进行分类。 KNN 预测假设彼此靠近的对象是相似的。距离度量(例如欧几里得、城市街区、余弦和切比雪夫)用于查找最近邻居。
支持向量机(SVM) SVM model SVM 通过查找将一类的所有数据点与另一类的所有数据点分开的线性决策边界(超平面)来对数据进行分类。当数据线性可分时,SVM 的最佳超平面是两类之间距离最大的超平面。如果数据不是线性可分的,则使用损失函数来惩罚超平面错误一侧的点。 SVM 有时使用核变换将非线性可分离数据转换为可以找到线性决策边界的更高维度。
广义加性模型 (GAM) GAM model GAM 模型使用预测变量的单变量和双变量形状函数之和来解释类别分数。他们使用提升树作为每个预测变量以及可选的每对预测变量的形状函数;因此,该函数可以捕获预测变量和响应变量之间的非线性关系。
神经网络(浅层) Neural Network model 受人脑的启发,神经网络由高度连接的神经元网络组成,这些神经元将输入与所需的输出相关联。通过迭代修改连接的强度来训练机器学习模型,以便给定的输入映射到正确的响应。神经网络输入层和输出层之间的神经元被称为“隐藏层”。浅层神经网络通常具有一到两个隐藏层。
神经网络(深度) Deep Neural Network model 深层神经网络比浅层神经网络具有更多的隐藏层,某些实例具有数百个隐藏层。可以通过在网络末尾放置分类输出层来配置深度神经网络来解决分类问题。许多用于分类的预训练深度学习模型可公开用于图像识别等任务。
袋装决策树和提升决策树 Bagged and Boosted Decision Trees model

在这些集成方法中,几个“较弱”的决策树被组合成一个“较强”的集成。

袋装决策树由根据输入数据引导的数据独立训练的树组成。

提升涉及通过迭代添加“弱”学习器并调整每个“弱”学习器的权重以专注于错误分类的示例来创建强学习器。

朴素贝叶斯 Naive Bayes model 朴素贝叶斯分类器假设类中特定特征的存在与任何其他特征的存在无关。它根据新数据属于特定类别的最高概率对新数据进行分类。
判别分析 Discriminant Analysis Ensembles model 判别分析通过查找特征的线性组合对数据进行分类。判别分析假设不同的类生成基于高斯分布的数据。训练判别分析模型涉及查找每个类别的高斯分布参数。分布参数用于计算边界,可以是线性函数或二次函数。这些边界用于确定新数据的类别。

另请参阅:什么是线性回归?、非线性回归、支持向量机 (SVM)、卷积神经网络、长短期记忆 (LSTM) 网络、监督学习、MLOps