朴素贝叶斯分类器算法

对网页、论文或电子邮件等数据文本进行手动分类具有挑战性。朴素贝叶斯分类器算法处理此任务。该过程基于贝叶斯概率定理。它将元素值分配给可能类别之一的总体。

P(y|X) = \frac{P(X|y) P(y)}{P(X)}

其中 y 是类变量,X 是相关特征向量(大小为 n),其中:

X = (x_1,x_2,x_3,…..,xn)

电子邮件垃圾邮件过滤是朴素贝叶斯分类器算法的一种应用。该算法在 Gmail 中找到一个位置来确定电子邮件是否为垃圾邮件。

K均值聚类算法

假设您希望在维基百科上查找术语“日期”。 “约会”现在可能适用于某种水果、特定的一天,甚至是与你的爱人的浪漫夜晚。维基百科使用 K 均值聚类算法对讨论相同主题的网页进行聚类。
一般来说,K 均值聚类算法使用 K 个聚类来作用于给定的数据集。结果,输出有 K 个簇,输入数据分布在它们之间。

支持向量机算法

对于分类或回归问题,它使用支持向量机算法。通过定位某条线(超平面)将数据分为几类。该行将数据集分为多个类。支持向量机算法尝试定位超平面。此外,这样做可以最大限度地缩短班级之间的距离。这增加了正确分类数据的可能性。

同一板块股票表现的比较就是一个例子。它展示了支持向量机算法的工作原理。这有助于金融公司管理投资决策。

先验算法

IF-THEN 格式在 Apriori 算法中找到了一席之地来构建关联规则。这表明如果事件 A 发生,那么事件 B 也可能发生。例如,如果一个人购买汽车,他们还必须购买汽车保险。该关联规则是由Apriori算法生成的。它检查了购买汽车后购买车辆保险的人。

Google 自动完成是 Apriori 算法如何运作的一个示例。当您在 Google 中输入一个术语时,Apriori 算法会搜索并显示在该单词之后键入的关联单词。

线性回归算法

线性回归算法描述两个变量之间的关系。在这里,一个人是独立的,一个人是依赖的。它显示以任何方式改变自变量对因变量的影响。自变量也称为解释变量。同时,因变量指的是感兴趣的因素。

线性回归算法是保险领域的一种风险评估方法。线性回归分析有助于确定客户索赔的频率。然后,它会计算随着客户年龄增长而增加的风险。

逻辑回归算法

线性回归算法预测连续值。而逻辑回归算法则预测离散值。因此,逻辑回归最适合二元分类。在 Logistic 回归中,如果事件发生则分类为 1,如果不发生则分类为 0。它根据提供的因素预测特定事件发生的可能性。

决策树算法

假设您想选择生日地点。因此,许多因素都会影响您的决定。诸如“餐厅是意大利菜吗?”、“餐厅有现场音乐吗?”等因素“那家餐厅离你家近吗?”等等。每个问题都有一个“是”或“否”的答案,这会影响您的选择。

这就是决策树算法中发生的情况。使用树分支方法,决策的所有替代结果也显示在此处。此外,树的核心节点代表对各种品质的测试。树的分支代表测试的结果。叶子节点代表计算所有属性后得出的选择。

在银行业务中,决策树算法有助于对贷款申请人进行分类。它还基于他们拖欠贷款的可能性。

随机森林算法

随机森林算法解决了决策树算法的缺点。随着树中决策数量的增加,结果的准确性会降低。随机森林算法中有几种决策树。这些代表不同的统计概率。

CART 模型将所有这些树组合成一棵树。我们通过轮询所有决策树的结果来获得算法的最终预测。在汽车领域,该算法可以预测汽车元件的故障。

K最近邻算法

K 最近邻算法根据类似的度量对数据点进行分类。该度量可以是诸如距离函数。对于每个新数据点,都会做出预测。它扫描整个数据集以查找 K 个最相似的事件。然后它总结这 K 个实例的输出变量。

这可能是回归问题结果的平均值。或者它可以是分类问题中的众数。 K 最近邻算法可能需要大量内存或空间来保存所有数据。但是,它仅在需要预测时才进行及时计算。

人工神经网络算法

人脑中的神经元是我们记忆力和敏锐智慧的基础。人工神经网络试图重建人脑中的神经元。他们通过构建彼此互连的节点来实现这一点。这些神经元从另一个神经元接收信息。他们根据需要采取各种行动。然后他们将信息作为输出提供给另一个神经元。

人类面部识别是人工神经网络的一个例子。根据数据库中照片的数量,这可能需要几个小时。而人类的思维可以很快做到这一点。

如何选择最佳的机器学习算法?

训练数据的维度

通常建议收集大量数据以做出可靠的预测。但是,数据可用性是一个限制。如果训练数据很少,请选择具有高偏差/低方差的方法。它们可以是线性回归、朴素贝叶斯或线性 SVM。

输出准确性/可解释性

模型的准确性意味着它预测的响应值接近该观察的真实响应值。可解释的方法意味着每个单独的预测变量都可以被清楚地理解。但是,灵活的模型提供了更高的准确性,但代价是可解释性较低。

算法的使用取决于业务问题的目标。如果推理是目标,那么限制性模型是更好的选择。此外,如果准确性是目标,那么灵活的模型是更好的选择。一般来说,随着方法灵活性的提高,其可解释性也会提高。

训练时间或速度

更高的准确度通常需要更多的训练时间。算法还需要更长的时间来训练大量的训练数据。在实际应用中,算法的选择取决于这两方面。

多样化的功能

数据集可能包含大量特征,但并非所有特征都是有用且值得注意的。当涉及某些类型的数据时,特征的数量可能相当庞大。大量的特征可能会阻碍某些学习算法。这也使得训练时间长得令人望而却步。此外,SVM 更适合特征空间较大但观测值较少的数据。

结论

总之,机器学习算法只是这个难题的一小部分。您必须处理优化器、数据清理、特征选择、特征标准化。此外,除了算法选择之外,您还必须处理超参数调整。

当您完成所有这些并创建适合您的数据的模型时,就可以启动它,然后在条件发生变化时更新它。此外,管理生产中的机器学习模型是一个完全不同的挑战。

尝试各种算法并比较它们的结果,以获得最适合您独特活动的算法。另外,考虑使用集成方法,这通常会产生更高的准确性。

您可能还喜欢阅读: