随机森林回归基于 bagging(一种集成学习技术)。以下是两种模型的优点:
- 随机森林在分类预测变量方面表现更好,可以很好地处理缺失值和基数,同时避免异常值的巨大影响。
- 另一方面,线性回归是对关系进行建模的标准回归技术,例如 y = Ax + B。
最终, Airbnb 的最佳模型取决于数据分布。如果您要预测单个地理位置的价格,则线性回归会起作用。然而,对于更复杂的数据集,随机森林回归将提供从数据集将非线性组合形成模型的优势,该模型可以容纳西雅图的一间卧室以及克罗地亚的豪宅。
2.什么是模型中的偏差?
偏差是我们的预测系统地偏离目标的程度。偏差是模型“不灵活”程度的衡量标准。
3. 什么是模型中的方差?
方差是衡量模型在来自同一群体的不同数据集上进行训练时预测会发生多大变化的指标。也可以被认为是模型的“灵活性”。
4.什么是正则化?
正则化是通过添加惩罚项来修改目标函数以减少过度拟合的行为。
5.什么是梯度下降?
梯度下降是一种最小化成本函数的方法。成本函数的形式取决于监督模型的类型。
在优化成本函数时,我们计算梯度以找到最陡上升的方向。为了找到最小值,我们需要不断更新 Beta,与最陡梯度的步长成正比。
6. 如何解释线性回归系数?
解释线性回归系数比逻辑回归简单得多。回归系数表示在该变量移动一单位且所有其他变量保持不变的情况下,因变量的均值变化量。
7.什么是最大似然估计?
最大似然估计是我们找到最有可能生成数据的分布的地方。为此,我们必须估计使在 x 处评估的似然函数最大化的参数 θ。
暗示。 想想每个模型的目标,他们想要预测什么?这一差异实际上是模型中所有差异的关键。
回归模型和分类模型之间的主要区别在于它们想要预测的数据及其输出的性质。在回归模型中,输出是数字,而在分类模型中,输出是分类的。这两类数据的区别如下:
9. 什么是线性判别分析?
LDA 是一种多类分类的预测建模算法。 LDA 将计算代表最大化类之间间隔的轴的方向。
10. 比较 bagging 和 boosting 算法,并给出两者之间权衡的示例。
回想一下:正确识别出实际阳性结果的比例是多少?
精确度:阳性识别结果中真正正确的比例是多少?
暗示。 bagging 和 boosting 都是集成学习方法,我们训练多个估计器组合起来形成具有卓越性能的单一模型。 bagging 和 boosting 算法之间的主要区别在于 bagging 估计器是独立的,而 boosting 估计器是相关的。
12. F1分数背后的直觉是什么?
直觉是我们取精确率和召回率之间的调和平均值。在类别不平衡的情况下,我们的精确率可能会非常高,或者召回率会非常低,反之亦然。因此,这将反映在我们的 F1 分数中,因为两个指标中较低的一个应该会拉低 F1 分数。
13. 解释什么是 GloVe(单词表示全局向量)嵌入。
我们不使用上下文单词,而是计算所有单词的共现矩阵。 GloVe 还将根据固定的窗口大小考虑局部上下文,然后计算协方差矩阵。然后,我们预测神经网络中单词之间的共现率。
GloVe 将学习这个矩阵并训练预测共现率的词向量。损失按词频进行加权。
暗示。 Lasso 和 Ridge 都在标准回归损失函数中添加了惩罚项,以防止过度拟合。 Lasso 回归将参数的 1-范数添加到损失函数中,按 αε(0,1) 缩放,而 Ridge 回归将参数的 2-范数添加到损失函数中。
15. 如何防止深度学习模型中的过度拟合
您可以通过使用更多示例来训练网络来减少过度拟合,或者通过改变网络的复杂性来减少过度拟合。
非常深的神经网络的好处是,随着输入的数据集越来越大,它们的性能会不断提高。具有接近无限数量示例的模型最终将在网络学习能力方面达到稳定水平。
16. 如何从文本正文中提取语义?
您可以使用命名实体识别技术或转而使用特定的包来测量余弦相似度和重叠。
后续问题。 您将如何向非技术利益相关者解释这些预测?
在 YouTube 上查看此问题的分步解决方案:
18. 描述一种使用 MSE 作为质量衡量标准的情况。
均方误差 (MSE) 定义为实际值与估计值之差的均值或平方平均值。
在查看回归模型的准确性时,我们会使用 MSE。
19. 附加功能会进一步改善 GBM 或 Logistic 回归吗?
添加额外的特征并不一定会提高 GBM 或 Logistic 回归的性能,因为添加新特征而不增加观测数量会导致这样的现象:我们拥有一个复杂的数据集(具有许多特征的数据集)和少量的数据。的观察结果。
20. 模型构建过程中如何优化模型参数?
模型参数优化是寻找模型参数最佳值的过程。可以使用网格搜索算法或随机搜索来调整模型参数。
21.PCA和LDA有什么关系?
这两种技术都用于降维。 PCA 是无监督的,而 LDA 是有监督的。
22.监督学习和无监督学习有什么区别?
在监督学习中,输入数据与输出一起提供给模型。在无监督学习中,仅向模型提供输入数据。监督学习的目标是训练模型,使其能够在给定新数据时预测输出。
23.支持向量机算法如何工作?
支持向量机是用于分类和回归问题的线性模型。这个想法是,算法创建一条线或一个超平面,将数据分为不同的类。
在这种情况下,逻辑回归没有用,因为特征的数量远远大于观察的数量。