1.

区分训练集和测试集?

训练集

  • 训练集中的数据是提供给模型以训练该特定模型的示例。
  • 通常,大约 70-80% 的数据用于训练目的。该数量完全取决于用户。但是,建议使用比测试数据更多的训练数据。
  • 为了训练模型,训练集是使用的标记数据。

测试装置

  • 测试中的数据用于测试已训练模型的模型准确性。
  • 测试集包含大约 20%-30% 的总数据。然后,该数据进一步用于测试训练模型的准确性。
  • 出于测试目的,根本不使用标记数据,但结果会通过标签进一步验证。

2.

定义偏差和方差。

偏见

当模型进行预测时,模型的预测值与实际值之间会出现差异,这种差异称为偏差。偏差是指线性回归等机器学习算法无法掌握数据点之间的真实关系。

方差

如果使用替代训练数据,方差将描述预测的变化程度。通俗地说,方差描述了随机变量偏离其预测值的程度。

3.

您在数据集中发现了一些缺失的数据。你将如何处理?

为了处理一些丢失或损坏的数据,最简单的方法是用一些不同的值替换包含不正确数据的相应行和列。为此,Panda 中最有用的两个函数是 isnull() 和 fillna()。

  • 一片空白(): 用于查找数据集中缺失的值
  • 填充(): 用于用 0 填充缺失值

4.

解释决策树分类。

决策树使用树结构来生成任何回归或分类模型。在开发决策树时,数据集会以带有分支和节点的树状方式分成越来越小的子集。决策树可以处理类别数据和数值数据。

5.

如何评估逻辑回归模型?

评估逻辑回归模型的最佳方法之一是使用混淆矩阵,这是一个非常具体的表,用于衡量任何算法的整体性能。

使用混淆矩阵,您可以轻松计算准确度分数、精确度、召回率和 F1 分数。这些对于逻辑回归模型来说是非常好的指标。

如果你的模型的召回率很低,那么这意味着你的模型有太多的假阴性。同样,如果您的模型的精度较低,则表明您的模型有太多误报。为了选择具有平衡的精度和召回分数的模型,必须使用 F1 分数。

6.

要开始线性回归,您需要做出一些假设。这些假设是什么?

要启动线性回归模型,您需要做出一些基本假设:

  • 该模型应具有多元正态分布
  • 不应存在​​自相关
  • 同方差性,即因变量的方差应该与所有数据相似
  • 应该是线性关系
  • 不应存在​​或几乎不存在多重共线性

7.

什么是多重共线性?您将如何在回归模型中处理它?

如果回归模型中的自变量之间存在相关性,则称为多重共线性。多重共线性是一个值得关注的领域,因为自变量应该始终是独立的。当您拟合模型并分析结果时,变量之间的高度相关性可能会带来复杂性。

有多种方法可以检查和处理回归模型中是否存在多重共线性。其中之一是计算方差膨胀因子(VIF)。如果您的模型的 VIF 小于 4,则无需调查是否存在多重共线性。但是,如果您的 VIF 大于 4,则非常需要进行调查,如果 VIF 大于 10,则存在多重共线性的严重问题,您需要更正您的回归模型。

8.

解释一下为什么XGBoost的性能比SVM好?

XGBoost 是一种使用大量树的集成方法。这意味着当事情重演时,它会变得更好。

如果我们的数据不是线性可分离的,SVM 作为线性分离器,将需要使用内核将其带到可以分离的点。由于并非每个数据集都有一个理想的内核,因此这可能会受到限制。

9.

为什么 NLP 使用编码器-解码器模型?

编码器-解码器模型用于根据给定的输入序列创建输出序列。编码器的最终状态用作解码器的初始状态,这使得编码器-解码器模型极其强大。这还允许解码器访问编码器从输入序列中获取的信息。

10.

什么是机器学习和人工智能?

人工智能是一种生产能够模仿人类智能的智能机器的系统。机器学习正在训练机器从当前数据中学习并在未来根据这些经验采取行动。要通过深入比较进一步了解,请阅读机器学习、人工智能与深度学习。

11.

深度学习和机器学习的区别?

机器学习采用算法从数据集中学习并将其应用于未来的决策。深度学习是机器学习的一个子集,它使用大量数据和复杂的算法来创建可以自行学习和做出决策的神经网络。

12.

什么是交叉验证?

交叉验证是一个用于评估模型性能以避免过度拟合的概念。这是一种比较模型预测能力的简单方法,最适合可用数据有限的情况。

13.

机器学习有哪些类型?

机器学习主要分为三种类型,即:

强化学习:这是关于在特定情况下采取尽可能最好的行动来最大化回报。各种软件和机器使用它来找到在给定情况下应采取的最佳路径。

监督学习:使用标记数据集训练算法以轻松对数据进行分类,以预测准确的结果。

无监督学习:它使用机器学习来分析和聚类未标记的数据集。

14.

区分监督学习和无监督学习。

监督算法是那些使用标记数据来学习从输入变量到输出变量的映射函数的算法。无监督算法从未标记的数据中学习并发现数据中隐藏的模式和结构。

15.

什么是选择偏差?

选择偏差是一种统计误差,会导致实验抽样部分出现偏差。这反过来又导致样本部分比其他组有更多的选择,从而得出不准确的结论。

16.

相关性和因果性有什么区别?

相关性是指一个动作 (A) 与另一动作 (B) 之间的关系,当 A 不一定导致 B 时,而因果关系是指一个动作 (A) 导致结果 (B) 的情况。

17.

相关性和协方差有什么区别?

相关性用三个值来量化两个随机变量之间的关系:0,1 和 -1。协方差是衡量两个不同变量如何相关以及一个变量的变化如何影响另一个变量的指标。阅读相关性与协方差以了解这两者并进行进一步深入的比较。

18.

监督学习和强化学习有什么区别?

监督学习算法使用标记数据进行训练,而强化学习算法使用奖励函数进行训练。监督学习算法用于预测给定的输出,而强化学习算法用于通过采取一系列行动来最大化奖励。

19.

强化学习环境有什么要求?

状态、奖励数据、代理和环境。它与其他机器学习范式完全不同。这里我们有一个代理和一个环境。环境是指任务或模拟;代理是一种与环境交互并尝试解决问题的算法。

20.

分类和回归算法需要哪些不同的目标?

回归算法需要分类和数值目标。在这里,回归发现因变量和自变量之间的相关性。它有助于预测连续变量,例如市场趋势和天气模式。

另一方面,分类是一种根据各种参数将数据集分为不同类别的算法。在这里,分类算法可以预测银行客户支付贷款、电子邮件或垃圾邮件分类的意愿。

21.

机器学习中使用的五种流行算法是什么?

神经网络:它是一组算法,旨在帮助机器识别模式而无需显式编程。

决策树:这是一种监督学习技术,其中内部节点代表数据集的特征,分支代表决策规则,每个叶节点代表结果。

K-最近邻:K近邻(KNN)是一种用于分类和回归的监督学习算法。该算法在训练数据集中找到 k 个最近的数据点并使用它们进行预测。它的工作原理是计算查询点与 k 个最近数据点之间的距离,然后使用这些点的标签进行预测。

支持向量机 (SVM):它用于创建最佳线或决策边界,可以将 n 维空间分为几类,以快速将新数据点放入正确的类别中。

概率网络:它们是一组变量之间交互的图形模型,其中变量表示为图的节点,交互表示为顶点之间的有向边。它允许对多个随机变量之间的复杂随机关系进行紧凑描述。

22.

什么是混淆矩阵?

混淆矩阵由用于总结分类算法性能的误差矩阵表组成。它确定给定测试数据集的分类模型的性能。它具有多个分类输出,但只有在已知测试数据的实际值的情况下才能确定。

23.

列出 KNN 和 k-means 聚类之间的差异。

Image 04-04-23 at 7.54 PM_11zon.webp

24.

I 类错误和 II 类错误有什么区别?

Image 13-04-23 at 1.43 PM_11zon.webp

25.

什么是半监督学习?

当少量标记数据被引入算法时,就会发生半监督学习。然后,该算法研究该数据并将其用于未标记的数据。半监督学习结合了无监督学习的效率和监督学习的性能。

26.

半监督学习应用在哪里?

它的应用领域包括标记数据、欺诈检测和机器翻译。

27.

什么是词干?

词干提取是一种规范化技术,可删除连接到单词的任何词缀,使其保持基本状态。它使文本更易于处理。它通常用于信息检索,是文本预处理和文本挖掘应用中的重要步骤。词干提取可用于各种 NLP 任务,例如文本分类、信息检索和文本摘要。

28.

什么是词形还原?

这是一种标准化技术,可将单词转换为引理形式或根单词,而不是词干单词。这是一个将单词还原为其基本形式的过程,但与词干提取不同;它会考虑单词的上下文并生成有效的单词。与词干提取相比,词形还原相当困难,因为它需要更多有关语言结构的知识;这是一个比仅仅尝试建立启发式词干算法更加密集的过程。词形还原通常用于自然语言处理 (NLP) 应用程序中,以改进文本分析和特征提取。

29.

什么是主成分分析?

PCA即主成分分析,主要用于降维。它是一种统计技术,用于降低大型数据集的维度,同时保留尽可能多的信息。换句话说,它识别变量之间的模式和相关性,并将它们总结为较小的一组不相关变量,称为主成分。

PCA 通常用于数据预处理和探索性数据分析,以简化数据可视化、识别异常值并减少数据中的噪声。它还用于机器学习和模式识别应用程序,通过减少分析中使用的特征数量来提高模型性能。

30.

SVM(支持向量机)中的支持向量是什么?

支持向量是数据集中最接近超平面(分隔数据集中的类的线)的数据点,用于构建分类器。

31.

在访问方面,数组和链表有何不同?

链表允许用户遍历整个链表,甚至可以遍历顺序访问模式中的元素。但是,数组可以直接使用元素的索引值来访问元素。

32.

什么是 P 值?

P值或概率值表示随机获得观测数据或更极值的概率。 P 值较小表明观察到的结果不太可能,并且观察到的数据与原假设一致,并提供了支持备择假设的证据。

33.

使用哪些技术来在推荐系统中查找相似性?

余弦相关和皮尔逊相关是用于在推荐系统中查找相似性的技术。皮尔逊相关系数是两个向量之间的协方差除以它们的标准差,而余弦则用于测量两个向量之间的相似性。

34.

回归和分类有什么区别?

分类是一个用于产生离散结果并将数据分类到特定区域的概念。另一方面,回归用于评估自变量和因变量之间的关系。

35.

ROC曲线下的面积表示什么?

ROC 代表接收器操作特性。它衡量测试的有用性,面积越大,测试越有用。这些区域用于比较测试的有效性。 AUC(曲线下面积)越高,通常表明模型能够更好地区分正类和负类。 AUC值范围从0到1,值为0.5表示模型并不比随机猜测好,值为1表示完美分类。

36.

什么是神经网络?

就像人脑一样,神经网络是不同神经元的网络,其连接方式有助于信息从一个神经元流向另一个神经元。它是一个使用给定输入集将输入映射到所需输出的函数。在结构上,它被组织为输入层、输出层和一个或多个隐藏层。

37.

什么是异常值?

异常值是与数据集中的其他观测值显着不同的观测值,可被视为数据分析中应避免的错误。然而,它们还可以深入了解我们数据中某些时间的特殊情况。

38.

贝叶斯网络的另一个名称是什么?

休闲网络、信念网络、贝叶斯网络、贝叶斯网络、信念传播网络等都是它的一些其他名称。它是一个概率图形模型,展示一组变量及其条件依赖性。

39.

什么是集成学习?

集成学习是一种融合多个机器学习模型以创建各种强大模型的方法。目的是通过组合模型而不是坚持单一模型来提供更好的性能。

40.

什么是聚类?

聚类是将项目集分为几个组的过程。集群内的项目或对象必须相似,并且与其他集群中的其他对象不同。聚类的目标是识别数据中的模式和相似性,可用于获得见解并做出预测。不同的聚类算法根据数据点的特征和相似性度量(例如距离或密度)使用不同的方法对数据点进行分组。聚类通常用于客户细分、图像和文本分类、异常检测和推荐系统等各种应用中。

41.

您如何定义共线性?

共线性是指多元回归中的两个捕食者变量具有某些相关性。

42.

什么是过拟合?

当统计模型观察和学习训练数据中的细节以至于开始对模型在新数据集上的性能产生负面影响时,就会发生过度拟合。

43.

什么是贝叶斯网络?

贝叶斯网络表示变量集之间的图形模型。我们说它是概率性的,因为这些网络是建立在概率分布之上的,并且还使用概率论进行预测和异常检测。贝叶斯网络用于推理、诊断、异常检测、预测等。

44.

什么是时间序列?

时间序列是在一段时间内收集的按连续顺序收集的数据观察的特定序列。它通常不需要任何最大或最小时间输入。它基本上仅根据目标值的已知历史来预测目标值。它用于预测基于时间的预测,例如信号处理、工程领域通信和控制系统以及天气预报模型。

45.

什么是机器学习中的降维?

降维是减少所考虑的变量。它减少了数据集中的特征数量,同时保存尽可能多的信息。这样做的原因有多种,例如提高学习算法的性能、降低模型的复杂性或使数据更容易可视化。

46.

什么是欠拟合?

欠拟合是 ML 模型中的一种错误,其中模型无法捕获数据的基础模式。当模型过于简单并且无法捕获数据的复杂性时,就会发生这种情况,导致对未见过的数据的泛化性能较差。换句话说,模型不够复杂,无法准确捕捉输入和输出变量之间的关系。这通常会导致高偏差和低方差。

47.

什么是敏感度?

这是当值为正时模型的预测结果为真的概率。它可以被描述为评估模型预测每个可用类别的真实阳性能力的指标。灵敏度 = TP / TP+FN (即真阳性/真阳性 + 假阴性)

48.

什么是特异性?

这是当实际值为负时模型预测为负的概率。它可以被称为模型预测每个可用类别的真阴性的能力。特异性 = TN / TN + FP (即真阴性/真阴性 + 假阳性)

49.

随机梯度下降(SGD)和梯度下降(GD)有什么区别?

这两个梯度都是用于确定最小化损失函数的参数的算法。然而,在 GB 的情况下,所有训练样本都会针对每组参数进行评估。相反,对于 SGB,总是针对一组参数评估一个训练样本。

50.

什么是数组?

数组是存储在连续内存位置的相同类型数据元素的集合,例如整数、字符串或浮点数。数组的每个组件都由表示其在数组中位置的索引来标识。

51.

什么是链表?

这是用指针连接的相似数据类型元素的有序集合。它由几个单独分配的节点或一系列连接的节点组成。每个节点包含数据加上指针或列表中下一个节点的地址。