无论您是开始准备面试,还是结束准备并进行最后的润色,这里有 50 多个准备数据科学面试的必看问题。为了方便起见,我们将它们分为五类。 (注:主菜单“面试问答”中还有更多问题及答案)

基本数据科学问题

您如何评估机器学习算法?
为什么需要训练集、测试集和验证集?
什么是机器学习中的偏差方差权衡?
监督学习和无监督学习有什么区别?
与传统机器学习算法相比,深度学习算法什么时候更合适?
流行的聚类算法有哪些?如何确定聚类算法中的聚类数量?
为什么需要降维?有哪些方法可以做到这一点?
什么是正则化?您知道哪些类型的正则化器?
典型的机器学习流程有哪些各个步骤?
典型的机器学习管道需要哪些数据清理和标准化?
什么是过拟合和欠拟合?举例说明。你如何克服它们?

基本数据清理/争论问题

您如何处理丢失的数据?
如何检测数据中的异常值?你如何对待他们?
当数据集不平衡时,可以进行哪些预处理?
何时以及如何进行特征缩放?
您何时需要对数据进行归一化以使均值和单位方差为零?
当你的训练数据很少时你会做什么?
您意识到数据中有重复项 - 您会做什么?
你有 10,000 个特征。您如何确定是否需要所有这些?
您有一列包含“红色”、“蓝色”等颜色……您如何处理该列?
您有一个文件,其中一个文件包含人员 ID、眼睛颜色、种族、身高、体重,另一个文件包含人员 ID、工资、家庭规模。如何在 pandas 中制作一个组合文件?

基本的深度学习问题

什么是机器学习以及深度学习在哪里发挥作用?
在深度学习中可以使用哪些不同的损失函数?你如何挑选一个?
什么是辍学?
深度学习中使用的正则化器有哪些不同形式?
您知道哪些学习算法?
通常如何初始化深度神经网络中的权重?
如何确定深度神经网络中的层数和隐藏单元数?
keras、tensorflow 和 pytorch 之间有什么区别?
LSTM 的目的是什么?为什么需要双向 LSTM ?
GRU 和双向 LSTM 有什么区别?
什么是注意力机制?有哪些使用它的例子?

基本 NLP 问题

什么是停用词?我们如何去除它们?
寻找词嵌入的方法有哪些?
解释一下skip-gram模型和word2vec嵌入?
如何判断两个句子是否相似?
解释一下如何从 Twitter 进行情绪分析?
我想在一组文档中查找主题,我将使用什么模型?
什么是困惑?
如何衡量垃圾邮件过滤模型的有效性?请注意,这是一个高度不平衡的问题。
您将使用哪些流行的 Python 库来进行 NLP?
什么是词干提取和词形还原?
表示文档的不同方式有哪些?

数据科学的基本数学问题

什么是有效的概率分布?
解释一下贝叶斯法则?
什么是最大似然估计?
什么是联合概率,什么是条件概率?
什么是特征值和特征向量?我们为什么关心他们?
什么是中心极限定理?
给你一个函数和一个数据点。如果该点是最大化/最小化/既不是最大化又不是最小化,你将如何找到?
MLE 和 MAP 估计之间有什么区别?
全局最优和局部最优有什么区别?
什么是凸函数?为什么我们关心凸性?
什么是偏见?您如何知道估算器是否有偏差?
什么是累积分布函数?