第 1 步:海绵模式

海绵模式就是要吸收尽可能多的理论和知识,为自己打下坚实的基础。

Sponge Mode

图为:海绵宝宝(非海绵模式)

现在,有些人可能会想: “如果我不打算进行原创研究,当我可以使用现有的 ML 包时,为什么我需要学习理论呢?”

这是一个合理的问题!

然而, 对于任何计划在工作中应用机器学习的人来说,学习基础知识非常重要。 以下是学习 ML 理论的 5 个超级实用的理由。它们涵盖整个建模过程:

规划和数据收集。 数据收集可能是一个昂贵且耗时的过程。 我需要收集哪些类型的数据?我需要多少数据(提示:根据型号而不同)?这个挑战可行吗?
数据假设和预处理。 不同的算法对输入数据有不同的假设。 我应该如何预处理我的数据?我应该将其正常化吗?我的模型对于缺失数据是否稳健?异常值怎么办?
解释模型结果。 机器学习是“黑匣子”的观点是完全错误的。是的,并非所有结果都可以直接解释,但您需要能够诊断模型以改进它们。 如何判断我的模型是否过拟合或欠拟合?我如何向业务利益相关者解释这些结果?还剩多少改进空间?
改进和调整您的模型。 您很少会在第一次尝试时就达到最佳模型。您需要了解不同调整参数和正则化方法的细微差别。 如果我的模型过度拟合,我该如何补救?我应该花更多时间在特征工程上还是数据收集上?我可以集成我的模型吗? 
推动商业价值。 机器学习从来都不是凭空完成的。如果您没有真正了解您的工具库中的工具,您就无法最大限度地发挥它们的有效性。 哪些结果指标对于优化最重要?还有其他算法在这里效果更好吗?什么时候机器学习不是答案?

好消息是……您不需要从一开始就知道这些问题的所有答案。事实上,我们推荐的方法是学习足够的理论来入门,而不是误入歧途。然后,随着时间的推移,您可以通过理论与实践的交替来掌握。

1.1 - 最佳免费机器学习课程

接下来的两门免费课程是海绵模式的世界级(来自哈佛大学和斯坦福大学)资源。

任务: 至少完成以下一门课程。

Harvard's Data Science Course

哈佛大学的机器学习课程

在本课程中,您将了解流行的算法和关键概念,例如 PCA 和正则化。您还将看到从数据分析到模型训练的整个机器学习工作流程。 (edX 课程页面)

Stanford's Machine Learning Course

斯坦福大学机器学习课程

这是吴恩达教授的著名课程,是学习机器学习理论的黄金标准。这些视频确实阐明了 ML 背后的核心概念。 (Coursera 课程页面)

1.2 - 成功的关键

以下是此步骤成功的几个关键:

A.) 关注大局并始终问“为什么”。

每次向您介绍新概念时,请询问“为什么”。为什么在某些情况下使用决策树而不是回归?为什么要规范参数?为什么要分割数据集?当您了解为什么使用每种工具时,您将成为真正的机器学习实践者。例如,在此步骤结束时,您应该知道何时预处理数据、何时使用监督算法与无监督算法以及防止模型过度拟合的方法。

B.) 接受你不会记住所有事情的事实。

不要因为记下疯狂的笔记或将所有内容复习三遍而感到压力。接受这样一个事实:当你在野外遇到概念时,你需要循环回顾它们。

C.) 继续前进,不要灰心。

尽量避免在任何话题上停留太久。有些概念即使是最好的教授也不容易解释。一旦你开始在实践中应用它们,你的困惑就会消失。

D.) 视频比教科书更有效。

根据我们的经验,教科书可以是很好的参考工具,但它们经常忽略围绕关键概念的重要色彩评论。我们强烈推荐海绵模式下的视频讲座。

1.3 - 免费参考教科书

接下来,我们有2本业界经典教材的免费(合法)PDF。

任务: 下载免费的 PDF 供您将来参考。

An Introduction to Statistical Learning

统计学习简介

比统计学习要素更温和的介绍。推荐给大家。 (PDF)

Elements of Statistical Learning

统计学习的要素

严格对待机器学习理论和数学。推荐给机器学习研究人员。 (PDF)