在本指南中,我们将为初学者介绍 8 个有趣的机器学习项目。项目是您这个时代最好的投资之一。您将享受学习、保持动力并取得更快的进步。

你看,再多的理论也无法取代实践。教科书和课程可能会让你产生一种掌握的错误信念,因为材料就在你面前。但一旦你尝试应用它,你可能会发现它比看起来更难。

项目可以帮助您快速提高 ML 应用技能,同时让您有机会探索有趣的主题。此外,您还可以将项目添加到您的投资组合中,从而更轻松地找到工作、找到很酷的职业机会,甚至协商更高的薪水。

这里有 8 个适合初学者的有趣的机器学习项目。您可以在一个周末内完成其中任何一个项目,或者如果您喜欢的话,可以将它们扩展为更长的项目。

目录

1. 机器学习角斗士

我们亲切地称其为“机器学习角斗士”,但这并不新鲜。这是最快的构建方法之一 实际的 机器学习的直觉。

目标是采取 开箱即用的型号 并将它们应用到不同的数据集。这个项目很棒有 3 个主要原因:

首先,您将建立模型与问题拟合的直觉。哪些模型对于缺失数据具有鲁棒性?哪些模型可以很好地处理分类特征?是的,您可以通过翻阅教科书来寻找答案,但通过实际操作您会学得更好。

其次,这个项目将教您快速制作模型原型的宝贵技能。在现实世界中,如果不简单尝试,通常很难知道哪种模型表现最好。

最后,这个练习可以帮助您掌握 工作流程 的模型构建。例如,你将练习……

  • 导入数据
  • 清洗数据
  • 将其分成训练/测试或交叉验证集
  • 预处理
  • 转换
  • 特征工程

由于您将使用开箱即用的模型,因此您将有机会专注于磨练这些关键步骤。

查看 sklearn (Python) 或 caret (R) 文档页面以获取说明。你应该练习 回归分类, 和 聚类 算法。

教程

数据源

2. 玩钱球

在《点球成金》一书中,奥克兰运动家队通过分析球员球探彻底改变了棒球运动。他们建立了一支有竞争力的球队,而支出仅为洋基队等大型市场球队工资的 1/3。

首先,如果您还没有读过这本书,您应该看看。这是我们的最爱之一!

幸运的是,体育界有大量数据可供使用。球队、比赛、得分和球员的数据都会被跟踪并免费在线获取。

对于初学者来说,有很多有趣的机器学习项目。例如,您可以尝试...

  • 体育博彩... 根据每场新比赛之前当时可用的数据来预测得分。
  • 人才搜寻… 使用大学统计数据来预测哪些球员将拥有最好的职业生涯。
  • 一般管理… 根据球员的优势创建集群,以建立一支全面发展的团队。

体育也是练习的绝佳领域 数据可视化探索性分析。您可以使用这些技能来帮助您决定在分析中包含哪些类型的数据。

数据源

3. 预测股票价格

对于任何对金融稍有兴趣的数据科学家来说,股票市场就像糖果乐园。

首先,您有多种类型的数据可供选择。您可以找到价格、基本面、全球宏观经济指标、波动指数等。

其次,数据可能非常细化。您可以轻松获取每家公司每天(甚至分钟)的时间序列数据,这使您可以创造性地思考交易策略。

最后,金融市场的反馈周期通常较短。因此,您可以快速验证对新数据的预测。

您可以尝试的一些适合初学者的机器学习项目示例包括……

  • 量化价值投资... 根据公司季度报告中的基本指标预测 6 个月的价格变动。
  • 预测… 根据隐含波动率和实际波动率之间的差值构建时间序列模型,甚至循环神经网络。
  • 统计套利... 根据价格走势和其他因素查找类似的股票,并寻找价格出现分歧的时期。

明显的免责声明:构建交易模型来练习机器学习很简单。让他们盈利是极其困难的。这里没有任何财务建议,我们不建议交易真实货币。

教程

数据源

4. 教神经网络阅读笔迹

神经网络和深度学习是现代人工智能的两个成功案例。它们在图像识别、自动文本生成甚至自动驾驶汽车方面取得了重大进展。

要涉足这个令人兴奋的领域,您应该从可管理的数据集开始。

MNIST 手写数字分类挑战 是经典的切入点。图像数据通常比“平面”关系数据更难处理。 MNIST 数据适合初学者,并且足够小,可以容纳在一台计算机上。

手写识别会给你带来挑战,但它不需要很高的计算能力。

首先,我们推荐下面教程中的第一章。它将教您如何从头开始构建神经网络,以高精度解决 MNIST 挑战。

教程

数据源

5. 调查安然公司

安然丑闻和倒闭是历史上最大的企业崩溃之一。 2000年,安然公司是美国最大的能源公司之一。然后,在因欺诈而被揭发后,该公司在一年内陷入破产。

幸运的是,我们拥有安然电子邮件数据库。它包含 150 名前安然员工(其中大部分是高级管理人员)之间的 50 万封电子邮件。它也是唯一一个包含真实电子邮件的大型公共数据库,这使得它更有价值。

事实上,数据科学家多年来一直在使用该数据集进行教育和研究。

您可以尝试的初学者机器学习项目示例包括……

  • 异常检测... 绘制按小时发送和接收的电子邮件的分布图,并尝试检测导致公开丑闻的异常行为。
  • 社交网络分析... 在员工之间建立网络图模型以找到关键影响者。
  • 自然语言处理... 结合电子邮件元数据分析正文消息,以根据电子邮件的目的对电子邮件进行分类。

数据源

6. 从头开始​​编写机器学习算法

从头开始编写机器学习算法是一种出色的学习工具,主要有两个原因。

首先,没有更好的方法来建立对其机制的真正理解。你将被迫思考每一步,这会带来真正的掌握。

其次,您将学习如何将数学指令转化为工作代码。在改编学术研究的算法时,您将需要这项技能。

首先,选择一个不太复杂的算法。即使对于最简单的算法,您也需要做出许多微妙的决定。

当您能够轻松构建简单的算法后,请尝试扩展它们以获得更多功能。例如,尝试扩展一个普通的 逻辑回归 算法转化为 套索/岭回归 通过添加正则化参数。

最后,这是每个初学者都应该知道的提示:不要灰心,因为您的算法不如现有软件包中的算法那么快或奇特。这些软件包是多年发展的成果!

教程

7.挖掘社交媒体情绪

由于数量庞大,社交媒体几乎成为“大数据”的代名词。 用户生成内容。 挖掘这些丰富的数据可以证明是前所未有的方式来把握观点、趋势和公众情绪的脉搏。 Facebook、Twitter、YouTube、微信、WhatsApp、TikTok、Reddit……这样的例子不胜枚举。

每一代人在社交媒体上花费的时间都比他们的前辈更多。社交媒体数据将变得越来越与营销、品牌和整个业务相关。

虽然有许多流行的社交媒体平台, Twitter 是练习机器学习的经典切入点。 通过 Twitter 数据,您可以获得数据(推文内容)和元数据(位置、主题标签、用户、转发等)的有趣组合,从而开辟了几乎无限的分析路径。

教程

数据源

8. 改善医疗保健

由于机器学习而正在经历快速变化的另一个行业是全球健康和医疗保健。在大多数国家,成为一名医生需要多年的教育。这是一个要求很高的领域,工作时间长,风险高,进入门槛更高。

因此,最近在机器学习的帮助下,人们在减轻医生的工作量和提高医疗保健系统的整体效率方面做出了巨大的努力。

使用案例包括:

  • 预防性护理... 预测个人和社区层面的疾病爆发。
  • 诊断护理... 自动分类图像数据,例如扫描、X 射线等。
  • 保险… 根据公开的风险因素调整保险费。

随着医院不断实现患者记录的现代化,以及我们收集更精细的健康数据,数据科学家将有大量唾手可得的机会来发挥作用。

教程

数据源

这就是针对初学者的机器学习项目列表。如果您到目前为止刚刚浏览过,那么接下来的步骤很简单:只需选择一个项目并直接投入!没有必要过度考虑你的选择。关键是要开始。