介绍:

  1. 熟悉基本概念和术语:学习线性代数、统计学和微积分。
  2. 选择编程语言:Python 是 ML 的热门选择。
  3. 获得 ML 算法和库的实践经验:Scikit-learn 和 Tensorflow 是受欢迎的选择。
  4. 在现实项目和机器学习竞赛中进行练习:Kaggle 是一个很好的平台。
  5. 了解该领域的最新发展:阅读研究论文、博客,并参加在线课程或研讨会。

以下是开始学习机器学习的一些步骤:

  1. 熟悉基本数学概念,例如线性代数、微积分和统计学。
  2. 选择用于 ML 开发的编程语言,例如 Python 或 R。
  3. 熟悉所选编程语言及其用于数据分析和可视化的库的基础知识。
  4. 从简单的 ML 算法(例如线性回归或 K 最近邻)开始,然后从头开始实现它们。
  5. 亲自接触现实世界的数据集并参与项目以获得实践经验。
  6. 参与 Kaggle 等在线社区,并为开源 ML 项目做出贡献,以扩展您的知识并与该领域的其他人建立联系。
  7. 通过阅读论文和参加会议,了解机器学习领域的最新研究和进展。

注意:学习 ML 最重要的方面是拥有扎实的数学、统计学基础和对编程的良好理解。

亚瑟·塞缪尔创造了这个词 “机器学习” 1959年并将其定义为 “赋予计算机无需明确编程的学习能力的研究领域”。 

这就是机器学习的开始!在现代,机器学习是最受欢迎(如果不是最多!)的职业选择之一。根据一项调查,机器学习工程师是十年来最好的工作,并且是 预计同比增长22% (2020-2030年间) 平均基本工资为 122,000 美元 每年在美国和 印度卢比 8.5LPA 在印度。

Learn Machine Learning

什么是机器学习?

机器学习涉及使用人工智能,使机器能够从经验中学习任务,而无需专门针对该任务进行编程。 (简而言之,机器无需人手即可自动学习!!!)这个过程首先向它们提供高质量的数据,然后通过使用数据和不同算法构建各种机器学习模型来训练机器。算法的选择取决于我们拥有什么类型的数据以及我们想要自动化的任务类型。

我们为什么使用机器学习?

随着我们在数字世界中前进,随着高速互联网的普及,每分钟都会生成大量数据。这是开发自动化系统的主要因素,该系统可以通过针对复杂数据集准确地使用不同的算法来处理如此阈值的数据。如今,各种规模的公司都在使用这种方法来进行成本管理、降低风险,并帮助提高产品和服务的质量。这项技术如今已被许多行业广泛接受,很快它将成为我们生活的重要组成部分。 (已经开始了)

如何开始学习机器学习?

这是一个粗略的路线图,您可以遵循它成为一名才华横溢的机器学习工程师。当然,您随时可以根据需要修改步骤以达到您想要的最终目标!

第 1 步 – 了解先决条件

如果你是天才,你可以直接开始机器学习,但通常情况下,你需要知道一些先决条件,其中包括 线性代数、多元微积分、统计学和 Python。如果您不知道这些,也不要害怕!你不需要博士学位。要开始学习这些主题,但您确实需要有基本的了解。

a) 学习线性代数和多元微积分

线性代数和多元微积分在机器学习中都很重要。但是,您需要它们的程度取决于您作为数据科学家的角色。如果您更专注于应用程序密集型机器学习,那么您将不会那么专注于数学,因为有许多可用的通用库。但如果你想专注于机器学习的研发,那么掌握线性代数和多元微积分就非常重要,因为你将不得不从头开始实现许多机器学习算法。

(b) 学习统计学

数据在机器学习中发挥着巨大作用。事实上,周围 你80%的时间 作为机器学习专家,我们将致力于收集和清理数据。统计学是一个处理数据收集、分析和呈现的领域。所以毫不奇怪你需要学习它!统计学中一些重要的关键概念包括统计显着性、概率分布、假设检验、回归等。此外,贝叶斯思维也是机器学习的一个非常重要的部分,它处理各种概念,例如 条件概率、先验和后验、最大似然、 ETC。

(三)学习Python

有些人喜欢跳过线性代数、多元微积分和统计学,并通过反复试验来学习它们。但你绝对不能跳过的一件事是 Python!虽然还有其他语言可以用于机器学习,例如 R、Scala 等。Python 是目前最流行的 ML 语言。事实上,有很多专门用于人工智能和机器学习的 Python 库,例如 Keras、TensorFlow、Scikit-learn 等。

第 2 步 – 学习各种 ML 概念

现在您已经完成了先决条件,您可以继续实际学习 ML (乐趣开始了!!!) 最好从基础知识开始,然后再转向更复杂的东西。 ML 中的一些基本概念是:

(a) 机器学习术语

  • 模型 - 模型是通过应用某种机器学习算法从数据中学习到的特定表示。模型也称为假设。
  • 特征 - 特征是数据的单独可测量属性。一组数字特征可以方便地用特征向量来描述。特征向量作为模型的输入。例如,为了预测水果,可能有颜色、气味、味道等特征。
  • 目标(标签)– 目标变量或标签是我们的模型要预测的值。对于特征部分中讨论的水果示例,每组输入的标签将是水果的名称,如苹果、橙子、香蕉等。
  • 训练 - 这个想法是给出一组输入(特征)及其预期输出(标签),因此在训练之后,我们将拥有一个模型(假设),然后将新数据映射到训练的一个类别。
  • 预言 - 一旦我们的模型准备好,它就可以被输入一组输入,并为其提供预测的输出(标签)。

(b) 机器学习的类型

  • 监督学习—— 这涉及使用分类和回归模型从带有标记数据的训练数据集中进行学习。这个学习过程持续进行,直到达到所需的表现水平。
  • 无监督学习 – 这涉及使用未标记的数据,然后找到数据中的底层结构,以便使用因子和聚类分析模型越来越多地了解数据本身。
  • 半监督学习 – 这涉及使用未标记的数据,例如带有少量标记数据的无监督学习。使用标记数据大大提高了学习的准确性,并且比监督学习更具成本效益。
  • 强化学习—— 这涉及通过反复试验来学习最佳行动。因此,下一步行动是通过基于当前状态的学习行为来决定的,这些行为将使未来的奖励最大化。

(c) 如何实践机器学习?

  • ML 最耗时的部分实际上是 数据收集、集成、清理和预处理。 因此,请务必进行练习,因为您需要高质量的数据,但大量数据通常是脏数据。所以这是你大部分时间都会去的地方!
  • 学习各种模型并在真实数据集上进行练习。 这将帮助您凭直觉判断哪些类型的模型适合不同的情况。
  • 除了这些步骤之外,同样重要的是 了解如何解释使用不同模型获得的结果。 如果您了解应用于不同模型的各种调整参数和正则化方法,这会更容易做到。

(d) 学习机器学习的资源:

有各种在线和离线资源(免费和付费!)可用于学习机器学习。这里提供了其中一些:

  • 对于机器学习的广泛介绍,斯坦福大学 Andrew Ng 的机器学习课程非常受欢迎。它专注于机器学习、数据挖掘和统计模式识别,并配有解释视频,对于理清 ML 背后的理论和核心概念非常有帮助。
  • 如果您想要机器学习的自学指南,那么 Geeksforgeeks 机器学习基础和高级 - 自定进度课程将是您的理想选择。本课程将教您有关机器学习的各种概念以及在课堂环境中实施它们的实践经验。

第 3 步 – 参加比赛

当你了解了机器学习的基础知识后,你就可以继续疯狂的部分了!比赛!通过将您的大部分理论知识与实际实施相结合,这些基本上将使您更加精通 ML。这里给出了一些可以在 Kaggle 上开始的基本比赛,这些比赛将帮助您建立信心:

当你完成这些比赛和其他简单的挑战后......恭喜!您正在成为一名成熟的机器学习工程师,您可以通过应对越来越多的挑战并最终创建越来越多的创造性和困难的机器学习项目来继续提高您的技能。

优点或缺点:
优点:

  1. 就业市场对机器学习专家的需求量很大。
  2. 可以改善决策并自动执行重复性任务。
  3. 可以应用于多种领域和行业。以下是机器学习的一些优点:
  4. 自动化:机器学习算法可以自动化决策过程,减少人工干预的需要。
  5. 提高准确性:与传统方法相比,可以在大型数据集上训练机器学习算法来识别模式并做出更准确的预测。
  6. 高效的数据分析:机器学习算法可以比人类更快地处理大量数据,从而更容易提取见解并做出数据驱动的决策。
  7. 个性化:机器学习算法可用于为用户提供个性化体验,例如个性化推荐和广告。
  8. 预测性维护:机器学习算法可用于预测设备故障,减少停机时间和维护成本。
  9. 欺诈检测:机器学习算法可用于检测和防止金融和电子商务等各个行业的欺诈活动。
  10. 改善医疗保健:机器学习算法可用于分析患者数据、诊断疾病和推荐治疗方法,从而改善医疗保健结果。

缺点:

  1. 训练模型可能非常耗时。
  2. 如果没有适当监控,可能会产生有偏见或不道德的结果。
  3. 可能很复杂且难以理解。
  4. 可能会用自动化取代某些工作。
  5. 偏差:如果训练数据包含偏差,机器学习算法可能会产生偏差,从而导致错误的预测和对某些群体的不公平对待。
  6. 缺乏透明度:机器学习算法可能很复杂且难以解释,因此很难理解它们如何做出决策。
  7. 过度拟合:机器学习算法可能会过度拟合训练数据,导致在新的、未见过的数据上表现不佳。
  8. 数据质量:机器学习算法的好坏取决于它们所训练的数据,因此拥有高质量、相关且多样化的数据来训练算法至关重要。
  9. 技术限制:机器学习算法需要大量的计算能力和内存,这使得在资源有限的环境中部署它们具有挑战性。
  10. 工作替代:机器学习算法可以使某些工作自动化,从而导致某些工人的工作替代。
  11. 道德问题:机器学习算法可用于不道德的目的,例如大规模监视和歧视性做法,从而引发道德和隐私问题。