什么是机器学习工程?

机器学习工程是工程学的一个分支,它实现持续的数据科学发展,以解决大量不同数据的复杂问题。这项工作弥合了构建数据平台的软件工程师和专注于开发算法和推进机器学习模型的数据科学家之间的差距。除了强大的数据和软件工程背景之外,机器学习工程师通常还拥有特定的领域知识来理解模型和算法,因此他们可以将解决方案部署到现实世界的操作中,并随着时间的推移逐步重新训练模型。通过这种方式,机器学习工程师使计算系统能够从数据中学习、识别模式并在减少人工监控的情况下做出决策。

机器学习工程师为用户构建解决方案,通过管理大量数据中固有的混乱性来实现目标。通常,这意味着将繁琐的实验、监控或分析活动自动化,以减少专家花在理解不断改进的技术所增加的数据上的时间。然而,将机器学习工程平台投入运行是一个持续的过程,当数据量比实验量增加时,机器学习工程师会在算法未按预期执行时做出响应。这包括在应用算法时识别和调解算法中的偏见或误解。此外,机器学习工程师经常致力于训练计算系统,为其推理提供解释,这是值得信赖的机器学习的一个方面。

通过正确的应用程序,机器学习工程师可以与计算机合作,将有用数据与噪音分开,提高计算模型的预测能力和效率,并帮助决策以解决重要的国家和全球问题。反过来,这意味着更具成本效益和深远的成果,有利于从网络安全到人类健康等不同领域。

Machine learning engineering visualization with laptop
机器学习工程师开发复杂的算法,利用强大的计算能力来改进实验、分析和性能。 (照片由 Ipopba | iStock.com 拍摄)

机器学习工程的历史

自 20 世纪 50 年代机器学习兴起以来,研究人员、数据科学家和软件工程师一直在使用机器学习工程来协调他们的算法。然而,机器学习工程的广泛发展可以追溯到 2000 年代的一些关键事件和趋势。首先,2006 年,Geoffrey Hinton 和他的两位同事发表了一篇论文,概述了一种更快的深度神经网络训练方法。第二个重大进步是图形处理单元 (GPU)(驱动现代视频卡的计算机架构)在 2010 年左右显着加速。与此同时,2012 年电气和电子工程师协会 (IEEE) 计算机视觉和模式识别会议上推出了一项新的计算机竞赛。这项名为 ImageNet 的竞赛要求参与者提交能够对超过 100 个数据库进行排序的算法方法。一百万张图像。从我们 2022 年的角度来看,这可能看起来很简单或很平常,因为大多数人习惯于与基于视觉的程序进行交互,例如 Pinterest 或 Meta 上的面部识别。然而,在当时,这是一个看似难以克服的巨大挑战。

当一名研究人员将深度神经网络与更快的 GPU 结合起来参加 ImageNet 竞赛时,突破出现了。神经网络通过分层数百或数千种算法来“学习”,其中一种算法的输出成为下一种算法的输入,从而可以对现实世界中的非线性和复杂关系进行建模。然而,这些分层算法需要大量的计算能力,因此在使用 GPU 同时处理许多数据之前,这些算法无法使用。这种新方法比其他方法获得了显着优势,几年之内,每个 ImageNet 提交都使用了神经网络。到 2017 年,大多数团队的图像识别准确率都超过 95%。会议选择结束 ImageNet 挑战,但计算机视觉领域以及机器学习工程方法发生了转变。

机器学习应用

机器学习工程有助于驱动信用卡欺诈检测系统和安全电网的可靠性。 它在放射线照相和 X 射线扫描领域的医疗保健领域取得了巨大成功 国际商业机器公司 (IBM) 的一项研究探索了淋巴结癌细胞的检测效率,发现复杂的人工智能 (AI) 系统和病理学家的综合输入将 AI 的错误率降低了 7.5%,同时将人类病理学家的错误率降低了 3.5%。错误率仅为 0.5%。 Meta 的面部识别也采用了机器学习工程,它可以将来自 10 亿用户的数万亿张图像进行交叉关联,以创建有意义的预测。机器学习工程为 Netflix 或 Instagram、Pinterest 和 Tik Tok 等社交媒体平台上的推荐提供信息。许多人还在日常生活中通过苹果的 Siri 或亚马逊的 Alexa 等语音识别程序遇到机器学习工程应用,其中高度专业化的算法和架构协同工作,可以快速摄取、处理和分析大量数据。

任何时候,当一个过程需要了解传入数据的整个管道、如何解释数据、存储结果的系统方法以及并行运行模型以综合有关复杂问题的信息的能力时,机器学习工程都是有用的。这些应用程序用于自动解释科学实验、实时传感器和环境监测数据的过程。专门为操作环境而构建的机器学习工程应用程序正在不断开发,从在单个位置的单个工作站上完成的机器学习发展到在多个高节奏、高正常运行时间的分布式环境中同时使用的集成机器学习算法。在这些复杂的环境中很可能会出现错误,而机器学习工程可以帮助实现从概念验证到开发和测试再到为现实世界的用户和系统进行部署的转变。

A person looking at a data visualization
当流程需要了解传入数据的整个管道、如何解释数据、存储结果的系统方法以及并行运行模型以综合有关复杂问题的信息的能力时,机器学习工程非常有用。 (图片由 NicoElNino | iStock.com 提供)

机器学习工程的好处

机器学习工程的最大好处之一是它能够自动化日常流程。从扫描入境口岸的数百万个集装箱到监控电力需求的波动,实施良好的机器学习有潜力通过增强人类智能来提高生活质量。

例如,操作员在长时间轮班工作时会经历认知衰退。当医生必须扫描数百张图像来定位感兴趣或关注的区域时,他们可能会失去注意力。新仪器产生的数据如此之多,以至于科学家无法开始用手解释一切,即使他们要花一生的时间这样做。

许多这些监控或模式识别过程非常适合计算机和机器,它们在一次又一次执行简单任务时不会疲劳。作为计算机科学家和技术企业家,吴恩达 (Andrew Ng) 表示:“如果人类可以在几秒钟内完成,那么算法也可以做到。”当机器学习工程师构建算法和管道来实时实现系统自动化时,他们可以改善所收集数据的质量以及人类能够执行的工作类型,从而摆脱需要进行精神负担的情况涉及持续重复的任务。

通过将更多的补救任务委托给机器,人类可以转向解释、诊断和实施信息,以实现研究、决策、连接和医疗保健等许多领域的目标。计算机永远不会取代我们的工作,但执行良好的机器学习工程可以使人类更加高效并提高工作满意度。

机器学习工程的局限性

尽管正在取得进步,但当问题需要人类创造力和动态思维时,特别是在做出预测时,机器学习工程可能总是会达不到要求。机器学习依靠模式识别来预测未来,但当情况迅速变化时,人类智能的细微差别就会表现出色。在 2020 年 COVID-19 大流行期间,Zillow 试图使用其机器学习工程工具 Zestimate 创建房屋翻转业务,但失败了。在最好的情况下,评估和预测房屋价值也很困难,因为价格取决于房屋的类型和状况,以及难以描述的物理位置的变化以及买卖双方的时间安排。在大流行期间,人口流动的变化加上供应链问题、不断变化的安全要求以及不可预测的市场削弱了该工具准确预测哪些房屋可能赚钱的能力。结果,Zillow 关闭了他们的房屋翻转业务。   

重要的是要记住,机器学习工程应用程序的准确性和完整性取决于它们所依赖的算法和数据管道。研究人员必须与计算机合作以获得适当的偏差来寻找所需的模式,而不添加可能扭曲结果和结果的意外结论。当以更快的速度接触大量数据时,在实验规模上工作的相同机器学习工程系统可能会表现出不同的行为。因此,工程机器学习系统需要设计人员持续参与,以理解和减轻这些意外偏差,以指导其应用程序实现其最初意图。  

机器学习工程的未来

令人兴奋的是,机器学习工程仍处于早期阶段。未来几年,研究人员预计机器学习工程将在科技和社交媒体以外的领域激增。这意味着机器学习工程师可以为更高效的药物设计和发现、自主系统、智能家居和更高容量的储能材料以及几乎任何其他领域做出贡献。

随着机器学习在越来越多的学科中进行创新,需要机器学习工程将机器学习的效率整合到生产规模中。除了与领域专家合作开发的新机器学习方法之外,机器学习工程的未来还可能包括部署数据管道和提高处理速度的新方法。云工程的进步有助于大规模自动部署数据,异构计算能力的发展将结果从集中式设备或位置推送到不同位置和各种类型的设备。

很难预测机器学习工程将触及的所有领域,但除了研究和工业产生的机器学习工程的影响之外,人们还可以期望在日常生活中看到直接的机器学习工程应用。

PNNL 机器学习工程

PNNL 在机器学习工程方面的工作推动了科学和国家安全领域的当代数据分析和人工智能的发展。

我们在少样本学习方面的工作使用图像、文本、音频和视频数据集中的少量训练示例快速构建机器学习模型。这使得研究人员、分析师和决策者能够从昂贵、耗时或高风险的情况或实验中收集更多信息。

数字和物理系统安全受益于我们用于研究意外系统行为的整体机器学习工程方法。这包括由于恶意修改输入、用于训练和部署机器学习算法的硬件系统而导致的意外行为,以及标准化训练数据或预训练模型中偏差的下游影响。

我们利用计算拓扑方面的研究在一系列应用中构建新颖的数学方法,从传感器融合和异常检测到复杂数据的模式检测和可视化。例如,我们的 HyperNetX 开源 Python 库分析和可视化建模为超图的多向关系。这些超图揭示了网络安全、计算生物学、地理定位和生命分析模式等领域数据的互连性,而无需人为地生成双向关系。

PNNL 数据工程师执行关键任务研发,使美国海关和边境保护局 (CBP) 能够分析位于全国入境口岸数千个车辆和货物检查系统中的传感器生成的大量数据。我们正在开发的基于云的数据管道用于分析美国边境口岸货物的非侵入式检查数据,这将使 CBP 能够利用尖端的人工智能和机器学习方法来检测违禁品、防止走私并确保边境安全。

在过去十年的大部分时间里,PNNL 也是开源数据分析领域的开拓者,为整个国家安全领域的赞助商提供先进的研发解决方案。这些工具和功能推进了对理解社交和开源媒体中的欺骗和错误信息活动的研究。

Data visualization of a network.
社交和开源数据的流行使得人们能够大规模地理解全球范围内的话题、情绪和社会行为。在过去十年的大部分时间里,PNNL 一直是开源数据分析领域的开拓者,为整个国家安全领域的赞助商提供先进的研发解决方案。 (图片来源:Madelyn Dunning | 太平洋西北国家实验室)