尽管我们正经历一个 GPU 加速机器学习非凡创新的时代,但最新的研究论文经常(而且突出地)介绍的算法已有数十年历史,在某些情况下已有 70 年历史。
有些人可能会争辩说,许多旧方法属于“统计分析”而不是机器学习的范畴,并且更倾向于将这一领域的出现追溯到 1957 年感知器的发明。
考虑到这些旧算法在多大程度上支持并融入机器学习的最新趋势和引人注目的发展,这是一个有争议的立场。因此,让我们来看看支撑最新创新的一些“经典”构建模块,以及一些正在提前申请人工智能名人堂的新条目。
1:变形金刚
2017 年,Google Research 领导了一项研究合作,最终发表了这篇论文 您所需要的就是关注。这项工作概述了一种新颖的架构,该架构将注意力机制从编码器/解码器和循环网络模型中的“管道”提升为本身的核心转换技术。
该方法被称为 ,并已成为自然语言处理 (NLP) 领域的革命性方法,为自回归语言模型和人工智能典范 GPT-3 等众多示例提供支持。
Transformer 优雅地解决了序列转换问题,也称为“转换”,即将输入序列处理为输出序列。 Transformer 还以连续的方式(而不是连续的批次)接收和管理数据,从而实现了 RNN 架构无法实现的“记忆持久性”。有关变压器的更详细概述,请查看我们的参考文章。
与 CUDA 时代开始主导 ML 研究的循环神经网络 (RNN) 相比,Transformer 架构也可以轻松并行化,从而为有效处理比 RNN 更大的数据集开辟了道路。
流行用法
2020 年,随着 OpenAI 的 GPT-3 的发布,《变形金刚》激发了公众的想象力,该模型拥有当时创纪录的 1750 亿个参数。这一看似惊人的成就最终被后来的项目所掩盖,例如 2021 年发布的微软威震天-图灵 NLG 530B,它(顾名思义)拥有超过 5300 亿个参数。
Transformer 架构也从 NLP 跨越到计算机视觉,为 OpenAI 的 CLIP 和 DALL-E 等新一代图像合成框架提供动力,这些框架使用文本>图像域映射来完成不完整的图像,并从经过训练的域合成新颖的图像,其中包括相关应用的数量不断增加。
2:生成对抗网络(GAN)
尽管 Transformers 通过 GPT-3 的发布和采用获得了非凡的媒体报道,但 (GAN) 本身已成为一个知名品牌,并可能最终加入 深度伪造 作为动词。
生成对抗网络首先被提出并主要用于图像合成,它由 发电机 和一个 鉴别器。生成器循环遍历数据集中的数千张图像,迭代地尝试重建它们。对于每次尝试,鉴别器都会对生成器的工作进行评分,并将生成器发送回去做得更好,但不会深入了解先前重建错误的方式。
这迫使生成器探索多种途径,而不是走入潜在的死胡同,如果判别器告诉它哪里出了问题,就会出现死胡同(参见下面的#8)。训练结束时,生成器将拥有数据集中各点之间关系的详细且全面的地图。
打个比方,这就是学习前往伦敦市中心的单调乏味通勤与煞费苦心地学习之间的区别。
结果是训练模型的潜在空间中的高级特征集合。高级特征的语义指示符可以是“人”,而通过与该特征相关的特异性的下降可能会发现其他习得的特征,例如“男性”和“女性”。在较低级别,子特征可以细分为“金发女郎”、“白人”等。
纠缠存在于 GAN 和编码器/解码器框架的潜在空间中:GAN 生成的女性脸上的微笑是潜在空间中她“身份”的纠缠特征,还是一个平行分支?
过去几年在这方面出现了越来越多的新研究举措,也许为 GAN 潜在空间的特征级、Photoshop 式编辑铺平了道路,但目前,许多转换实际上是“全有或全无的套餐。值得注意的是,NVIDIA 于 2021 年末发布的 EditGAN 通过使用语义分割掩码在潜在空间中实现了这一目标。
流行用法
除了(实际上相当有限)参与流行的深度伪造视频之外,以图像/视频为中心的 GAN 在过去四年中激增,吸引了研究人员和公众。尽管 GitHub 存储库旨在提供全面的列表,但跟上令人眼花缭乱的新版本发布速度和频率是一项挑战。
理论上,生成对抗网络可以从任何框架良好的领域中获取特征。
3:支持向量机
起源(SVM)是新研究中经常出现的核心算法。在 SVM 下,向量映射数据集中数据点的相对分布,而 支持 向量描绘了不同群体、特征或特征之间的界限。
导出的边界称为 超平面。
在低特征级别,SVM 是 二维的 (上图),但是当有更多可识别的组或类型时,它就变成了 三维。
流行用法
由于支持向量机可以有效且不可知地处理多种类型的高维数据,因此它们广泛出现在各种机器学习领域,包括 深度造假检测、 、 和 ,等等。
4:K 均值聚类
一般来说,聚类是一种寻求通过对数据点进行分类的方法,创建所研究数据的分布图。
已经成为这种方法最流行的实施方式,将数据点引导到独特的“K组”中,这可能表明人口统计部门、在线社区或任何其他可能的秘密聚合等待在原始统计数据中发现。
K 值本身是过程效用以及为集群建立最佳值的决定因素。最初,K值是随机分配的,并将其特征和向量特征与其邻居进行比较。那些与具有随机分配值的数据点最相似的邻居将被迭代地分配到其集群,直到数据产生该过程允许的所有分组。
平方误差图或簇中不同值的“成本”将显示数据的:
肘点在概念上类似于数据集训练结束时损失趋平为收益递减的方式。它代表了群体之间不再有进一步明显区别的时刻,表明是时候进入数据管道的后续阶段,或者报告调查结果。
流行用法
出于显而易见的原因,K 均值聚类是客户分析中的一项主要技术,因为它提供了一种清晰且可解释的方法,可以将大量商业记录转化为人口统计洞察和“潜在客户”。
除此应用程序之外,K-Means 聚类还用于: 医学图像分割、 、 和 ,以及许多其他潜在和实际用途。
5:随机森林
随机森林是一种对一系列结果进行平均以建立结果整体预测的方法。
如果你对它进行过研究,哪怕只是看一下 回到未来 三部曲,决策树本身很容易概念化:许多路径摆在你面前,每条路径分支出一个新的结果,而新的结果又包含更多可能的路径。
在 中,您可能会退出一条路径并从较早的立场重新开始,而决策树则致力于其旅程。
因此,随机森林算法本质上是决策的分散下注。该算法被称为“随机”,因为它使得 特别指定 进行选择和观察,以便了解 中位数 决策树数组结果的总和。
由于随机森林方法考虑了多种因素,因此它比决策树更难以转换为有意义的图表,但可能效率更高。
决策树容易出现过度拟合,其中获得的结果是特定于数据的并且不太可能概括。随机森林对数据点的任意选择可以对抗这种趋势,深入挖掘数据中有意义且有用的代表性趋势。
流行用法
与此列表中的许多算法一样,随机森林通常充当数据的“早期”排序器和过滤器,因此不断出现在新的研究论文中。随机森林使用的一些示例包括 、 、 和 。
由于随机森林是机器学习架构中的低级算法,因此它还可以提高其他低级方法以及可视化算法的性能,包括 、 、 文本文档分类 和 。
6:朴素贝叶斯
结合密度估计(参见 4,上面),分类器是一种功能强大但相对轻量级的算法,能够根据计算的数据特征来估计概率。
术语“朴素”是指特征不相关的假设,称为 条件独立性。如果你采用这种观点,像鸭子一样走路和说话不足以证明我们正在与鸭子打交道,并且不会过早地采用“明显”假设。
在有“常识”的情况下,这种学术和调查的严谨程度可能有些过大,但在遍历机器学习数据集中可能存在的许多模糊性和潜在不相关的相关性时,这是一个有价值的标准。
在原始贝叶斯网络中,特征受到 ,包括最小描述长度和 贝叶斯评分,它可以根据数据点之间找到的估计连接以及这些连接流动的方向对数据施加限制。
相反,朴素贝叶斯分类器的工作原理是假设给定对象的特征是独立的,然后根据给定对象的特征使用贝叶斯定理计算给定对象的概率。
流行用法
朴素贝叶斯过滤器在 、 、 、 和 中得到了很好的体现 欺诈识别等应用程序。
7:K-最近邻(KNN)
(KNN) 首先由美国空军航空医学学院提出,并且必须适应 20 世纪中叶最先进的计算硬件,它是一种精益算法,至今仍然在学术论文和私人论文中占据显着地位。部门机器学习研究计划。
KNN 被称为“惰性学习器”,因为它会详尽地扫描数据集以评估数据点之间的关系,而不需要训练成熟的机器学习模型。
尽管 KNN 在架构上比较薄弱,但其系统方法确实对读/写操作提出了显着的要求,并且如果没有主成分分析 (PCA) 等辅助技术(可以转换复杂且大容量的数据集),它在非常大的数据集中的使用可能会出现问题KNN 可以更轻松地遍历。
A 评估了多种用于预测员工是否会离开公司的算法的有效性和经济性,发现七十多岁的 KNN 在准确性和预测有效性方面仍然优于更现代的竞争者。
流行用法
尽管概念和执行都很简单,但 KNN 并没有停留在 2018 年宾夕法尼亚州立大学的提案中,它并没有停留在 2018 年的提案中,并且在许多领域仍然是核心的早期过程(或后处理分析工具)。更复杂的机器学习框架。
在各种配置中,KNN 已用于 、 、 、 和 ,以及其他应用程序和合并。
8:马尔可夫决策过程(MDP)
马尔可夫决策过程 (MDP) 是美国数学家 Richard Bellman 于 1957 年提出的数学框架,是强化学习架构最基本的模块之一。它本身就是一种概念算法,已被改编成大量其他算法,并在当前的人工智能/机器学习研究中频繁出现。
MDP 通过对其当前状态(即它在数据中的“位置”)的评估来探索数据环境,以决定下一步要探索的数据节点。
基本的马尔可夫决策过程将优先考虑近期优势而不是更理想的长期目标。因此,它通常被嵌入到强化学习中更全面的策略架构的背景中,并且经常受到折扣奖励和其他修改环境变量等限制因素的影响,这些因素将阻止它在不考虑的情况下急于实现眼前的目标更广泛的期望结果。
流行用法
MDP 的低级概念在机器学习的研究和主动部署中广泛存在。它被提议用于物联网安全防御系统、鱼类捕捞和市场预测。
除了明显适用于国际象棋和其他严格顺序的游戏之外,MDP 也是机器人系统程序训练的天然竞争者,正如我们在下面的视频中看到的那样。
9:词频-逆文档频率
词频 () 将某个单词在文档中出现的次数除以该文档中的单词总数。因此这个词 海豹 在千字文章中出现一次的词频为 0.001。就其本身而言,TF 作为术语重要性的指标在很大程度上是无用的,因为无意义的文章(例如 A, 和, 这, 和 它) 占主导地位。
为了获得某个术语的有意义的值,逆文档频率 (IDF) 计算数据集中多个文档中某个单词的 TF,将低评级分配给非常高频的单词,例如文章。得到的特征向量被归一化为整数值,每个单词被分配适当的权重。
尽管这种方法可以防止语义上重要的单词丢失 异常值,反转频率权重并不自动意味着低频项是 不是 异常值,因为有些事情很罕见 和 毫无价值。因此,低频术语需要通过在数据集中的许多文档中具有特征(即使每个文档的频率较低)来证明其在更广泛的架构上下文中的价值。
尽管其 年龄,TF-IDF 是自然语言处理框架中用于初始过滤过程的一种强大且流行的方法。
流行用法
由于 TF-IDF 在过去二十年中至少在 Google 神秘的 PageRank 算法的开发中发挥了一定作用,因此它已成为一种操纵性 SEO 策略,尽管 John Mueller 在 2019 年强调了它对搜索结果的重要性。
由于 PageRank 的保密性,没有明确的证据表明 TF-IDF 是 不是 目前这是提高谷歌排名的有效策略。 IT 专业人士最近的煽动性言论表明,无论正确与否,普遍存在一种理解,即滥用术语仍可能导致 SEO 排名的提高(尽管额外且模糊了该理论的范围)。
(SGD)是一种越来越流行的优化机器学习模型训练的方法。
梯度下降本身是一种优化并随后量化模型在训练过程中取得的改进的方法。
从这个意义上说,“梯度”表示向下的斜率(而不是基于颜色的渐变,请参见下图),其中左侧“山”的最高点代表训练过程的开始。在这个阶段,模型甚至还没有看到完整的数据,并且还没有充分了解数据之间的关系以产生有效的转换。
右侧的最低点代表收敛(模型在所施加的约束和设置下尽可能有效的点)。
梯度充当错误率(模型当前映射数据关系的准确程度)和权重(影响模型学习方式的设置)之间差异的记录和预测器。
这种进度记录可用于通知一个自动过程,该过程告诉架构随着早期模糊的细节转变为清晰的关系和映射而变得更加细粒度和精确。实际上,梯度损失提供了一个及时的地图,显示下一步训练应该去哪里以及如何进行。
随机梯度下降的创新之处在于,它在每次迭代的每个训练示例上更新模型参数,这通常会加速收敛过程。由于近年来超大规模数据集的出现,SGD 作为解决随之而来的逻辑问题的一种可能方法,最近越来越受欢迎。
另一方面,与常规梯度下降相比,SGD 用于特征缩放,并且可能需要更多迭代才能达到相同的结果,需要额外的规划和额外的参数。
流行用法
由于其可配置性,尽管有其缺点,SGD 已成为拟合神经网络最流行的优化算法。在新的 AI/ML 研究论文中占据主导地位的 SGD 配置之一是选择自适应矩估计(ADAM,已介绍)优化器。
ADAM 动态调整每个参数的学习率(“自适应学习率”),并将先前更新的结果合并到后续配置中(“动量”)。此外,它还可以配置为使用后来的创新,例如.
然而,一些人认为动量的使用也可以将 ADAM(和类似算法)加速到 .与机器学习研究领域的大多数前沿一样,SGD 是一项正在进行中的工作。
首次发布于 2022 年 2 月 10 日。2 月 10 日修订 EET 20:05 – 格式。