策划编辑 | Vincent

出处 | AI前线

上周,OpenAI 推出的新通用语言模型 GPT 2.0 引起了一场风暴。该模型被称为“史上最强通用 NLP 模型”,可以生成连贯的文本段落,刷新了 7 大数据集基准,并且能在未经预训练的情况下,完成阅读理解、问答、机器翻译等多项不同的语言建模任务。

然而,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨。这股讨论的浪潮延续至今,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉,直至今天,有人质疑这条新闻引发病毒式传播可能只是一场秀。

GPT 2.0 不开放引发社区声讨

近日,由非营利性人工智能研究公司 OpenAI 创建的一种新语言模型 GPT 2.0 正在酝酿一场风暴,在技术社区和社交网络引起了广泛讨论。让人哭笑不得是, OpenAI 称,因为这个文本生成器性能太好了,他们担忧这项技术会被滥用,因此决定暂不将该模型开源,仅在 Github 上放出了一小部分公开示例:
https://github.com/openai/gpt-2

论文中的示例:
https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

随后,整个世界为之疯狂,这条新闻成为了媒体上最热门的消息,一时间各种报道蜂拥而来。

这些报道包括 OpenAI 将其私有化的做法激怒了社区中的一些人,指责这违背了该公司开放其研究的承诺。

在过去的几天里,社区中的一些著名研究人员抨击了 OpenAI。其中巴伊兰大学计算机科学系高级讲师 Yoav Goldberg,加州大学伯克利分校助理教授 Ben Recht 以戏谑的口吻批判,英伟达机器学习研究院主任 Anima Anandkumar 则发表了更为严厉的批评,指责实验室使用“太危险而无法发布”的说法只不过是吸引媒体关注的诱饵。


特此说明,我们的实验室在语言理解方面取得了重大突破,但是我们担心它会被有心人士滥用,所以我们决定将其分割,只发布其中的一小部分。(手动滑稽)感谢团队的贡献。



PS:目前我们的论文还在 arxiv 审核中,这可能是因为终版 pdf 太大了,或者 arxiv 和 OpenAI 一样,认为所有 AI/ML 研究发布太过危险。



这就是一个非黑即白的问题。你们在利用媒体炒作语言模型。关于这个话题的研究有很多。你们声称研究结果效果惊人却只让记者了解个中详情。应该有知情权的是研究人员而不是记者。

但也有人持更加宽容的态度,称此举是一个“新的道德标准”,可以在可能的滥用发生之前进行充分思考。

OpenAI 的政策主管 Jack Clark 回应称,该组织的首要任务是“杜绝恶意或滥用该技术”,“取得平衡非常艰难”,不开放数据、模型和源代码是因为担心有人利用该技术假冒他人或制造假新闻。

关于 GPT 2.0 的未来,OpenAI 在 GitHub 上表示可能会发布不同 benchmark 的源代码,并考虑开源更大的模型。

马斯克回应争议,重申已离开 OpenAI



随着 OpenAI 陷入口水仗,OpenAI 的资助者之一埃隆·马斯克(Elon Musk)也陷入了争议之中。对此,马斯克坚决表示“这锅我不背!”在今天的一条推文中,他表示“没有参与 OpenAI 公司事务已超过一年”,目前它专注于特斯拉和 SpaceX 的管理。他表示,由于与 OpenAI 团队在一些问题上意见不合,他与该公司已经“和平分手”,疑似回应与 GPT 2.0 相关的争议。

看到这里,GPT 2.0 引发的争议还真是不少。那么,除了上面的热闹之外,我们透过现象看本质,真正应该关心的是这些问题:GPT 2.0 是什么?GPT 2.0 是否被过度赞誉?以及这条新闻的火热是否只是一场炒作?

问题 1:GPT 2.0 是什么?

首先,GPT 2.0 是什么?这个模型是否真的有那么神奇?

简单来说,为进行推理,语言模型将概率分配给单词序列。 通常,他们通过链规则表达这种概率,作为每个单词概率的乘积,以其前因

为条件。或者,人们可以向后训练语言模型,从后向前预测每一个词。 在训练语言模型之后,通常 1)使用它从左到右迭代解码来生成文本,或者 2)将其微调到一些下游监督学习任务。

训练大型神经网络语言模型并随后将它们应用于下游任务已经成为当代 NLP 研究一项非常耗费资源的任务。

在 2018 年的 NAACL,AllenNLP 发布了 ELMo(https://allennlp.org/elmo),这是一个由 10 亿字 benchmark 训练的大规模前向和后向语言模型组成的系统。他们证明了该模型可用于在许多下游任务中实现最优性能。

随后,谷歌研究人员发布了 BERT,这是一个使用 Transformer 架构,与语言建模目标略有不同的填空学习目标模型。

如果你从事 NLP 领域的工作,在过去一年中可能听到“ELMo”和“BERT”的次数比听到自己的名字还多。在 NLP 文献中,由于这些技术的普及,它们已成为名副其实的停用词。

AI 前线注: 停用词 Stop Words,是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或

12 月,Google 的 Magenta 团队研究深度学习的创新性应用,将 Transformer 架构应用于“语言建模”任务,生成了音乐而不是文本(
https://magenta.tensorflow.org/music-transformer)。成果的连贯性非常可喜。

快退到周四:OpenAI 在一个名为 WebText 的大型新数据集上训练了一个大型语言模型,该数据集包含爬取自 4500 万个链接的数据。研究人员构建了一个有趣的数据集,使用现在标准的工具,生成了令人印象深刻的模型。经过在许多下游零射击学习任务上进行评估,该模型通常优于以前的方法。同样值得注意的是,与 Music Transformer 的结果一样,生成的样本似乎比以前的结果更连贯。这样的结果很有趣,但并不令人惊讶。

它们代表着 NLP 向前迈出的一步,整个社区已经走上了这条道路。

问题 2:GPT 2.0 是否被过誉?

其实,GPT 2.0 虽然一夜爆红,但却不是一日之功,GPT 比 BERT 还更早出现,但却没有像 BERT 一样一出世就受到广泛的关注。


本质上来说,GPT 2.0 的大框架其实还是 GPT 1.0 的框架,但是把第二阶段的 Finetuning 做有监督地下游 NLP 任务,换成了无监督地做下游任务,最大的改进就在于把 Transformer 模型参数扩容,参数规模达 15 亿,这个规模前所未有。有关 GPT 2.0 和 GPT 1.0 更详细的信息,请参考 《效果逆天的通用语言模型 GPT 2.0 来了!它告诉了我们什么?》。

总的来说,GPT 2.0 作为语言模型,用来生成自然语言句子或者段落的能力特别强,这从 OpenAI 官博上放出的生成示例就可以看出:

“回收对世界不利。这对环境有害,对我们的健康有害,对经济不利。我不是在开玩笑。回收利用对环境不利。它对地球具有破坏性,是全球变暖的主要原因。回收利用对我们的健康不利。它导致肥胖和心脏病和癌症等疾病。回收利用对我们的经济不利。它增加了产品的成本,反过来又提高了产品的价格。回收利用对我们国家不利。我们为拥有世界上最先进和最有效的回收系统的特权付出了巨大的代价。回收浪费了大量时间、精力、金钱和资源。“

回收对世界有益,几乎每个人都同意这个观点,但是 GPT 2.0 反其道而行,难怪 OpenAI 担心发布模型会导致这项技术被滥用。


GPT-2 在 Winograd Schema,LAMBADA 和其他语言建模任务上达到了最先进的水平。

在前面提到的文章中,新浪微博资深算法专家张俊林表示,对于 GPT 2.0 的改进方向来说,如何加入情节约束,产生特别好的生成文章,这是个很有前途的方向。而在这点上,GPT 2.0 的贡献是给我们指出了一条路,就是 Transformer+ 刷数据量,省心省力费机器的一条路。另外,Transformer 之前在语言模型上通常做不过 RNN,虽然有后续研究表明它可以达到 RNN 类似的效果,但是 GPT 2.0 无疑进一步突破了这个障碍,为 Transformer 的进一步攻城略地打下了坚实的基础。

从这一角度来说,GPT 2.0 的性能不能被认为是过度赞誉。

问题 3:OpenAI 是否在炒作?

那么,OpenAI 不公开数据和源码究竟是不是如上文 Anima Anandkumar 所说是一场炒作呢?一方面,OpenAI 经常谈到他们对“AI”技术落入坏人手中的担忧,结合这个模型生成的假文章,他们的担忧似乎合理。另一方面,OpenAI 向来喜欢哗众取宠,经常通过官博将不成熟的工作推向公众视野以博取关注。

这些例子包括诱导《纽约时报》报道了其本质上平平无奇的发现,即如果强化学习用了错误的目标函数,就学不到让你满意的策略(
https://www.nytimes.com/2017/08/13/technology/artificial-intelligence-safety-training.html)。

毕竟,这些重大故事与 OpenAI 博客上的新闻稿一脉相承,OpenAI 可能会故意策划了这么一出,让媒体大肆报道。

对此,AI 前线询问了 Jack Clark 的看法,他并未正面回应,而是给出了官方博客的文章链接和部分 GitHub 开放地址。

实际上,这项工作似乎是主流 NLP 研究的中间阶段,这是一项很好的工作,也很可能会被公布,在未来一两个月内,同样强大的 NLP 实验室可能会出现同样的成果。

也许,这篇博客会在媒体上形成病毒式传播与当今新闻的供需生产模式有关,按需生产的新闻已经非常常见,官方 PR 博客已经成为新闻生产的可靠消息源,从而广为传播。

但笔者认为,即使是使用了一些 PR 的手段,也掩盖不了 GPT 2.0 出色的语言生成性能,一项好的研究成果首先应该被人所知,才能发挥应有的作用,而不是默默躲在黑暗的角落等待被发掘。

参考链接:

http://approximatelycorrect.com/2019/02/17/openai-trains-language-model-mass-hysteria-ensues/