之前只有少部分程序员才能摸到的、门槛高难度更高的 OpenAI 神仙文本生成器 GPT-2,终于有了普通人能使用的 Web 版本!

在这个由加拿大工程师 Adam King 制作的网站上,任何人都能调教简化版的 GPT-2——它能够识别各种各样的输入,从新闻、歌词、诗歌、食谱、代码,甚至到《指环王》和《复仇者联盟》主题,只要给出一个开头,GPT-2 就能完美地接上下茬。

在网站上,我们可以看到目前 GPT-2 掌握的主题似乎有点过于丰富:

整理行李去火星;说英语的独角兽;《指环王》;小行星撞地球;食谱;《复仇者联盟》剧本;软件技术文档……

于是,我尝试了一下“《复仇者联盟》剧本”,想看看它能不能编出一个《复联5》:

当读到这个输出剧本时,我简直震惊了。其中有大量情感丰满的盾铁互动描写,包括“Steve 深吻 Tony 的前额”,“Steve 望着 Tony,Tony 报以微笑”。尽管这个剧本并不完美,但总的来说它非常连贯,看起来不仅像是人写的,还像是站盾铁 CP 的同人女作品!

而在面对其他类型的输入文本时,GPT-2 同样没有让人失望:

输入“美国总统特朗普宣布永远关闭美国政府”,GPT-2 续写道:“特朗普批评媒体,声称竞选中有大量非法选票,选举被操纵了……当他走下台时,抗议的公众大呼‘特朗普’。”

有时,GPT-2 也会变成爸爸妈妈转发的朋友圈鸡汤:

问它,“我今天应该干嘛”,GPT-2 回答道:“去吧,读一本书,寻找一列火车,欣赏夕阳,品味城中美食。”

GPT-2 的流畅表现令人发指,时刻让我觉得,续写我抛出的引子的不是机器,而是藏在黑匣子里的隐形枪手。然而,就连 GPT-2 的创造者们也不知道它的“上限”在哪里。

OpenAI 加州实验室工程副总裁 David Luan 在接受 The Verge 采访时表示,有一次,他们命令 GPT-2 以“垃圾回收为什么对世界有害”为题写文章,结果 GPT-2 给出了一篇有理有据令人信服的论文。“尽管这个论点和普世认知相悖,但它还是写出了非常合理的解释”, Luan 说道,“这篇东西完全可以提交给 SAT(美国高考),然后拿高分。”

写作水平优于80%美国高中生的 GPT-2,到底是个什么神仙模型?

“我们从 Reddit 上收集了 800 万个链接”

GPT-2 能应对各种各样的文风和内容,然而和 OpenAI 之前推出的专门打 DotA 的电竞 AI 不同,GPT-2 并没有接受特定数据集的强化训练,而是对各种文本“来者不拒”。

一开始,OpenAI 的工程师们只为 GPT-2 设立了一个简单的目标:根据文本中所有已知的单词,预测下一个单词。

为了让 GPT-2 变得足够聪明,工程师喂给了它 800 万个网页链接。这些链接必须精挑细选:要内容丰富多样,要由真人书写编辑,要语言足够精彩。

最终,他们从 Reddit 上选取了 800 万条 Karma 值(相当于论坛里的等级)大于 3 的高赞链接,然后抓取了其中的文本部分,形成了一个 40G 大小的紧凑训练数据集。

这种精心筛选使 GPT-2 的数据集比其他竞争对手(如 CommonCrawl)的数据集质量更高。

“在某种意义上,所有的工作都是由 Reddit 网友完成的,” OpenAI 研究员 Jeff Wu 在接受 The Verge 采访时开玩笑说。OpenAI 主管 Amodei 补充道,至少他们没有用其他更有毒的语料来源,比如 4Chan。

在整个无监督训练过程中,工程师没有对 GPT-2 进行任何有针对性的培训。这样一个“放养”的 AI(又叫 Zero-shot 学习法),却在盲测中突破了多项记录,拿下了世界第一。

在 OpenAI 博客公布的测试结果中,我们可以看到,GPT-2 在多项测试中表现优于在特定领域数据集(例如维基百科,新闻,书籍)上训练的模型。在著名的 AI 常识推理比赛 Winograd Schema Challenge 中,GPT-2 的成绩把世界纪录拔高了 7%。在“儿童书籍填词测试”中,GPT-2 的表现几乎与人类无异。

在回应人类输入的语句时,没有经过特定训练的 GPT-2 像变色龙一样,能快速适应条件文本的风格和内容,生成后续文本。

比如这个以假乱真天马行空的《指环王》续写,我觉得甚至比《权力的游戏》最终季还好看。

“预测文本是 AI 的超级任务”

比起 GPT-2,此前采用机器学习的 AI 都只能算是“狭隘的 AI”,仅能处理特定的任务。

例如 OpenAI 的 DotA 梦之队能战胜人类最强玩家,在《星际争霸》中却连买兵都不会;DeepMind 的AlphaGo 能击败围棋冠军,但它下五子棋的技术可能还不如小学生。但 GPT-2 的表现证明,人类有能力训练出更加泛化的 AI。

但在 OpenAI 前工程师 Ryan Lowe 看来,GPT-2 表现出色的原因主要来源于更大的数据库。GPT-2 的参数数量和训练数据量都是上一代 GPT 的10倍。

与此同时 GPT-2 距离工程师梦想中的万能 AI 仍有一段距离。

在生成文本时,尽管语法和拼写都无懈可击,一些小问题仍然会暴露 GPT-2 的真实身份:例如文本重复,前后矛盾(例如,有时模型会输出“在水下发生火灾”),突然切换话题。

总的来说,GPT-2 对于上下文越熟悉,生成的文本就越合理。在英国脱欧、Miley Cyrus、《指环王》等流行文化中常出现的话题上,GPT-2 几乎不会出错。但在应对技术含量更高、更专业的内容时,GPT-2 就会变成人工智障。

工程师们感到兴奋的另一个原因是,预测文本是 AI 的 “超级任务”,GPT-2 的诞生为问题的解决带来了希望。从回答“现在几点了”到自动联想你短信的下一句话,一个好的问答模型可以解决一系列复杂的问题。

“我们不敢公布源代码”

除了写同人小说,GPT-2 还能发挥更大的作用。

OpenAI 预测,在未来,GPT-2 可以成为写作助手、残障人士对话辅助 AI,同样的模型还能用于语言之间的无监督翻译和建立更准确的语音识别系统。

然而,OpenAI 却暂时不打算公开 GPT-2 的源代码。

“大型通用语言模型可能会产生重大的社会影响,”OpenAI 在文档中写道,“我们将会发布一个小型模型供研究人员进行实验。”

在 OpenAI 看来,一旦被公开,GPT-2 就可能被恶意利用。无论是生成假新闻,还是用来写垃圾邮件,GPT-2 都是一把好手,可以想像,有了 GPT-2 之后,社交网络上铺天盖地的机器人账号只会变得更加难以辨认。

下一步,工程师们会用更多的数据训练 GPT-2。

“我们很期待到时候会发生什么,” OpenAI 工程师 Luan 说,“同时也有点儿害怕。”

但对于普通人而言,我们不需要担心那么多,现在登陆这个网址,就可以用上 GPT-2 了!