对于GPT-2,我们的一个主要关注点是模型的恶意使用(例如,虚假信息),一旦模型是开源的,就很难防止这种情况。对于API,我们可以通过限制对已批准的客户和用例的访问来更好地防止滥用。在提议的应用程序上线之前,我们有一个强制性的生产审查过程。在产品评审中,我们从几个方面评估应用程序,提出如下问题: 这是当前支持的用例吗?, 应用程序的开放性如何?, 应用程序的风险有多大?, 你打算如何解决潜在的误用?谁是你的应用程序的最终用户?

我们终止对那些被发现对人们造成(或打算造成)身体、情感或心理伤害的用例的API访问,包括但不限于骚扰、故意欺骗、激进化、虚假信息或垃圾邮件,以及没有足够的护栏来限制终端用户滥用的应用程序。当我们在实践中获得更多操作API的经验时,我们将不断改进我们能够支持的使用类别,既扩大我们可以支持的应用程序的范围,又为那些我们担心滥用的应用程序创建更细粒度的类别。

在批准使用API时,我们考虑的一个关键因素是应用程序在多大程度上表现出与系统底层生成能力相关的开放式行为和约束行为。API的开放式应用程序(即能够通过任意提示无障碍地生成大量可定制文本的应用程序)特别容易被误用。可以使生成用例更安全的约束包括将人保持在循环中的系统设计、最终用户访问限制、输出的后处理、内容过滤、输入/输出长度限制、主动监控和主题限制。

我们也在继续对API提供的模型的潜在滥用进行研究,包括通过我们的学术访问计划与第三方研究人员进行研究。目前我们的研究人员数量非常有限,我们的学术合作伙伴明德学院、华盛顿大学和艾伦人工智能研究所已经有了一些成果。我们已经有成千上万的申请人申请这个项目,目前正在优先考虑专注于公平和代表性研究的申请。