Transformer 诞生不到一年,人工智能研究机构 OpenAI 就推出了拥有 1.17 亿参数的 GPT-1 模型。 GPT是Generative Pre-training Transformer(生成的预训练Transformer)的缩写,它使用大量数据训练的基于Transformer的模型。 该公司希望开发多技能、通用的人工智能,并相信大型语言模型是实现该目标的关键一步。


GPT 将 Transformer 与无监督学习相结合,这是一种在先前未注释的数据上训练机器学习模型的方法。 这允许软件自行发现数据中的模式,而无需被告知它正在查看什么。 之前机器学习的大部分成功都依赖于监督学习和注释数据,但手动标记数据是一项缓慢的工作,因此限制了可用于训练的数据集的大小。

经过GPT最终训练出来的模型,在问答、文本相似度评价、语义蕴涵判定、文本分类四个语言场景中,都取得了优于基础Transformer模型的效果,成为新的行业首创。

OpenAI LP 首席科学家 Ilya Sutskever(左)在 2019 年表示,要创造通用人工智能,“你需要数十亿美元的投资”。他与时任公司首席技术官的 Greg Brockman 坐了下来。

2019 年:GPT-2

微软向 OpenAI 投资了 10 亿美元。 同年,OpenAI 公布了一个拥有 15 亿参数的模型:GPT-2。 模型架构与GPT-1相同,主要区别在于GPT-2的规模更大(10倍)。 同时,他们发表了介绍该模型的论文《Language Models are Unsupervised Multitask Learners》(语言模型是无监督多任务学习者)。

在这项工作中,他们使用了他们收集的一个新数据集,主要是网页上的文本信息。 不出所料,GPT-2模型刷新了大规模语言模型在多语言场景下的评分记录,引起了更大的轰动。 但 OpenAI 表示,它非常担心人们会使用 GPT-2 来“产生欺骗性、偏见或辱骂性的语言”,因此不会发布完整模型。

2020 年:GPT-3

GPT-2 令人印象深刻,但 OpenAI 的后续产品 GPT-3 引起了更大的轰动,实现了生成类人文本能力的巨大飞跃。 GPT-3 可以回答问题、总结文档、生成不同风格的故事、在英语、法语、西班牙语和日语之间进行翻译等等。 它的模仿能力令人难以置信。

最值得注意的收获之一是 GPT-3 的收益来自超大规模现有技术,而不是发明新技术。 GPT-3 有 1750 亿个参数,远大于前两个 GPT 模型:基本过滤的全网络爬虫数据集(4290 亿个令牌)、维基百科文章(30 亿个令牌)、两个不同的书籍数据集(共 67 个) 亿代币)。 它的模型架构与 GPT-2 没有本质区别。

GPT-3刚出来的时候,并没有提供丰富的用户交互界面,需要用户提交申请,申请通过后才能注册,所以直接体验过GPT-3模型的人并不多。

经过早期的测试,OpenAI 将 GPT-3 商业化:付费用户可以通过应用程序编程接口(API)连接到 GPT-3,并使用该模型完成所需的语言任务。 2020年9月,微软公司获得了GPT-3模型的独家授权,这意味着微软拥有GPT-3源代码的独家使用权。

与此同时,上一代的缺点被进一步放大,谷歌 AI 伦理团队联合主任 Timnit Gebru 合着的一篇论文强调了与大型语言模型相关的潜在陷阱。 危险,但该论文不受公司内部高级管理人员的欢迎。 2020 年 12 月,Gebru 被解雇。


2022 年 1 月:InstructGPT

GPT-3公测期间,用户提供了大量对话和提示数据,OpenAI内部数据标注团队也生成了很多人工标注的数据集。 OpenAI 使用这些数据对 GPT-3 进行有监督训练微调,收集微调模型生成的答案样本,使用奖励模型和更多标记数据继续优化微调语言模型,并进行迭代,最终 得到了 InstructGPT。 InstructGPT 更擅长遵循人类指令,产生更少的冒犯性语言、更少的错误消息和更少的整体错误。

大型语言模型的一个常见问题是训练它们的成本如此之高,以至于只有最富有的实验室才能创建一个。 这引起了人们的担忧,即这种强大的人工智能是由小型企业团队秘密开发的,没有得到更广泛研究界的适当审查和投入。 作为回应,几个合作项目开发了大型语言模型,并将它们免费发布给任何想要研究和改进该技术的研究人员。 Meta 构建并提供 OPT,这是对 GPT-3 的重构。 Hugging Face 领导了一个由大约 1000 名志愿者研究人员组成的联盟来构建和发布 BLOOM。

OpenAI 工作人员与 Dota 2 电竞战队 OG 成员合影。


2022 年 12 月:ChatGPT

终于在 2022 年 12 月,ChatGPT 正式上线。 ChatGPT 与 InstructGPT 模型类似,是 OpenAI 在对 GPT-3 模型进行微调后开发的对话机器人。 OpenAI官网信息显示,ChatGPT和InstructGPT是姊妹模型。 与 InstructGPT 一样,ChatGPT 是使用强化学习根据人类测试人员的反馈进行训练的,这些测试人员将其性能评为流利、准确和无害的对话者。 从那时起,全世界有 1 亿人用它聊天。

用户在社交媒体上发布的对话示例表明,ChatGPT 可以完成一系列常见的文本输出任务,包括编写代码、纠正代码错误、翻译文学作品、写小说、撰写商业文案、创建食谱、做作业和评估作业。 . ChatGPT 优于 GPT-3 的地方在于,前者在回答时更像是与用户交谈,而后者更擅长制作长文章,缺乏口语化的表达方式。

ChatGPT一夜爆红后,在全球引起了高度关注。 有业内人士认为,它将影响包括搜索引擎、广告、教育等领域。 2022年12月,谷歌内部发布红色预警,开始应急响应。

ChatGPT在接受时代周刊专访时回答:我还有很多局限性,但人类应该做好应对AI的准备。