OpenAI 研究人员最近发布了一篇论文,描述了 GPT-3 的开发,这是一种由 1750 亿个参数组成的最先进的语言模型。 

相比之下,之前的版本 GPT-2 由 15 亿个参数组成。本月早些时候,微软发布了最大的基于 Transformer 的语言模型,由 170 亿个参数组成。 

“GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解读单词、使用新词一个句子,或者执行三位数算术,”研究人员在他们的论文中指出。 “我们发现 GPT-3 可以生成新闻文章样本,人类评估者很难将这些样本与人类撰写的文章区分开来。”

自然语言处理任务的范围从生成新闻文章到语言翻译,再到回答标准化测试问题。 

该组织表示:“每个模型的精确架构参数是根据计算效率和跨 GPU 模型布局的负载平衡来选择的。” “所有模型均在 Microsoft 提供的高带宽集群中的 NVIDIA V100 GPU 上进行训练。”

OpenAI 在 cuDNN 加速的 PyTorch 深度学习框架上训练所有 AI 模型。 

本月早些时候,微软和 OpenAI 宣布推出专为该组织打造的新型 GPU 加速超级计算机。 

两家公司在博客中表示:“为 OpenAI 开发的超级计算机是一个单一系统,拥有超过 285,000 个 CPU 核心、10,000 个 GPU,每个 GPU 服务器的网络连接速度为每秒 400 GB。”  

在性能方面,新的 GPT-3 模型在去年推出的 SuperGLUE 基准测试中取得了接近最先进的结果,用于测试推理和其他高级 NLP 任务。在其他基准测试中,包括 COPA 和 ReCoRD,该模型在上下文中的单词分析 (WIC) 和 RACE(一组初中和高中考试题)方面表现不佳。 

该组织表示:“尽管存在许多限制和弱点,但这些结果表明,非常大的语言模型可能是开发适应性强的通用语言系统的重要组成部分。”