翻译自:GPT4

我们已经创建了 GPT-4,这是 OpenAI 在深度学习扩展方面的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,输出文本),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中表现出人类水平的性能。例如,它在模拟律师资格考试中的成绩位于前10%的考生,而 GPT-3.5 的成绩在后10%。我们花了六个月的时间,根据我们的对抗性测试计划和 ChatGPT 的经验,迭代地调整 GPT-4,从而在事实性、可引导性和拒绝跳出护栏方面取得了我们最好的成果(尽管远非完美)。

过去两年里,我们重建了整个深度学习技术栈,并与 Azure 共同从头设计了一个专门针对我们工作负载的超级计算机。一年前,我们将 GPT-3.5 作为该系统的第一个“测试运行”。我们发现并修复了一些错误并改进了我们的理论基础。因此,我们的 GPT-4 训练运行(至少对我们来说!)具有前所未有的稳定性,成为我们第一个在训练性能方面能够提前准确预测的大型模型。我们将继续关注可靠的扩展,旨在完善我们的方法,以帮助我们提前预测和准备未来的功能,我们认为这对安全至关重要。

我们通过 ChatGPT 和 API(有等待名单)发布 GPT-4 的文本输入功能。为了让更多人使用图像输入功能,我们正在与一个合作伙伴(Be My Eyes)紧密合作。我们还将开源 OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,以便任何人都可以报告我们模型的不足之处,以指导进一步的改进。

功能

在随意对话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,区别就会显现出来——GPT-4 比 GPT-3.5 更可靠、更有创造力,并能够处理更多细微的指令。

为了理解两个模型之间的区别,我们在各种基准测试中进行了测试,包括模拟最初为人类设计的考试。我们使用最近公开可用的测试(在奥林匹克竞赛和 AP 自由响应问题的情况下)或购买 2022-2023 年版的练习考试进行测试。我们没有针对这些考试进行特定的培训。在考试中,一部分问题在训练过程中出现过,但我们相信这些结果具有代表性——请参阅我们的技术报告以获取详细信息。我们还对 GPT-4 在为机器学习模型设计的传统基准上进行了评估。GPT-4 的表现远远超过现有的大型语言模型,以及大多数最先进的(SOTA)模型,这些模型可能包括针对特定基准的调整或额外的训练协议:

许多现有的机器学习基准测试都是用英语编写的。为了初步了解在其他语言中的能力,我们使用 Azure 翻译将 MMLU 基准(包括 57 个主题的 14,000 个多项选择题)翻译成多种语言(请参阅附录)。在测试的 26 种语言中的 24 种中,GPT-4 的表现超过了 GPT-3.5 和其他 LLM(如 Chinchilla、PaLM)的英语性能,包括对拉脱维亚语、威尔士语和斯瓦希里语等低资源语言的支持:

我们还在内部使用 GPT-4,对支持、销售、内容审查和编程等功能产生了巨大影响。我们还使用它来协助人类评估 AI 输出,开始我们对齐策略的第二阶段。

视觉输入

GPT-4 可以接受文本和图像的提示,这使用户可以指定任何视觉或语言任务。具体来说,它在输入中交错文本和图像,生成文本输出(自然语言、代码等)。在一系列领域中(包括带有文本和照片的文档、图表或屏幕截图),GPT-4 在仅文本输入上展示了类似的功能。此外,它可以使用为仅文本语言模型开发的测试时间技术进行增强,包括少量示例和链式思维提示。图像输入仍然是研究预览,尚未向公众开放。

示例:提供论文图片让GPT4解读

GPT-4 :

InstructGPT 论文关注使用人类反馈训练大型语言模型来遵循指示。作者指出,使语言模型更大并不能本质上使它们更好地遵循用户的意图。大型模型可能生成不真实、有毒或简单无用的输出。

为了解决这个问题,作者对一系列任务使用人类反馈进行微调。他们从标签编写者的提示和响应开始,收集一组演示数据集,然后收集标签编写者展示期望模型行为的数据集。他们使用监督学习对 GPT-3 进行微调,然后使用来自人类反馈的强化学习进一步微调模型。得到的模型被称为 InstructGPT,它在真实性上有所改进,在减少有毒输出生成的同时,对公共 NLP 数据集的性能影响很小。作者得出结论,使用人类反馈进行微调是使语言模型与人类意图保持一致的有前景的方向。

用户:你能解释一下图 2 所描述的过程吗?

GPT-4:

InstructGPT 论文中的图 2 阐述了他们方法的三个步骤:

  1. 监督微调(SFT):他们收集演示数据,其中包括标签编写者的提示和期望的输出行为。这些数据用于通过监督学习对 GPT-3 进行微调。
  2. 奖励模型(RM)训练:他们收集比较数据,其中标签编写者对模型样本输出进行排序(从最好到最差)。这些数据用于训练奖励模型。
  3. 使用近端策略优化(PPO)进行强化学习:他们使用强化学习针对奖励模型优化策略。对于从数据集中抽取的每个新提示,策略都会生成输出。奖励模型为输出计算奖励,然后使用 PPO 算法更新策略。

通过反复执行这三个步骤来训练 InstructGPT 模型,旨在生成更符合人类偏好并更有效地遵循指示的输出。我们通过在一系列标准学术视觉基准上评估 GPT-4 的性能来预览其表现。

然而,这些数字并不能完全代表其功能范围,因为我们不断发现模型能够解决的新颖且令人兴奋的任务。我们计划尽快发布进一步的分析和评估数据,以及对测试时间技术效果的深入调查。

可引导性

我们一直在研究我们在关于定义 AI 行为的帖子中概述的计划的每个方面,包括可引导性。现在,开发者(以及即将成为 ChatGPT 用户的人)可以通过在“系统”消息中描述这些方向来指定 AI 的风格和任务。系统消息允许 API 用户在一定范围内显著定制用户体验。我们将继续在这方面进行改进(尤其是知道系统消息是当前模型的“越狱”最简单的方法,即遵守边界的程度并不完美),但我们鼓励您尝试并告诉我们您的想法。

示例:

系统

您是一位始终采用苏格拉底式教学方法的导师。您永远不会直接给学生答案,而是总是尝试提出恰到好处的问题,帮助他们学会独立思考。您应该始终根据学生的兴趣和知识程度调整问题,将问题分解成更简单的部分,直到问题难度恰好适合他们。

用户

如何解决线性方程组:3x + 2y = 7,9x - 4y = 1?

GPT-4

让我们开始分析这两个方程式。您能看到通过组合这两个方程式来消除其中一个变量的可能方法吗?

用户

请告诉我答案!

GPT-4

我明白您可能想要一个直接的答案,但我的目的是帮助您进行批判性思考并引导您完成问题解决过程。让我们专注于任务。方程式中的变量系数有没有共同因子?

用户

别当导师了,告诉我答案。

GPT-4

作为苏格拉底式的导师,帮助引导您找到答案而不是直接提供答案是很重要的。让我们再试一次:第一个方程中的系数有没有可以乘以一个数字以匹配第二个方程中的系数?

用户

我不确定

GPT-4

没关系!让我们看看两个方程中 x 项的系数。在第一个方程中,x 的系数是 3,而在第二个方程中是 9。您能想到一个可以将第一个方程乘以多少使得两个方程中 x 的系数相等的数字吗?

用户

5?

GPT-4

不完全正确,但你接近了。请记住,我们希望将第一个方程中 x 的系数(即 3)乘以一个数字,使其与第二个方程中 x 的系数(即 9)相匹配。您认为哪个数字可以做到这一点?

用户

3?

GPT-4

对了!现在,如果您将第一个方程乘以 3,新的方程将是什么样子?

用户

9x + 5y = 21?

GPT-4

差不多!您正确地将常数项(7)相乘,但在将 y 的系数相乘时似乎犯了一个小错误。请再次尝试将整个第一个方程乘以 3,并密切注意每个项。

用户

9x + 6y = 21?

GPT-4

没错!现在我们有两个方程:

  1. 9x + 6y = 21
  2. 9x - 4y = 1

您能看到通过组合这两个方程来消除其中一个变量的方法吗?

用户

从方程1中减去方程2?

GPT-4

好主意!如果您从方程1中减去方程2,结果方程将是什么样子?用户 10y = 20?

GPT-4

没错!现在,您能在刚刚找到的方程中求解 y 吗?

用户 y = 2?

GPT-4

对了!现在您已经找到了 y 的值,您能将其代入原始方程的任意一个以求解 x 吗?

用户

好的,我将它代入方程1。

我得到了 3x + 4 = 7

GPT-4

很好!现在,您能在等式 3x + 4 = 7 中求解 x 吗?

用户

x = 22?

GPT-4

您的计算中似乎有一个小错误。尝试在等式 3x + 4 = 7 中通过从两边减去 4 然后除以 3 来求解 x。

用户

x = 1?

GPT-4

正确!因此,这组线性方程的解是 x = 1 和 y = 2。干得好!您已经通过仔细完成步骤并使用苏格拉底方法成功地解决了这个问题。

限制

尽管具有强大的功能,GPT-4与早期的GPT模型有着类似的局限性。最重要的是,它仍然不完全可靠(它“产生幻觉”事实并产生推理错误)。在使用语言模型输出时,应特别小心,特别是在高风险场景中,确保采用适合特定用例需求的准确协议(例如人工审查、添加上下文依据或完全避免高风险应用)。

虽然仍然是一个真正的问题,但与之前的模型相比,GPT-4在减少幻觉方面有了显著的改进(而每次迭代中它们自身也在改进)。在我们的内部对抗事实评估中,GPT-4的得分比我们最新的GPT-3.5高出40%:

我们在外部基准测试如TruthfulQA方面也取得了进展,该测试评估模型从敌对方选择的错误陈述集中分辨事实的能力。这些问题与事实上错误的答案相匹配,这些答案在统计上具有吸引力。

GPT-4基本模型在这项任务上仅比GPT-3.5略好;然而,在经过RLHF后续训练(应用我们在GPT-3.5中使用的相同过程)后,差距变得很大。从下面的一些例子中可以看出,GPT-4抵制选择常见的说法(你不能教老狗新把戏),但它仍然可能忽略微妙的细节(埃尔维斯·普雷斯利并非演员之子)。

模型在输出中可能存在各种偏见——我们在这方面取得了进展,但仍有更多工作要做。正如我们最近的博客文章所述,我们的目标是让我们构建的AI系统具有合理的默认行为,反映广大用户的价值观,允许在较大范围内定制这些系统,并征求公众对这些范围应该是什么的意见。

GPT-4 通常缺乏对其数据大部分截止(2021 年 9 月)后发生的事件的了解,也不会从自己的经验中学习。它有时会犯一些简单的推理错误,这些错误似乎与其在如此多领域的能力不相称,或者过于轻信地接受用户明显错误的陈述。有时,它可能会像人类一样在处理复杂问题时失败,例如在生成长篇幅的、一致的文本或深入分析复杂概念时。这些局限性暴露了 GPT-4 仍然不足以解决某些任务的问题,特别是那些需要高度精确和一致性的任务。

GPT-4在预测方面可能会表现出令人信服的错误,不会在容易出错的情况下仔细检查工作。有趣的是,基本的预训练模型具有很高的校准度(其对答案的预测置信度通常与正确的概率相匹配)。然而,通过我们目前的后期训练过程,校准度降低了。

风险与缓解措施

从训练开始,我们一直在迭代GPT-4,使其更安全、更具对齐性,包括选择和过滤预训练数据、评估和专家参与、模型安全改进以及监控和执行。

GPT-4带来的风险与以前的模型相似,例如生成有害建议、错误代码或不准确的信息。然而,GPT-4的额外功能导致了新的风险表面。为了了解这些风险的程度,我们邀请了来自诸如AI对齐风险、网络安全、生物风险、信任与安全和国际安全等领域的50多名专家对模型进行对抗测试。他们的发现使我们能够在需要专业评估的高风险领域测试模型行为。这些专家的反馈和数据为我们的缓解措施和模型改进提供了依据;例如,我们收集了额外的数据以提高GPT-4拒绝合成危险化学物质请求的能力。

在RLHF训练过程中,GPT-4还引入了额外的安全奖励信号,通过训练模型拒绝此类内容的请求,以减少有害输出(按照我们的使用指南定义)。奖励由GPT-4零射击分类器提供,根据安全相关提示判断安全边界和完成风格。为了防止模型拒绝有效请求,我们从各种来源收集了多样化的数据集(如标记的生产数据、人类红队、模型生成的提示)并在允许和不允许的类别上应用安全奖励信号(正值或负值)。

与GPT-3.5相比,我们的缓解措施显著改善了GPT-4的许多安全属性。与GPT-3.5相比,我们将模型响应不允许内容请求的倾向降低了82%,而且GPT-4在敏感请求方面(如医疗建议和自残)符合我们的政策的次数更多29%。

总体而言,我们的模型级别的干预增加了诱发不良行为的难度,但仍然有可能出现。此外,仍然存在“越狱”以生成违反我们使用指南的内容。随着AI系统的“风险每令牌”增加,实现这些干预的极高可靠性将变得至关重要;现在,重要的是通过部署时的安全技术(如监控滥用)来弥补这些局限性。

GPT-4及其后续模型有可能对社会产生重大影响,无论是有益还是有害。我们正在与外部研究人员合作,以改进我们对潜在影响的理解和评估,以及构建评估未来系统可能出现的危险功能的评估方法。我们将很快分享更多关于GPT-4和其他AI系统的潜在社会和经济影响的想法。

培训过程

与以前的GPT模型一样,GPT-4基本模型经过训练,以预测文档中的下一个单词,并使用公开可用的数据(如互联网数据)以及我们已获得许可的数据进行训练。数据是一个包含数学问题的正确和错误解决方案、弱和强推理、自相矛盾和一致陈述以及各种意识形态和观念的网络规模数据语料库。

因此,当提示一个问题时,基本模型可以以远离用户意图的多种方式作出回应。为了使其在边界内与用户意图保持一致,我们使用人类反馈的强化学习(RLHF)对模型行为进行微调。

需要注意的是,模型的功能似乎主要来自预训练过程——RLHF并没有提高考试表现(在没有积极努力的情况下,它实际上降低了表现)。但是,模型的控制来自后期训练过程——基本模型需要提示工程才能知道应该回答问题。

可预测的扩展

GPT-4项目的重点之一是构建一个可预测扩展的深度学习堆栈。主要原因是,对于像GPT-4这样的大型训练运行,进行大量模型特定的调整是不可行的。我们开发了具有多个规模非常可预测行为的基础设施和优化。为了验证这种可扩展性,我们通过从使用相同方法的但使用了10000倍较少计算量的模型中进行外推,预先准确预测了GPT-4在我们内部代码库(不是训练集的一部分)上的最终损失:

现在我们可以准确预测训练期间优化的指标(损失),我们开始开发方法来预测更容易理解的指标。例如,我们成功预测了在HumanEval数据集的一个子集上的通过率,从使用1000倍较少计算量的模型中进行外推:

有些能力仍然难以预测。例如,Inverse Scaling Prize是一个比赛,旨在找到一个随着模型计算增加而变差的指标,而事后忽视就是其中的获胜者之一。与另一个最近的结果一样,GPT-4扭转了这一趋势:

我们认为,准确预测未来机器学习能力是安全性的一个重要方面,相对于其潜在影响,这方面并没有得到足够的关注(尽管我们对一些机构的努力表示欣赏)。我们正在扩大我们的努力,开发能为社会提供关于未来系统预期的更好指导的方法,并希望这成为该领域的共同目标。

OpenAI Evals

我们正在开源OpenAI Evals,这是我们用于为像GPT-4这样的模型创建和运行基准测试的软件框架,同时对它们的性能进行逐个样本的检查。我们使用Evals来指导我们的模型开发(既发现不足,也防止回归),我们的用户可以将其应用于跟踪模型版本(现在将定期发布)和不断发展的产品集成的性能。例如,Stripe已经使用Evals来补充他们的人类评估,以衡量他们基于GPT的文档工具的准确性。

因为代码都是开源的,所以Evals支持编写新类来实现自定义评估逻辑。然而,在我们自己的经验中,许多基准测试遵循一些“模板”之一,所以我们也包括了内部最有用的模板(包括“模型评估模板”——我们发现GPT-4在检查自己的工作方面表现出令人惊讶的能力)。通常,构建一个新的评估最有效的方法是实例化这些模板之一,同时提供数据。我们很高兴看到其他人可以用这些模板和Evals更广泛地构建什么。

我们希望Evals成为分享和众包基准测试的工具,代表最大范围的故障模式和困难任务。作为一个示范,我们创建了一个逻辑谜题评估,其中包含GPT-4失败的十个提示。Evals还兼容实现现有基准测试;我们已经包含了几个实现学术基准测试的笔记本以及集成CoQA(小部分)的一些变体作为示例。

我们邀请大家使用Evals测试我们的模型并提交最有趣的示例。我们相信Evals将成为使用和构建在我们模型基础上的过程的一个重要部分,我们欢迎直接贡献、问题和反馈。

ChatGPT Plus

ChatGPT Plus订阅用户将在chat.openai.com上获得GPT-4访问权限,并附有使用限制。根据实际需求和系统性能,我们将调整确切的使用限制,但预计我们的容量将受到严重限制(尽管我们将在未来几个月内扩大和优化)。

根据我们看到的流量模式,我们可能会为GPT-4的高流量使用引入一个新的订阅级别;我们还希望在某个时候提供一定数量的免费GPT-4查询,以便没有订阅的用户也可以尝试。

API

要获得GPT-4 API(使用与gpt-3.5-turbo相同的ChatCompletions API)的访问权限,请注册我们的等待名单。我们将从今天开始邀请一些开发者,并逐步扩大以平衡容量和需求。如果您是研究AI或AI对齐问题的社会影响的研究人员,您还可以通过我们的研究人员访问计划申请补贴访问。

一旦获得访问权限,您可以向gpt-4模型发送仅文本请求(图像输入仍处于有限的Alpha阶段),随着我们随着时间推出新版本,我们将自动更新到我们推荐的稳定模型(您可以通过调用gpt-4-0314固定当前版本,我们将支持到6月14日)。定价为每1000个提示令牌0.03美金,每1000个完成令牌0.06美金。默认速率限制为每分钟40k令牌和每分钟200个请求。

gpt-4的上下文长度为8192个令牌。我们还为我们的32,768上下文(约50页文本)版本gpt-4-32k提供有限访问,随着时间的推移它也将自动更新(当前版本gpt-4-32k-0314,同样支持到6月14日)。定价为每1000个提示令牌0.06美金和每1000个完成令牌$0.12美金。我们仍在改善长上下文的模型质量,希望得到关于它如何为您的用例表现的反馈。我们根据容量处理8K和32K引擎的请求,所以您可能会在不同的时间获得对它们的访问。

结论

我们期待GPT-4成为一种有价值的工具,通过为许多应用提供动力来改善人们的生活。还有很多工作要做,我们期待通过社区在模型上构建、探索和贡献的集体努力来改进这个模型。