比想象中来得更快

继ChatGPT引爆科技圈之后,

今天凌晨,

最新一代人工智能语言模型

GPT-4震撼发布

多模态大模型

直接升级ChatGPT。

图片

北京时间3月15日凌晨,人工智能初创公司OpenAI正式公布最新一代人工智能语言模型GPT-4。OpenAI在当天的声明中称,GPT-4的诞生,是OpenAI在放大深度学习方面的努力的最新里程碑。

图片

据OpenAI博客表示,OpenAI已经创建了GPT-4,这是OpenAI努力扩展深度学习的最新里程碑。GPT-4是一个大型的多模式模型(接受图像和文本输入,输出文本),虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的性能。例如,它通过了一个模拟的律师考试,分数约为考生的前10%;相比之下,GPT-3.5的分数约为倒数10%。OpenAI花了6个月的时间反复使用GPT-4,从OpenAI的对抗性测试程序以及ChatGPT中吸取教训,在真实性、可操纵性和拒绝走出护栏方面取得了OpenAI有史以来最好的结果,尽管离完美还差得很远。

总体来说,此次GPT-4

实现了几个方面的飞跃式提升:

强大的识图能力;

文字输入限制提升至2.5万字;

回答准确性显著提高;

能够生成歌词、创意文本,

实现风格变化。

GPT-4比GPT-3.5

更可靠、更有创造力,

能够处理更细微的指令

在一次非正式的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。

当任务的复杂性达到一个足够的阈值时,区别就出来了——GPT-4比GPT-3.5更可靠、更有创造力,能够处理更细微的指令。为了理解这两种模型之间的区别,OpenAI在各种基准上进行了测试,包括最初为人类设计的模拟考试。OpenAI继续使用最近公开提供的测试(在奥赛和AP自由回答问题的情况下)或购买2022-2023年版的模拟考试。OpenAI没有针对这些考试进行专门的培训。考试中的少数问题在训练期间被模型看到,但OpenAI相信结果具有代表性。

输入图片即可生成代码!

最令小编感到惊艳的是,GPT-4的视觉输入功能。

GPT-4可以接受文本和图像的提示符,这与纯文本设置并行,即允许用户指定任何视觉或语言任务。具体而言,它生成文本输出(自然语言、代码等)给定由分散的文本和图像组成的输入。在一系列领域——包括带有文本和照片、图表或截图的文档——GPT-4显示了与仅文本输入类似的功能。此外,它还可以通过测试时技术来增强,这些技术是为只使用文本的语言模型开发的,包括很少的射击和提示。图像输入仍然是一个研究预览,不能公开使用。

GPT-4都能干啥?

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

GPT-4的局限

尽管它的能力强大到如此,

GPT-4与早期的GPT型号

仍有相似的局限性。

OpenAI表示,最重要的是,GPT-4仍然不是完全可靠的(它“产生幻觉”的事实和推理错误)。在使用语言模型输出时应非常小心,特别是在高风险的上下文中,确切的协议(如人类审查,接地与额外的上下文,或完全避免高风险的使用)匹配特定用例的需求。有些能力仍然很难预测。

虽然仍然是一个真正的问题,GPT-4相对于以前的模型(它们自己在每次迭代中都在改进)显著减少了幻觉。GPT-4的得分比最新的GPT-3.5高出40%。

GPT-4的风险和缓解

OpenAI公开表示,

“我们一直在对GPT-4进行迭代,

以使其从训练开始

就更加安全和一致,

努力包括训练前数据的

选择和过滤、评估和

专家参与、模型安全改进

以及监控和执行。”

图片

GPT-4与以前的模型具有类似的风险,例如生成有害的建议、错误的代码或不准确的信息。然而,GPT-4的额外功能导致了新的风险表面。为了了解这些风险的程度,OpenAI聘请了来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的50多名专家对模型进行对抗性测试。特别的是,他们的发现使OpenAI能够在需要专业知识来评估的高风险领域测试模型行为。这些专家的反馈和数据提供了模型的缓解和改进;例如,OpenAI收集了更多的数据,以提高GPT-4拒绝关于如何合成危险化学品的请求的能力。

OpenAI表示:“我们期待着GPT-4通过为许多应用提供动力,成为改善人们生活的宝贵工具。还有很多工作要做,我们期待着通过社区建设的集体努力来改进这一模式,在此基础上进行探索,并为该模型做出贡献。”

人工智能这个“雪球”

一旦滚动起来,

迭代也将是指数级加速。

将如何改变人类的未来?