GPT-4 正式发布

3月15日,ChatGPT背后的创业公司OpenAI发布新一代的多模态模型GPT-4,该模型除了有更强大的文字交互能力外,还首次支持用户和AI模型间的图片交互。OpenAI称,GPT-4模型将会通过ChatGPT付费版开放给用户,后续也会将API接口开放给开发者。

相较ChatGPT之前使用的GPT-3.5模型,GPT-4模型新增图片输入模式,可以对图片进行分析、分类,并写配文。Greg Brockman在24分钟的演示视频里展示了多模态功能,包括描述网友实时发送的图片、阅读并理解一则手写笑话图片等。

目前,图片输入模式尚未开放使用。OpenAI创始人Sam Altman在社交媒体称,公司正在预览GPT-4模型的图片输入模式,以防止可能出现的安全伦理问题。


GPT-4做了哪些升级?

GPT-4模型还扩展了文字处理能力。在输入方面,GPT-4模型可以处理高达25000个英文单词的文本,而GPT-3.5模型支持处理的英文单词仅为500个左右。

在内容反馈上,与GPT-3.5模型能生成8000词左右的内容相比,GPT-4模型可以生成6.4万词或50页左右的文本,足够写短篇小说。OpenAI还称,根据内部测试,GPT-4模型反馈不宜内容的概率降低了82%,内容准确度增加了40%。

OpenAI介绍,GPT-4模型创造性更强,可以生产、编辑音乐创作、台词写作等更复杂的任务,并随着用户的写作风格迭代。用户也可以赋予AI独特的“人格”,例如可以扮演老师、名人等。

在OpenAI的示例中,GPT-4模型参加考试,成绩惊人。美国研究生入学考试(GRE)考察阅读理解、数理、写作三个科目,GPT-4模型在三科考试中分别击败了99%、80%、54%的人类考生。相较GPT-3.5模型,GPT-4模型理解力、准确率提升,比如美国法学院的入学考试(LSAT)满分180分,GPT-3.5模型能考149分,超过40%的人类考生;而GPT-4模型可考163分,超过88%的人类考生。


AI将如何冲击就业市场?

虽然中国内地对ChatGPT进行了限制,但不少国内玩家已经通过自己的方式深入了解了这个新鲜事物。

这个新生事物最令人震惊的有两点,首先直接冲击以创意类和认知类技能为主的高难度复杂任务;其次完全颠覆了以往AI从低技能到高技能的替代顺序,直接从知识密集型行业开始影响。

ChatGPT不仅能够写诗、写代码、写文案,甚至能独立完成一篇学术论文。与前几代AI相比,ChatGPT已经出现了质的飞跃,对人类创造力、相关技能和工作的冲击是巨大且令人始料未及的。

人类的技能大致可以概括为三类:一类是体能类(physical skills),仅需要在物理世界付出体力劳动就可以完成任务;第二类是认知类(processing skills),需要动用人的认知能力,根据现有的资料进行计算和处理,如文案整理、总结等;第三类是创意类(creative skills),需要独特的创造性思维。比如写一个剧本故事、一段代码、一篇创意文案甚至管理策划,其结果会因人而异。

总体来看,第二类和第三类技能需要成熟的教育体系,长期的人才培养做支撑。人们有了一定的教育积累后,获得技能,锻炼创意思考,从而走向各个知识密集型岗位,成为社会中坚。

AI专家认为,不久的将来ChatGPT和大模型AI很可能会对人类行动、思维、工作方式造成巨大影响。随着它的大规模应用,势必会对劳动力市场、教育体系、社会经济,甚至全球劳动分工造成颠覆性改变。面对ChatGPT掀起的浪潮,人们难以依赖过去的经验做出准确判断。所以更应思考该如何与ChatGPT共存(co-exist)、共创(co-create),乃至共同进化(co-evolve)。


ChatGPT与传统AI有什么差异?

ChatGPT是美国人工智能研究实验室OpenAI于2022年11月30日推出的自然语言处理工具,它由GPT-3.5模型提供支持。GPT(Generative Pre-trained Transformer,生成式预训练变换器)是一种基于互联网可用数据训练的文本生成深度学习模型,是OpenAI在谷歌的Transformer语言模型框架基础上构建的。

ChatGPT通过学习和理解人类的语言进行对话,并能根据上下文与人互动。它不仅擅长分析型或机械式的认知计算,还擅长创造或生成全新的、有意义甚至具备美感的内容,比如写诗、设计产品、制作游戏与编写程序代码等。为何ChatGPT如此强大,相比过去的AI模型有哪些创新?从技术原理角度看,ChatGPT主要有以下五点突破和创新,由此对技能、工作和教育产生的影响,与上一代AI完全不同。

语言生成:GPT是单向生成式模型。与之前的AI模型相比,ChatGPT有能力处理开放性的语言任务,比如生成文案、创意写作等,表达也可以更加丰富和精准。

多任务处理:ChatGPT在模型训练中可以同时处理多种不同类型的文本问题,包括阅读理解、翻译/转译、总结、交互问答。通过交叉融合同时完成这四个维度,实现更加自然、更加综合、更加有创意性的回答和创造。

融合人工反馈:ChatGPT一个重要的突破是在模型训练中通过强化学习引入了人类评价和反馈,这让反馈效果在有用性、易用性、准确性和拟人性方面大大提升。

上下文理解:ChatGPT拥有更强的上下文理解和记忆能力。它可以理解上下文,生成连贯且有逻辑性的回答。这使得ChatGPT在对话任务中可以产生更加流畅和个性化的语言交互,也使得未来ChatGPT有可能成为每个人的智能助手和教育伙伴。

大模型通用扩展:ChatGPT的模型参数巨大(包含上千亿个参数),并且表现随着模型延展和参数扩大而上升。这使得它可以更好地捕捉语言的复杂性和多样性,从而在各种自然语言处理任务中取得更好的性能。预训练数据集的多样性,使ChatGPT的知识不局限于某一特定领域,让多行业通用应用成为可能。


AI如何重塑人类技能和工作?

ChatGPT深度融合了与人类语言、认知和创意相关的多种技能,能够适应复杂和综合的语言环境与任务。从而可以做到,人给定一个指令,引导对话方向,它就会向指定方向去生成有上下文的、特定语境下的、自然的结果。更重要的是,OpenAI借用Chat这种贴近用户的场景、很好的用户体验,将GPT技术带到了大众身边,让人们对于AI商业化应用的冲击有直观感受,并充满想象和期待。

根据GPT-3网站数据,截至2023年2月14日,GPT-3 DEMO共有626个应用程序,分为100个大类。为了方便研究,我们将其进行了大致归类,主要应用场景分布如图。同时,网站也给出了人们常用的11款应用,包括人工智能写作助理、学术论文助手、图片生成、学习、聊天机器人等。

值得注意的是,GPT大模型对语言文字和相关场景的突破,补足了之前AI在内容生成和互动领域的短板,帮助AI在大规模生成多模态内容AIGC(图文、视频、直播)产生全面突破,融合了语言模型、机器视觉、图像生成等AI近年来在各领域的前沿应用,快速催生不同应用场景。而AI+人工技能的重新融合,将持续对更多行业和产业带来冲击,如IT、传媒、广告、影视、行政、教育等行业。

同时,ChatGPT已经开始了“GPT+”在用户端和企业端场景的全面商业应用开发,并且在3月初开放了GPT模型API接口。

作为OpenAI的最大投资方,微软已经在新必应(new Bing)搜索引擎和Edge浏览器中整合了ChatGPT技术,旨在为用户提供更人性化的答案,而不只是信息链接。微软还正在将ChatGPT应用在旗下的Office全家桶、Azure云服务、Teams程序等产品中。

通过分析技术原理和应用场景,我们大致勾勒出ChatGPT擅长做语言处理、IT编程、文本分析、广告创意、教育、行政管理等工作任务。应该说,ChatGPT在短期内将注定替代一些低技能或重复性劳动的工作,甚至部分脑力劳动者。

OpenAI发布新一代的多模态模型GPT-4,该模型除了有更强大的文字交互能力外,还首次支持用户和AI模型间的图片交互。与GPT-3.5模型能生成8000词左右的内容相比,GPT-4模型可以生成6.4万词或50页左右的文本,足够写短篇小说。

交互式AI的诞生,将冲击IT、传媒、广告、影视、行政、教育等行业,ChatGPT在短期内将注定替代一些低技能或重复性劳动的工作,甚至部分脑力劳动者。