当地时间 3 月 14 日,OpenAI 宣布正式发布 GPT-4,它拥有图像识别功能、高级推理技能、以及处理 25000 个单词的能力,在单词处理能力上是 ChatGPT 的八倍,并可以用所有流行的编程语言写代码。OpenAI 还表示 GPT-4 大大优于现有的大型语言模型、以及大多数下一代(SOTA,State Of The Arts)模型。



据介绍,GPT-4 在模拟律师考试中的成绩超出 90% 的人类考生,在 SAT(Scholastic Aptitude Test,俗称“美国高考”)的阅读考试中超出 93% 的人类考生,在 SAT 数学考试中超出 89% 的人类考生。


而同样面对律师资格考试,GPT-4 的上一版 GPT-3.5 的得分,仅仅超出 10% 左右的人类应试者。在现场演示中,GPT-4 还生成了关于复杂税务查询的答案,尽管无法验证其答案。


在美国,每个州的律师考试都不一样,但一般包括选择题和作文两部分,涉及合同、刑法、家庭法等知识。GPT-4 参加的律师考试,对于人类来说即艰苦又漫长,需要两天才能完成。而 GPT-4 却能在专业律师考试中脱颖而出。


通过律师考试并不意味着它已准备好取代真正的律师。毕竟通过司法考试的人大有人在,因此 GPT-4 不能成为真正的律师,但它确实展示了一定的本领,也能快速启动一些法律任务。



图像识别、高级推理、庞大的单词掌握能力,是 GPT-4 的三大特点。


就图像识别功能来说,GPT-4 可以分析图像并提供相关信息,例如它可以根据食材照片来推荐食谱,为图片生成图像描述和图注等。但是,出于对潜在滥用的担忧,OpenAI 推迟了图像描述功能的发布。也就是说,GPT-4 的图像输入功能还处于尚未公开的预览阶段,目前仅能在 OpenAI 的直播中观看效果。


就高级推理功能来说,GPT-4 能够针对 3 个日程做出会议时间安排,回答存在上下文关联性的复杂问题。


就词汇量来说,由于最多可以处理 25000 个单词,因此在理解和生成长篇内容上,GPT-4 的能力更强。


GPT-4 和上一代就有哪些区别?


OpenAI 声称 GPT-4 是其“最先进的人工智能系统”,是该公司在扩展深度学习系统上的最新里程碑,并表示该模型比以往任何时候都更具有创造性和协作性,因为它可以更准确地解决复杂问题。


OpenAI 表示其花费了六个月的时间,来让 GPT-4 比上一代更安全。该公司通过改进监控框架,并与医学、地缘政治等敏感领域的专家进行合作,以确保 GPT-4 所给答案的准确性和安全性。


GPT-4 的参数量更多,这意味着它将比上一版更接近人类的认知表现。GPT-4 还接受了各种多模态信息的训练,这让它不仅可以理解和解释输入数据,还可以理解输入数据所在的上下文。此外,当同时执行多任务时,GPT-4 的表现也更加出色。


与旧版本一样,GPT-4 由深度学习技术开发而来,是在公开可用和已被许可数据上进行的训练,并使用强化学习和人工反馈进行微调。不过,GPT-4 是在全新的深度学习堆栈上训练的,并由 OpenAI 和微软 Azure 团队一起构建。毫无疑问的是,GPT-4 比上一代模型接受了更多数据训练和计算训练。


如果你使用过 ChatGPT 就会发现,它的输入类型是纯文本,输出则是语言文本和代码。而 GPT-4 的多模态,意味着用户可以输入不同类型的信息,例如视频、声音、图像和文本。同样的,具备多模态能力的 GPT-4 可以根据用户提供的信息,来生成视频、音频、图片和文本。哪怕你同时将文本和图片发给 GPT-4,它也能根据这两种不同类型的信息生出文本。



OpenAI 表示 GPT-4“离经叛道”的可能性要小得多,对于不被允许的内容请求,GPT-4 的响应可能性降低了 82%。在 OpenAI 的内部对抗性真实性评估中,GPT-4 得分比 GPT-3.5 高 40%。


当任务复杂性达到足够的阈值时,两代模型之间的差异就会出现。整体来看,GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。


百奥几何公司创始人[1]、加拿大魁北克省人工智能研究中心(Mila)副教授、加拿大高等研究院(CIFAR)人工智能讲席教授唐建表示:“GPT-4 最重要的是做了 multi-modality training(多模态训练),之前主要用的是文本和代码数据,现在还利用了图像数据;另外,GPT-4 还用了 ChatGPT 收集到的一些数据。”


可以确定的是,GPT-4 的稳健性已经得到保障,而 OpenAI 的主要挑战是确保它可以准确地解决所遇到的每个问题。


此外,OpenAI 表示将把 GPT-4 的文本输入功能加入 ChatGPT 中,由付费用户优先使用,并通过等候名单发布 API。其将允许开发者把 AI 集成到自己的应用程序中,同时 OpenAI 将对约 750 个单词的提示收取约 3 美分,对约 750 个单词的回复收取 6 美分。


此外,OpenAI 使用了 Azure Translate 来训练 GPT-4,从而实现用多语种回答问题。


然而,OpenAI 以“竞争”为由,没有公布有关具体模型大小、以及训练 GPT-4 的硬件详细信息。而有了这些信息,对手们就可以重新创建模型,这也是 OpenAI 不公开的主要原因。


微软:新 Bing 正在 GPT-4 上运行


在 OpenAI 推出 GPT-4 之后,其合作伙伴兼投资股东微软也立马有所回应。微软表示:“新的 Bing 正在 GPT-4 上运行,这是我们为搜索定制的。”


如果你在过去五周的任何时间里使用过新 Bing 的预览版,那么就已经体验过这个强大模型的早期版本。随着 OpenAI 对 GPT-4 以及更高版本进行更新,Bing 也从这些改进中受益。所以 Bing 搜索引擎早已经用上 GPT-4 了,因此用户可以使用 Bing 编写文本、回复消息等。


目前来看,GPT-4 将专门开放给 ChatGPT Plus 用户,每月支付 20 美元之后可以获得高级访问权限,总而言之目前暂不支持免费使用。


对于 ChatGPT,美国伊利诺伊大学香槟分校计算机系教授李博表示,短期来看她觉得 ChatGPT 作为文章写作、代码生成的辅助查错工具还不错,但是还不能完全依赖 ChatGPT 来做回答和搜索,因为它的回答不能保证正确性。长期来看,她认为 ChatGPT 可以和不同的 AI 模型工具结合,做更友好的自动问答系统、学习工具等辅助性工具。此外李博认为,如果要长久发展并用于重要领域中,ChatGPT 的可信赖性保证、纠错能力等非常重要。


另据悉,OpenAI 还宣布与语言学习应用程序 Duolingo 、以及专为视障人士设计的应用程序 Be My Eyes 的背后公司建立合作,以便为残障人士提供支持。


美国非营利教育机构可汗学院,将使用 GPT-4 为学生创建人工智能导师(名为“Khanmigo”);冰岛政府将用其帮助维护冰岛本土语言;金融公司摩根士丹利,则使用 GPT-4 来管理、搜索和组织其庞大的内容库。


概括来说在具体应用上,GPT-4 的高级推理技能,可以为用户提供更准确、更详细的回答;鉴于 GPT-4 具备更强大的语言能力和图像识别能力,因此可以简化市场营销、新闻和社交媒体内容的创建过程;在教育领域,GPT-4 可以通过生成内容、以及以类似人类的方式来回答问题,故能在一定程度上帮助学生和教育工作者。不过,对于将 GPT-4 用于学术目的,人们的看法并不一致,因为学生可能会在没有完全理解相关知识的情况下依靠它来完成作业,而这和我们接受教育的目的是相悖的。


OpenAI 创始人 Sam Altman 也表示,尽管 GPT-4 的未来非常令人期待,但是仍然存在缺陷,所生成的内容仍然存在一定的偏见性,也仍然存在一定的“幻觉”,也就是 GPT-4 会创建“不正确但听起来似是而非”的虚构信息。


事实上,Sam Altman 一直对于 GPT-4 持有相对务实的评价,在 1 月份接受关于 GPT-4 的采访时他说:“人们的期望越高,失望就越大,”“现在有很多炒作...... 我们没有实现真正的 AGI,但这似乎是对我们的期望。”



“狂潮”与隐忧相伴相生


回顾历史,最早描述 GPT 的论文发表于 2018 年,GPT-2 于 2019 年公布、GPT-3 则于 2020 年公布。这些模型基于巨大的文本数据集训练而来,其中大部分是从互联网上抓取的数据。


事实上,OpenAI 原本推迟了 GPT-4 的发布,因为担心会被用于恶意目的,例如生成垃圾邮件和错误信息。但在 2022 年底,该公司推出了 ChatGPT——一种基于 GPT-3.5 的对话式聊天机器人,并可以被任何人免费试用。


ChatGPT 的推出在科技界引发了一场狂潮,谷歌也紧随其后。


在大模型上,对手们一直在积极回应 OpenAI。几乎在同一时间,OpenAI 的竞争对手——一家名为 Anthropic 的初创公司推出了一款名为 Claude 的聊天机器人。Anthropic 最近从谷歌筹集了 3 亿美元。与 GPT-4 一样,名为 Claude 的聊天机器人支持广泛的文本处理。它可以汇总文档、生成新文本、回答搜索查询和编写代码,以及执行其他任务。Anthropic 表示其已将这款聊天机器人提供给许多早期客户。同时在视频生成大模型上,Meta 有 Make-A-Video,谷歌则有 Imagen Video,它们都能根据用户输入来制作视频。而在北京时间 3 月 16 日,百度也将推出文心一言大模型。


随着 AI 语言模型的日益突出,对其潜在滥用的担忧也有所增加。批评者认为,OpenAI 等公司正急于利用未经测试、不受监管和不可预测的技术,这些技术可能会欺骗人们、威胁艺术家的作品并造成现实世界的伤害。尽管存在这些担忧,但 GPT-4 和类似的 AI 模型,确实提供了巨大的经济潜力。


支持:Ren


参考资料:

1. https://www.biogeom.com/

https://voonze.com/discover-openais-revolutionary-ai-gpt-4-the-most-advanced-model-yet/

https://www.gizmochina.com/2023/03/14/gpt-4-aces-professional-exams/

https://siliconangle.com/2023/03/14/openai-debuts-gpt-4-rival-anthropic-rolls-new-claude-chatbot/

https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning

https://openai.com/