前言
2023年3月14日,传说中的PI Day - 纪念3.1415926的日子,OpenAI发布了一场Live Demo,正式官宣GPT-4,展示了GPT模型的最近进展。
整场发布会做了四个演示,分别是:
让GPT用指定字母开头的单词来回答问题;
现场编程做一个Discord机器人,使用GPT-4 API读取图像和文本;
GPT-4配合最新的税务规定,成功利用条款调整报税;
最惊艳的是最后一个。把纸上绘制的示意图,通过GPT4直接转化成可以运行的一个HTML网页,同时还有javascript的功能按钮。
OpenAI在官网上对GPT-4的亮点做了总结,我们对照演示,可以更清楚地看到GPT-4究竟厉害在哪里。
亮点之一:多模态
关于多模态,官网上是这么说的:GPT-4 can accept images as inputs and generate captions, classifications, and analyses.
如果你把上面这张气球的图片发给GPT-4,问它:如果把绳子割断会发生什么?GPT-4的答案是气球会飞走。
这说明GPT-4不仅仅识别出来图片中的物体:绳子,气球,还有他们之间的关系:一大堆气球是被绳子绑住的;同时结合自己的模型,做出一个推断:如果隔断绳子,气球就飞走,因为这是一个物理现象。
在3月14日的演示中, OpenAI在Discord机器人的Demo中展示这个能力。如果你问GPT-4这张松鼠的图的笑点在哪里?它可以很精确的回答,松鼠放着喜欢吃的松果不要,反而像人一样拿着相机拍照。
这两个案例向人们展示GPT-4已经能够读懂简单的图片上的物品,物品之间的相互关系,并可以动用自己的知识库进行推理。也能够理解为什么和老版本相比,OpenAI认为GPT-4的推理是最强的。
最为惊艳的应用出现在现场演示的最后一个环节。演示者在笔记本上简单的画了一个网页的草图,手机拍照上传给GPT-4,随后GPT-4就能够按照这个草图马上生成一个HTML页面,而且还有javascript,CSS全部自动生成。
亮点之二:处理文字的能力加强
chatGPT已经展示了GPT模型强大的文字处理能力,OpenAI在官网中提到了两个提升:
文字处理的长度
对文字生成的控制
GPT-4中,文字处理长度已经被拓展到了25,000个字,容量约等同于一本简短的电子书。所以GPT-4直接阅读wikiPedia的一个完整页面是毫无压力的。
另外一点是对文字生成的控制,这一点官网给出的用例是文字创作,比如写歌词,诗歌等等。老的GPT模型虽然具备这些能力,但是人对于产生的内容不能直接控制,所以往往是给出一个命题让GPT自由发挥。GPT-4中让用户对于产生的内容能够有一些控制力,比如现场Demo中展示的要求GPT-4返回的答案一定带有某个字母开头的单词。
我认为这点在展示的时候说明的不太充分,很多人可能没有完全理解这样做的意义何在。我的看法是这种能力让GPT-4可以更好地与人类实现“共创”内容,而不是依赖模型输出,然后只做简单的修改。这一点上非常有意义,可以大幅加快内容创作者的工作效率。所以官网中特意强调了
“collaborative”,“learning a user’s writing style”这些亮点。
亮点之三:大大提升对于安全的重视
在chatGPT火速出圈之后,也带来了一些社会问题,例如回答中的可能出现的偏见,缺少道德评判以至于可能会帮助一些人做危害社会的事,等等。
公平的说,这些问题不是仅仅chatGPT带来的,而是人类社会在进入AI时代时候必然会出现的。其实这些风险在AI研究圈子内早就被讨论过,并不是新发现的问题。Google虽然在AI技术方面投入很大却迟迟没有推出产品,也和社会安全方面的顾虑有很大关系。
无论如何,在OpenAI的强力推动下,下一个AI时代已经开启了,这些问题也不容再回避。GPT-4中特别强调在这个方面的改进,算是一个好的开始。
总结
从发布时间来看,我认为GPT-4的官方公告显得有些仓促。最近,由于chatGPT的出现,市场对AIGC的关注度迅速升温,这完全打破了原有局面。在这个时候采取顺势而为、乘胜追击的策略不仅可以展示OpenAI在AIGC领域中的领导地位,还能够抑制Google等竞争对手可能发起的反击。
当然,在技术发展方向上,GPT-4已经进化到了多模态阶段,并且可以将输入内容从文字扩展到图片、音频和视频。通过阅读图片并结合自身知识建立强大推理关系,它具备重要意义。这也是为什么OpenAI在其官网上与老版本进行比较时将Reasoning放在第一位。
强大的推理能力也体现在其他应用场景中:例如编程过程中根据最新技术文档实现动态排错以及完成报税任务时寻找税务规则最佳应用等。这些都显示出GPT-4智能水平进一步提高,并可能给生产力带来巨大飞跃。
回顾人类生产力发展历史,数字化虽然在很多方面带来效率提升,但同时一些新的低效行为也随之而来,比如编程中人工排查bug,反复调试,又如EXCEL表格枯燥的copy&paste操作。所以说,在数字化初期阶段完成之后,人类越来越需要通过智能化来进一步提高效率。可以说GPT-4以及其他深度学习模型正在共同进化,推动数字化社会实现下一步生产力的巨大飞跃。
未来充满挑战和机遇,让我们拭目以待!