已故的科幻作家,写出《2001太空漫游》的亚瑟·克拉克曾说过,任何足够先进的技术,都极其类似于魔术。今天凌晨1点,随着GPT-4发布,人工智能又一次在人类面前变起了眼花缭乱的魔术。
对于GPT-4的发布,猎豹移动董事长兼CEO、猎户星空董事长傅盛第一时间分享了体验视频,他表示:“GPT-4发布 世界要变了!每个人都要关心。”
上午,#GPT4做一个网站只要十秒#一度登上热搜。有网友看完片段就感慨,首先干掉了程序员...也有网友精辟总结,之前的GPT-3.5像个大学生,GPT-4活脱脱一个研究生。
下面,就用10个小片段,见证奇迹的发生。
1. 看图说话,10秒生成一个网站
发布会上,OpenAI总裁兼联合创始人Greg Brockman在纸上画了个粗糙的网站框架——真的只是用纯手画的方式,然后把草稿扔给GPT-4,告诉它我要做这么个网站,帮忙生成代码。
10秒之后,代码生成。
GPT-4看图说话本领不止于此,它还具备一定的逻辑推理能力。
跷跷板一端放着球,一端吊着一双拳击手套,问手套掉下去会发生什么?
GPT-4:它会掉到木板上,并且球会被弹飞。
这张图片有什么不寻常之处?
GPT-4:这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。
我可以用这些原料做些什么?
GPT-4:华夫饼、松饼……
2. 考试能手,数学相当于高二好学生水平
基于GPT-3.5的ChatGPT,因为不会算术被小朋友笑话了好久。这次GPT-4在美国SAT数学试题测试里拿了700分,满分是800分,排名前11%左右——SAT的数学相当于国内高一、二水平,在阅读写作中拿下了710分的高分,排名前7%左右。
OpenAI认为,在各种专业和学术基准上,GPT-4已经和人类相当! 比如,当初GPT-3.5参加模拟律师考试,拿到的成绩是倒数10%,GPT-4拿到了前10%的好成绩。
为什么又是律师?
早在今年1月30日,美国哥伦比亚法院就使用ChatGPT作为辅助工具,让它帮忙检索法庭文件,判断“自闭症未成年人是否可以免除为其治疗支付费用?”——大量律师实际上做的是阅读卷宗、搜集证据、研究法律条款等案头工作,这部分AI已经有了压倒性的优势。
3. 语言高手,中文准确性进一步提升
不仅是英语,该模型在多种语言方面均表现出优越性。OpenAI称,在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能。其中GPT-4的中文能够达到80.1%的准确性,而GPT-3.5的英文准确性仅为70.1%,GPT-4英文准确性提高到了85.5%。
4. 看得更多,能给代码修bug
升级之后,GPT-4可接受的文字输入长度也增加约2.5万单词,进一步拓展了它的日常应用场景。发布会上,Gregman现场表演了一波用GPT-4修正代码bug。只要小手一抖,把1万字的程序文档扔给GPT-4。
又会写代码,又会抓bug,程序员也在瑟瑟发抖。
也因为能“看得更多”,基本上把大部分链接给到它都能让它“划重点”,对比只能分析一小段的GPT-3.5已经是明显进步。
5. 看得更深,人类玩梗它也懂
请听题:“大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里的九舅借十舅的发给十一舅的一千元。问:谁是小偷,谁是受害者?”
对于这种弯弯绕的题目,ChatGPT并不擅长,但GPT-4具备了高级的推理能力。
这似乎也意味着,AI可以慢慢读懂人类的冷幽默了。
比如,提问这张图哪里好笑?
GPT-4会先讲出每一格的内容,然后总结出笑点:用巨大的、过时的VGA接口给小巧的现代智能手机充电。
呵呵。
6. 戏精上身,苏格拉底和莎士比亚信手拈来
这次OpenAI直接开放了GPT-4的API接口,还开放了一个小功能,允许修改“系统提示”。什么意思呢?之前ChatGPT经常会强调,自己只是个语言模型,了解的知识截止于2021年9月。现在,用户可以赋予它性格,让它扮演不同的角色。
比如,你告诉GPT-4它是一位总是以苏格拉底风格回应的导师,它就会一路循循善诱,灵活使用“没错”“好想法”“接近了”“非常棒”等态度积极的词,让你找到问题的答案。
它也可以扮演莎士比亚笔下的海盗,画风秒变早年的“译制片”:做海盗还是不做海盗,这是个问题,但是,唉,亲爱的,这是我目前的性格……在波涛汹涌的人生大海上,我永远不会放弃。
7. 从生产力到生产工具
GPT是个语言模型,英文全称是Generative Pre-Training,这个generative意思是“有生产力的”。这次配合GPT-4发布,OpenAI也给出了一些将生产力转化为生产工具的案例。
比如,在金融领域的摩根士丹利,旗下有个内容库,包含数十万页知识,涵盖投资策略、市场研究和评论以及分析师见解。大量的信息藏在网站和PDF里,借助GPT-4可以简化搜索,直达内容。
比如,一款语言学习类的App Duolingo,接入GPT-4后可进行角色扮演,让AI跟用户对话,纠正语法错误。
8. 继续大力出奇迹
第一代GPT训练涉及的参数量为1.17亿,到了GPT-3这个数字变成了1750亿,扩容了近1500倍。对应的训练数据量,从5GB扩到了45TB,近万倍的增长。升级后的GPT-4参数量可能达到了100万亿。
对应的,微软在3年前就为OpenAI打造了一台超级计算机,据说里面有上万张英伟达A100芯片。另外,他们在自己60多个云计算数据中心,部署了几十万张GPU,用于ChatGPT的推理。
9. 依然存在局限性,最好辅以人工审查
OpenAI也坦言,GPT-4并不完全可靠,“GPT-4缺乏对2021年9月以后发生事件的了解,并且无法从中吸取经验教训……它有时会出现简单的推理错误,会轻信用户明显的虚假陈述,会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。”
程序员,“死缓”。
即便如此,他们在公司内部的对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高40%,GPT-4回应不允许的内容的可能性降低了82%,更有可能产生事实性回应的内容,提高了40%。
OpenAI提醒,用户在使用语言模型时应格外小心,最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。
既然给出了明确提醒,也就说明,已经有大量人和行业都在将ChatGPT用到具体的场景中去了。
10. 更加封闭的OpenAI
在介绍GPT-4的98页论文里,OpenAI没有披露他们的训练集内容。
对此,作为联合创始人之一,马斯克多次表达了不满:“OpenAI最初是作为一家开源(这就是为什么我把它命名为「Open」AI)的非营利性公司而创建的,为了抗衡谷歌,但现在它已经成一家闭源的营利性公司,由微软有效控制……这完全不是我的本意。”
橙柿互动记者 梁应杰 编辑 童蔚