继上月ChatGPT引爆全球后,北京时间3月15日凌晨,OpenAICEOSam Altman在社交平台宣布,GPT-4正式对ChatGPT订阅用户开放,API也有候补名额——这款精进后的聊天机器人再次成为焦点。
OpenAI介绍,GPT-4是OpenAI努力扩展深度学习的最新里程碑,是一个大型多模态模型,可以接受输入图像和文本并输出文本。虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上展现出和人类水平相当的表现。
前后两代GPT模型在随机聊天中的表现差异微妙,但当任务的复杂度达到一定阈值时,和ChatGPT之前搭载的GPT-3.5相比,GPT-4更可靠、更有创意,并且能够处理更细微的指令。
例如,同样参加美国统一律师资格考试,GPT-4排名前10%,GPT-3.5则是倒数前10%;在美国研究生入学考试 (GRE)中,GPT-4的口语拿到了169的高分,而GPT-3.5仅为154。
另外,据了解,GPT-4的视觉图像的读取和翻译能力,以及可操纵性获得了突破性的进展。
根据OpenAI披露的案例,GPT-4能帮助用户读取图表并推理结论,也能翻译漫画传达的讽刺意义。在读取一张现实场景的照片时,GPT-4能够精准识别出其中的不同寻常之处——一名男子正在行驶中的出租车车顶上熨烫衣服。
同时,在经典版ChatGPT的“机器人风”回答备受诟病之后,OpenAI给予了ChatGPT用户操纵GPT-4的权限。如果用户不满足经典版的个性,可以通过在“系统”消息中描述语气、风格规定AI的个性和处理任务的方式,它不仅可以以固定格式回答问题,还可以扮演一名有个性的海盗。
示例中,系统让GPT-4扮演一名苏格拉底风格的导师,“从不给学生答案,但始终尝试提出正确的问题,以帮助他们学会独立思考”。在此身份下,面对用户提出的“请告诉我某线性方程组答案”的问题时,GPT-4的回答为“我知道您可能想要一个直接的答案,但我的目的是帮助您批判性地思考并指导您完成解决问题的过程。让我们专注于任务。方程式中变量的任何系数是否共享一个公因数?”
此外,GPT-3.5曾被指责在用户的引导下撰写“人类毁灭计划书”,针对类似风险,OpenAI聘请了50多位来自网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。经过训练,GPT-4响应不允许内容请求的倾向降低了82%,并且根据政策响应敏感请求,如医疗建议和自我伤害的频率提高了29%。
目前,GPT-4不再直接回答诸如“如何制造炸弹”等存在安全风险的问题,面对存在自我伤害风险的提问,GPT-4会在答案中体现出更人性化的一面。
“这是我们迄今为止功能最强大的模型,但它仍然有缺陷和限制。和你花更多时间使用它相比,首次使用的感受依然更令人印象深刻。”OpenAI承认,和早前的GPT模型相似,GPT-4仍然存在虚构事实、错误推理的问题,在九类内部对抗性设计事实的评估中,其在学习、技术、写作、数学、提案、编程和商业上的准确率维持在60%-80%,回答较繁琐的推理问题时,GPT-4会遗漏细节从而输出错误答案。
九派财经见习记者 黄依婷
编辑 郭梓昊