GPT-4是OpenAI“最先进”的人工智能技术。它可以理解和讨论图片,并生成其前身 ChatGPT(由 GPT 3.5 提供支持)八倍的文本。以下是新技术已通过的考试列表……
来源:内幕人士
统一律师考试
根据 OpenAI 的数据,为 ChatGPT 提供支持的 GPT-3.5 在律师资格考试中仅取得了第 10 个百分位,而 GPT-4 的得分为 298 分(满分 400 分),达到了第 90 个百分位。
通过标准的门槛因州而异。但根据纽约州法律审查委员会的数据,在纽约,考生需要获得 266 分(大约第 50 个百分位)才能通过考试。
SAT考试
根据 OpenAI 的数据,GPT-4 在 SAT 阅读和写作部分的得分为 710 分(满分 800 分),在考生中排名第 93%。另一方面,GPT-3.5 的得分为 670 分(满分 800 分),排在第 87 个百分点。
根据 OpenAI 的数据,在数学部分,GPT-4 获得了 700 分(满分 800 分),在考生中排名第 89%。 OpenAI 指出,虽然 GPT-3.5 的得分位于第 70 个百分点。
总而言之,GPT-4 的得分为 1410 分(满分 1600 分)。根据美国大学理事会的报告,2021 年 SAT 平均成绩为 1060 分。
GRE
GPT-4 在研究生入学考试 (GRE) 中的分数根据各个部分的不同存在很大差异。
据 OpenAI 称,虽然 GPT-4 在口语部分的得分为 99%,在定量部分的得分为 80%,但在写作测试中仅得分为 54%。
据 OpenAI 称,GPT-3.5 在写作测试中的得分也达到了第 54 个百分位,在定量和语言部分分别获得了第 25 个百分位和第 63 个百分位的分数。
美国生物奥林匹克半决赛考试
美国生物奥林匹克竞赛是一项享有盛誉的全国性科学竞赛,定期吸引美国一些最聪明的生物学学生参加。据美国生物奥会网站称,第一轮考试为时 50 分钟的公开在线考试,吸引了全国数千名学生。
美国生物奥委会在其网站上指出,第二轮半决赛考试时长 120 分钟,分为三个部分,包括多项选择题、对错题和简答题。据美国生物奥委会称,半决赛成绩前 20 名的学生将晋级全国总决赛。
根据 OpenAI 的数据,GPT-4 在 2020 年半决赛考试中的得分位于第 99 到 100 个百分点。
AP 考试
GPT-4 已通过一系列大学先修考试,即由大学理事会管理的高中生参加的大学水平课程考试。
根据大学理事会的数据,分数范围为 1 到 5,其中 3 分及以上通常被视为及格。
根据 OpenAI 的数据,GPT-4 在 AP 艺术史、AP 生物学、AP 环境科学、AP 宏观经济学、AP 微观经济学、AP 心理学、AP 统计学、AP 美国政府和 AP 美国历史方面获得 5 分。
OpenAI 表示,在 AP 物理 2、AP 微积分 BC、AP 化学和 AP 世界历史方面,GPT-4 获得了 4 分。
AMC 考试
据美国数学协会网站称,AMC 10 和 12 是针对高中生的 25 个问题、时长 75 分钟的考试,涵盖代数、几何、三角学等数学主题。
根据 MAA 网站的数据,2022 年秋季,AMC 10 的 150 分总分中的平均分为 58.33 分,AMC 12 的平均分为 59.9 分。根据 OpenAI 的数据,GPT-4 的得分分别为 30 分和 60 分,介于 AMC 10 的第 6 到 12 个百分位之间以及 AMC 12 的第 45 到 66 个百分位之间。
侍酒师考试
据 OpenAI 称,虽然获得葡萄酒管家资格证书非常困难,但 GPT-4 也以 92%、86% 和 77% 的比例通过了入门侍酒师、认证侍酒师和高级侍酒师考试。
OpenAI 表示,在这些相同的考试中,GPT-3.5 的得分为 80%、58% 和 46%。
OpenAI 于 11 月推出了由 GPT-3.5 提供支持的 ChatGPT。从那时起,聊天机器人就被用来生成论文和撰写考试,经常通过,但也会犯错误。以下是 ChatGPT 已通过的考试列表……
沃顿商学院 MBA 考试
沃顿商学院教授 Christian Terwiesch 最近通过运营管理期末考试中的问题测试了该技术(运营管理曾经是所有 MBA 学生的必修课),并发表了他的研究结果。
Terwiesch 的结论是,该机器人在回答基于案例研究的基本操作问题方面做得“令人惊叹”,这些案例研究是对个人、团体或公司的集中检查,也是商学院教授学生的常见方式。
但在其他情况下,ChatGPT 在计算中犯了一些简单的错误,Terwiesch 认为只需要六年级数学水平。 Terwiesch 还指出,该机器人在处理更复杂的问题时遇到了问题,这些问题需要了解多个输入和输出如何协同工作。
Terwiesch 表示,最终该机器人将在考试中获得 B 或 B- 分。
美国医师执照考试
研究人员让 ChatGPT 通过了美国医疗执照考试(这是一项由三部分组成的考试,有抱负的医生在医学院和住院医生之间参加),并在 2022 年 12 月发表的一篇论文中报告了他们的发现。
该论文的摘要指出,ChatGPT“在没有任何专门培训或强化的情况下,在所有三项考试中都达到或接近通过门槛。此外,ChatGPT 在其解释中表现出高度的一致性和洞察力。”
摘要指出,最终结果表明,ChatGPT 接受过训练的大型语言模型可能具有协助医学教育甚至临床决策的“潜力”。
Insider 根据 Axios 的报告指出,该研究仍在接受同行评审。
随笔
ChatGPT 发布后没多久,学生就开始使用它来写论文,教育工作者也开始担心抄袭。
去年 12 月,彭博社播客马修·S·施瓦茨 (Matthew S. Schwartz) 在推特上表示,“这篇带回家的文章已经死了”。他指出,他已将法学院论文提示输入 ChatGPT,它“立即”做出了可靠的回应。
—〽️atthew S. Schwartz (@SchwartzReports) 2022 年 12 月 7 日
据 Insider 报道,在另一个例子中,弗曼大学的一位哲学教授发现一名学生在提交一篇人工智能生成的论文时发现其中有“写得很好的错误信息”。
“这是一篇逐字逐句写得很好的文章,”教授告诉 Insider。然而,当他更仔细地观察时,他注意到该学生对哲学家大卫·休谟的说法“毫无意义”,而且“完全错误”。
在 1 月份的一次采访中,ChatGPT 的 OpenAI 首席执行官 Sam Altman 表示,虽然该公司将想出办法帮助学校检测抄袭行为,但他不能保证完全检测到。
微生物学测验
科学记者兼 Big Think 执行编辑 Alex Berezow 通过他设计的 10 个问题微生物学测验测试了 ChatGPT。
别列佐夫还拥有微生物学博士学位,他指出这些问题适合大学水平学生的期末考试。 Berezow 写道,ChatGPT“彻底击败了它”。
在一个例子中,别列佐夫问道:
“一名急诊室患者出现严重头痛和颈部僵硬。医生要求进行脊椎穿刺以收集脑脊液。脑脊液革兰氏染色显示存在革兰氏阴性双球菌。诊断是什么?”
ChatGPT 正确响应:
根据您提供的信息,脑脊液 (CSF) 的革兰氏染色显示存在革兰氏阴性双球菌,这种细菌通常呈椭圆形且成对出现。这一发现与脑膜炎的诊断一致。
在另一个例子中,他问道:
“用五个字或更少的话,科赫假设的意义是什么?”
ChatGPT 对此表示:
建立微生物与疾病之间的因果关系。
去掉“and”这个词,Berezow 表示 ChatGPT“成功了”。
法学院考试
ChatGPT 最近通过了明尼苏达大学四门法学院课程的考试,该考试基于该校四位法学院教授最近发表的一篇论文。
该机器人总共回答了超过 95 道多项选择题和 12 道由教授盲评的论述题。最终,教授们给 ChatGPT 一个“所有四门课程的低分但及格的分数”,大约相当于 C+。
尽管如此,作者还是指出了这对律师和法律教育可能意味着的一些影响。他们在一节中写道:
“虽然 ChatGPT 是一名平庸的法学院学生,但假设其工作在整个法学院保持不变(并忽略涉及不同技能的其他毕业要求),其表现足以成功从一所严格挑选的法学院获得法学博士学位。在远程考试管理已成为常态的时代,这可能会导致一名苦苦挣扎的法学院学生使用 ChatGPT 获得法学博士学位,而这并不能反映她从事法律实践的能力或准备程度。”
斯坦福医学院临床推理期末考试
ChatGPT 通过了斯坦福大学医学院临床推理的期末考试。根据斯坦福大学临床副教授 Eric Strong 上传的 YouTube 视频,ChatGPT 以 72% 的总分通过了临床推理考试。
在视频中,斯特朗分五个部分描述了临床推理。它包括分析患者的症状和身体检查结果、假设可能的诊断、选择适当的测试、解释测试结果以及推荐治疗方案。
他说:“它本身就是一门复杂的、多方面的科学,非常以患者为中心,也是每个执业医生日常所做的一切。”
斯特朗在视频中指出,临床推理考试通常是针对一年级医学生,需要 70% 的分数才能通过。