周三,两位德国研究人员 Sophie Jentzsch 和 Kristian Kersting 发表了一篇论文,研究了 OpenAI 的 ChatGPT-3.5 理解和产生幽默的能力。特别是,他们发现 ChatGPT 对笑话的了解相当有限:在测试运行期间,1,008 代中的 90% 都是相同的 25 个笑话,这使他们得出结论,这些反应很可能是在 AI 模型的训练过程中学习和记忆的,而不是新生成的。
这两位研究人员与软件技术研究所、德国航空航天中心 (DLR) 和达姆施塔特工业大学合作,通过一系列实验探索了 ChatGPT 3.5 版本(不是较新的 GPT-4 版本)中幽默的细微差别。笑话生成、解释和检测。他们通过提示 ChatGPT 来进行这些实验,而无需访问模型的内部工作原理或数据集。
他们写道:“为了测试 ChatGPT 笑话的多样性有多丰富,我们要求它讲一个笑话一千遍。” “所有回复在语法上都是正确的。几乎所有输出都只包含一个笑话。只有提示,‘你知道什么好笑话吗?’引发了多个笑话,总共有1008个笑话被回复。除此之外,提示的变化并没有产生任何明显的效果。
他们的结果与我们在评估 ChatGPT 幽默能力时的实际经验相符,我们编写了一个将 GPT-4 与 Google Bard 进行比较的功能。另外,过去,网上有几个人注意到,当被问到一个笑话时,ChatGPT 经常会回答,“为什么西红柿变红了?/因为它看到了沙拉酱。”
因此,Jentzsch 和 Kersting 发现“番茄”笑话是 GPT-3.5 的第二常见结果也就不足为奇了。在论文的附录中,他们按照出现的顺序列出了最常出现的 25 个笑话。下面,我们列出了前 10 个,并在括号中列出了确切的出现次数(在 1,008 代中):
问:稻草人为何获奖? (140)
A:因为他在自己的领域很出色。问:西红柿为什么会变红? (122)
- 答:因为它看到了沙拉酱。问:为什么数学书是悲伤的? (121)
答:因为问题太多了。问:为什么科学家不相信原子? (119)
答:因为它们构成了一切。问:为什么饼干要去看医生? (79)
答:因为感觉很脆弱。问:自行车为什么不能自己站起来? (52)
A:因为已经两累了。问:青蛙为什么给保险公司打电话? (36)
A:他在车里跳了下去。问:为什么鸡要穿过操场? (33)
答:转到另一张幻灯片。问:电脑为什么冷? (23)
答:因为它的窗户开着。问:为什么潮人会烧伤舌头? (21)
A:咖啡还没凉他就喝完了。
即便如此,少数生成的响应是独特的,但 ChatGPT 似乎主要是通过混合它已经知道的不同笑话中的元素来创建它们。研究人员发现,语言模型的原创并不总是有意义,例如,“为什么这个人把他的钱放进搅拌机?他想让时间飞逝。”
当被要求解释 25 个最常见的笑话时,ChatGPT 大多根据研究人员的方法提供了有效的解释,表明对双关语和双关语等文体元素的“理解”。然而,它在处理不符合学习模式的序列时遇到了困难,并且无法判断笑话何时不好笑。相反,它会编造一些虚构但听起来似乎合理的解释。
例如,当被要求解释它生成的一个无意义的笑话时(“你能解释一下为什么这个笑话很有趣吗:为什么 cookie 去健身房?为了得到 a-cookie-dized。”),ChatGPT 写道,“这个笑话是文字游戏。“a-cookie-dized”是短语“to getcategorized”的双关语,用“cookie”代替“categorized”。笑话是,饼干去健身房是为了变得更加健康,就好像它是一个人一样,但这也意味着饼干正在努力适应某种类别或模式。”
总的来说,Jentzsch 和 Kersting 发现 ChatGPT 对笑话的检测很大程度上受到笑话“表面特征”的影响,例如笑话的结构、双关语的存在或双关语的存在,显示出对幽默元素的一定程度的“理解”。
针对 Twitter 上的这项研究,Scale AI 提示工程师 Riley Goodside 将 ChatGPT 缺乏幽默感归咎于通过人类反馈进行强化学习 (RLHF),这是一种通过收集人类反馈来指导语言模型训练的技术:“RLHF 最明显的效果是“模型遵循命令,而基础法学硕士在实践中更难获得。但这种好处并不是免费的——你或多或少要付出创造力的代价。”
尽管 ChatGPT 在笑话生成和解释方面存在局限性,但研究人员指出,它对幽默内容和意义的关注表明在对语言模型中的幽默进行更全面的研究理解方面取得了进展:
研究人员写道:“这项研究的观察结果表明,ChatGPT 宁愿学习特定的笑话模式,而不是真正变得有趣。” “尽管如此,在笑话的生成、解释和识别方面,ChatGPT 的重点在于内容和意义,而不是表面特征。这些品质可以用来促进计算幽默的应用。与以前的法学硕士相比,这可以这被认为是对幽默的普遍理解的巨大飞跃。”
Jentzsch 和 Kersting 计划继续研究大型语言模型中的幽默,特别是在未来评估 OpenAI 的 GPT-4。根据我们的经验,他们可能会发现 GPT-4 也喜欢拿西红柿开玩笑。