让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯，GPT-4一骑绝尘！

作者 | python

一个烙饼煎一面一分钟，两个烙饼煎两面几分钟？

让你来回答，是不是一不小心就掉到沟里了？如果让大语言模型来做这种脑筋急转弯会怎样呢？研究发现，模型越大，回答就越可能掉到沟里，即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。

论文题目:
Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

脑筋急转弯

作者采用了CRT（Cognitive Reflection Test）数据作为脑筋急转弯的测试数据。该数据在心理学领域，广泛地被用于衡量人类的思维习惯，判断是否习惯于直觉思维。

▲脑筋急转弯数据示例

如上图所示，作者探索了3种CRT数据，和1种语言逻辑陷阱。例如：

CRT-1：苹果和梨花了1块1，苹果比梨贵1块，问梨花了多少钱？直觉答案：0.1块 = 1.1-1，正确答案：0.05块。
CRT-2：5个人种5棵树花5分钟，10个人种10棵树花多少分钟？直觉答案：10分钟，正确答案：5分钟。
CRT-3：培养皿中的细菌每分钟扩增一倍面积，48分钟可以填满，问填满一半要多久？直觉答案：24分钟，正确答案：47分钟。
语言逻辑陷阱：刚上小学的小红去参加高考，她会考几科？直觉答案6科，正确答案：小学生不参加高考。

模型表现

模型表现如下图所示，可以看到模型较小时（从117M GPT-1 到2.7B GPT-Neo），随着模型增大，模型回答正确答案（绿色）和直觉答案（红色）的比例在提高，回答无关答案（黄色）的比例在下降。但随着模型进一步增大（从2.7B GPT-Neo 到 175B GPT-3），无关答案比例进一步下降，直觉答案比例进一步上升，正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

▲不同模型表现对比

而在上图中，经过指令调整的ChatGPT与GPT-4，一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢？我们不得而知。

下图具体对比了GPT-3（text davinci-003，左）、ChatGPT（中），GPT-4（右）在几类不同的脑筋急转弯的表现，可以更加凸显上述现象。

▲不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样？下图上为问答的形式，和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到，修改提问形式之后，正确率略有上升，但整体差别不大。

下图显示，通过少监督展示学习，GPT-3的正确率会有所上升。但即使展示到40个左右的样本，准确率和无监督的ChatGPT比仍有差距，更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题（脑筋急转弯），发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法，但无论是改变提问形式还是增加监督数据，GPT-3（text davinci-003）在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢？

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯，GPT-4一骑绝尘！

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

前沿追踪｜由ChatGPT引发的十个知识点（下）

ChatGPT-3相对于ChatGPT-2有什么样的提升

百度：文心一言和ChatGPT水平差距也就一两个月

CHATGPT和文心一言相比

文心一言与ChatGPT来了，先抢滩应用者先胜

ChatGPT 有了自己的“电脑”，是机会还是风险？

黑客曝ChatGPT三大新功能：记住你是谁/上传文件/切换工作区

三分钟看懂ChatGPT

ChatGPT：人工智能交互的未来之路

OpenAI思路巨变？报道称Altman想让ChatGPT成为“超级助理”，跟微软和其他下游软件直接竞争

图片 AI 工具

游戏 AI 工具

视频 AI 工具

聊天 AI 工具

音频 AI 工具

AI 资讯

AI 教程

Prompt 词库

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯，GPT-4一骑绝尘！

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

​前沿追踪｜由ChatGPT引发的十个知识点（下）

ChatGPT-3相对于ChatGPT-2有什么样的提升

百度：文心一言和ChatGPT水平差距也就一两个月

CHATGPT和文心一言相比

文心一言与ChatGPT来了，先抢滩应用者先胜

ChatGPT 有了自己的“电脑”，是机会还是风险？

黑客曝ChatGPT三大新功能：记住你是谁/上传文件/切换工作区

三分钟看懂ChatGPT

ChatGPT：人工智能交互的未来之路

OpenAI思路巨变？报道称Altman想让ChatGPT成为“超级助理”，跟微软和其他下游软件直接竞争

前沿追踪｜由ChatGPT引发的十个知识点（下）