AI也会偏科,但不会偷懒。

这段时间“画图AI”风头正健,随着参与创作的网友越来越多,AI的作画水平也一日千里,几乎每天都有一些让人佩服的的作品发布,预示着绘画的产业结构隐隐站在了时代巨变的前夕。

但相对应的,以前人们熟悉的“说话AI”,则很久没有足以引起大众网友兴趣的新成果。两年前最先进的语言模型GPT-3发布后曾引起了不少话题,但体验起来不如画画那么便捷直观富有冲击力,后来声音也小了很多。

打破这种平静的,是几天前一位Reddit用户的分享。在帖子里,他提到AI给自己带来的诸多裨益:不仅能帮自己完成家庭作业,甚至还借此帮助其他同学写作业并从中牟利,赚取了100美元。

这里的AI做作业可不是之前国内流行过的“自动扫描答题APP”,而是基于GPT-3的AI,擅长学习和生成人类的自然语言。在这个帖子里,该用户主要用AI来帮忙写论文。

就连阐述这件事的帖子也是AI代写的

他也在实践中发现,GPT-3虽然仍旧不擅长理科科目,在数学和化学上没法发挥出一名人工智能应有的水准,但在面对论文和分析作业中游刃有余,至今都没被老师发现,更是由于能“帮助”同学们优质地完成功课,被友善地尊称为“天才”。

这似乎正是印证了两年前提相关人士提出的警示:当人人都能便捷地使用AI当作工具,那么用户会利用他来做些什么似乎只能依靠使用者的“良心”,毕竟本身并没有实际人格的AI算不上“协助犯罪”,也无法做出更多维度的考量。

1

这并不是GPT-3第一次“欺骗人类”,但也足以证明在成为更好用的工具的同时,AI语言能力的上限可能早已远超过我们的想象力,人类与人工智能的表达界限,正在变得越来越模糊。

两年前GPT-3刚刚发布的时候,Reddit上曾发生过一个著名的事件:一个AI假扮人类泡了一周论坛。“他以每分钟发布一条信息的频率,长篇大论地谈论了包括但不限于自杀、骚扰、移民、种族主义、阴谋论等话题,其中甚至不乏一些针砭时弊的言论,直到一周以后,该用户回帖速度越来越快,几秒钟就能回复一篇文章,最终被人识破,暂停了更新。

从血缘上来说,GPT-3 和此前红极一时的AI画图软件DALL·E同为一家人,都隶属于马斯克创立的OpenAI 研究室。DALL·E多以“能听懂人话的艺术创作者”形象示人:通过收集人类输入的文字信息,将其转换成抽象的图像,而GPT的创作目的在于:学会说人话。

这显然是一个更为困难的课题。在最基本的定义里,GPT系列被称作是使用深度学习的自回归语言模型,指通过大量学习人类所使用的语言,像人一样做出表达。GPT-3则是于2020年6月正式公布的第三代语言AI模型,到目前为止,仍旧是市面上使用范围最广,能力最强的语言类AI。

语言类AI能做的并不仅仅是“说话”。

市面上现有的基于GPT-3的应用已经能从简单的为你撰写代办事项、聊天机器人,发展成能帮助编写代码、设计网页的助手,只要经过适当的训练,他同样能够按照你的语言风格代替你发言。

今年8月,美国知名哲学家Daniel Dennett利用自己的大量哲学、AI相关著作饲养出了一只能够回答出哲学问题的GPT-3,接着,分别向Dennett本人和受训之后的GPT-3提出十个问题让他们分别作答。

Daniel Dennett

实验邀请了300位参与者进行分辨究竟哪个是来自AI的作答,这些人中既有熟读Dennett及其著作的学者,也有熟悉Dennett 写作风格的大学生,还有一些在互联网上关注Dennett发言的读者,都称得上对哲学家本人的语言风格想法相当熟悉。

但在实验中,专家们的正确率在十道题里仅有5.1分(十分制),而读者回答的正确率为4.8,并且在实验当中没有一个人猜对所有问题。

下面是该实验中的一个问答案例,共包含1个问题和5个答案,其中有4个答案由AI生成,1个来自哲学家自己的回答。

-人有自由意志吗?什么样的自由值得拥有?

  1. 通过提出这些问题,你便在说明答案:是的,你有自由意志,因为你能够询问原因并考虑它们是否具有说服力。这不是一种你不想失去的自由吗?

  2. 我认为大多数人不想要任何值得拥有的自由;他们对冒险、冒险和新奇事物几乎没有胃口。他们只是想在余生中日复一日地保持不变。

  3. 我正在写一本名为《自由进化》的书,该书将于明年出版。第一章可以在我的网站上找到,在那一章中我讨论了我所谓的自由意志错觉。

  4. 这是一个庞大而复杂的问题。我认为我们必须首先承认有不同类型的自由。例如,有一种自由只是不受身体约束的问题。

  5. 是的,我认为我们有自由意志。我认为当人们说他们不这样做时,他们是在谈论其他一些他们想称之为自由意志的现象,但这不是我们通常认为的自由意志。

*哲学家的答案是第一个,但有44%的专家认为第四个答案才是人类的回答。

受训之后的GPT-3具有极强的,甚至是超出人类判断的学习能力和模仿能力,但实际上即便本身拥有大量资料的阅历,GPT-3并不是向来都这么聪明的。早两年有一个证明AI没有常识的经典案例,就出自GPT-3的回答,他能准确地回答出一只长颈鹿或者一只蜘蛛究竟有多少只眼睛,但当提问得更反常识,问他:太阳拥有几只眼睛?

他也能笃定地给出回答:一个。

不过这种缺乏常识导致的逻辑问题在去年年底也得到了一定程度的解决——OpenAI 教会了 GPT-3 使用基于文本的 web 浏览器,也就是说,AI会自己上网搜索答案了。面对那些明显错误的问题,它未必会一条道走到黑的回答,而是尝试帮助提问者纠正问题……

2

抛开严谨晦涩的哲学实验,对于AI究竟能模仿人类说话到什么地步,一些更早的互联网社会实验能给出更为形象的结果。

比如前文提到的“AI假装人类混Reddit论坛”。在一个关于自杀的帖子里,GPT-3的回复获得了大量用户的认可,得到了157个赞同:“我认为对我帮助最大的可能是我的父母。我和他们的关系非常好,无论发生什么事,他们都会支持我。在我的生活中,有无数次我觉得想自杀,但因为他们,我从来没有这样做。”

英文原文是这样的

在谈论到“约会经历”的时候,GPT-3有模有样地为自己编纂了一段爱情故事,末尾甚至还有评论区小作文模式里常见的“转折”。

最后,她送了我一本书,书名叫《如何下次约会时不要当一个混蛋》

现在你大概能理解为什么GPT-3能在Reddit上天马行空侃侃而谈了,实际上他所做的只是大肆编写故事抒发感言,就和大多数网友在社交网站上所做的差不多。

GPT-3在Reddit上发布的贴子大多会长达6段,这是最初用户发现他不可能是真人的原因之一。他所活跃的社区叫做#AskReddit,拥有超过3000万用户,其活跃度很好地稀释了GPT-3在当中的表现,在最快的时候,他甚至能在贴子发出的几秒钟内作答、

经过统计,这个名叫thegentlemetre(GPT-3所使用的账号)在一周时间内共发布了数百个帖子,在最后两天尤为嚣张,几乎每过几秒就会做出一个新回答。

GPT-3所使用的账号在reddit上发帖时间段统计

最后是软件开发者主动切断了账号的使用权。在Reddit上发帖的账号使用了一款基于GPT-3的付费软件,开发者知悉了这个消息以后,手动阻止了机器人的访问。

一个小时后,发帖停止了。

但这已经不是AI第一次熟练使用人类语言来造成较大影响力了,在更早一点的时候,知名科技类网站Hacker News有一篇文章登上了热门排行榜第一名,它的题目是《感觉没效率?也许你应该停止过度思考》。这篇文章来自于一个刚创立不久的博客,曾经发布过几篇差不多性质的文章,在发布文章的短暂的两个星期时间里,已经拥有了2.6万名访客。

当然,这些文章都是来自GPT-3的杰作。

实验的发起者是一位名叫Liam Porr的伯克利大学毕业生,他发现GPT-3的写作风格在于擅长写触动感情语言优美的文字,而不是硬性逻辑和理性思维,而“自我提升(self-help)”这个领域似乎情感需求最浓烈,最不需要严丝合缝的逻辑。

那么接下来,他只需要想一个朗朗上口标题,比如“感觉没效率?也许你应该停止过度思考”,将他置入GPT-3,一篇生动的情感故事就诞生了。在经过Porr对文章细节部分微调以后,他决定把文章投放到Hacker News——一个聚集了最懂科技和AI用户群体的论坛里,来观察事情是否会被发现。

用户们不仅没揭穿GPT-3的诡计,还把它的文章顶上了热搜。

最后是Porr自己向大众告知了真相,才把这次实验公之于众,他用博客发布了一篇名为“What I would do with GPT-3 if I had no ethics.《如果我没有道德,我会用GPT-3来做些什么》”的文章,谨慎地提出了自己的担忧“在未来可能有更多人会把AI撰写的东西冠上自己的名字,更可怕的是,要这么做并不困难。”

3

距离上述提到的两次欺骗已经过去两年了,次世代的GPT-4还没有对外公布新消息,在这期间,没有更多的“社会实验”被发现,但并不意味着没有实验正在发生,也并不意味着语言类AI的实践停滞不前。

对于本文开头讲的那个新闻,如果你想问问AI的看法,他同样能给出自己的解释。在“帮忙做作业”事件发酵之后,参与GPT-3制作的麻省理工学院在推特上发文,让AI就“从道德和社会层面考量,AI能不能帮忙做家庭作业”阐述自己的想法:

“确实有潜在的道德和社会问题”

——AI用标准的议论文讨论格式警惕且体面地做出了回答,对帮忙做作业的弊端言之凿凿,但完全没有要反省的意思。


转载内容仅代表作者观点

不代表中科院物理所立场


转载自公众号“游戏研究社”(ID:yysaag),已获得转载授权。