为了更充分了解大模型原理,还是要先了解下聊天机器人的原理。

1、历史发展

人工智能的终极目标是让计算机和人类一样,通过自然语言就可以沟通和交流。聊天机器人本质上是一种以人工智能技术为基础的使用者界面,也就是“人机交互”。它让人们摆脱了传统软件界面或者APP界面的封闭。使用者的所有需求,原则上都可以通过聊天机器人的形式来进行接收,聊天机器人通过自然语言和使用者进行交互。聊天机器人可以接受使用者的所有需求,通过对话随时随地的提供服务,可以准确的了解使用者的特性。以此来促使后台的服务更加专业化。
虽然人工智能爆火才是近十年左右的事情,但人工智能并不是新东西。1950年阿兰·图灵发表论文《计算机器与智能》。在这篇论文中,图灵以“机器能够思考吗?”这个问题开篇,但是他并没有对这个问题进行深入的探讨,而是将它引向另一个新的方向“机器会提供和人一样的答案吗?”并由此提出了大名鼎鼎的图灵测试。
1966年,麻省理工约瑟夫·魏泽鲍姆开发了最早的人机对话系统Eliza,其实现技术为关键词匹配及人工编写的回复规则,虽然看起来是人机对话,但机器也是在按人类的命令执行任务,因为它背后的计算逻辑只是一条条模式匹配和字符串规则。
1988年,加州大学伯克利分校的罗伯特·威林斯基等人开发了名为UC(UNIX Consultant)的对话系统,其旨在帮助用户学习怎样使用UNIX操作系统,能够分析用户的语言、确定用户操作的目标、给出解决用户需求的规划、决定需要与用户沟通的内容、以英语生成最终的对话内容以及根据用户对UNIX系统的熟悉程度进行建模的功能。Eliza开启了人机对话时代,UC进一步推动了智能化程度的发展。理查德·华勒斯博士在1995年开发的ALICE系统曾在2000年、2001年和2004年三次问鼎勒布纳奖。此外,还有用于查询英国电话黄页的YAP、用于外语学习伴侣的CSIEC、用于哈佛大学数学教学的Sofia等。
苹果在2011年推出智能语音助手Siri,使聊天机器人逐渐进入了大众视野,也使得各大互联网厂商纷纷加快研究聊天机器人。现在国内外各大互联网公司已经推出多款智能音箱,如Echo、Google Home、天猫精灵等等,不仅具备播放音乐外,还能与人交流等生活化的功能。另外,微软在2014年推出聊天机器人“小冰”,它的定位不是完成特定任务,而是提供虚拟陪聊。小冰可以就任何话题与人进行交流,随着对话语料库的逐步扩大和深度学习算法的优化,微软小冰会变得越来越智能。
2022年11月OpenAI推出ChatGPT,它可以回答连续提出的问题、生成文本摘要、翻译文档、对信息进行分类和编写代码等,同时能够承认错误、对不正确的前提进行质疑,并且可以拒绝不合适的请求。聊天机器人的用户数量在5天内突破100万,取得史无前例的最快业绩。ChatGPT拥有更强大的语言理解和文本生成能力,可以通过存储上下文信息为客户提供更加自然舒适的连续对话体验。
基于聊天机器人适应的不同场景,可以分为任务型和开放型。
任务型对话系统主要应用场景为个人助理,通过语音或文字与对话系统进行交互,实现个人事务的查询及代办功能,如天气查询、空气质量查询、定位、短信收发、日程提醒、智能搜索等,从而更便捷地辅助用户的日常事务处理。代表性的商业系统有Apple的Siri、GoogleNow、微软Cortana、出门问问等。
面向开放领域的聊天机器人,主要任务是利用自然语言完成与人在任意话题上的交流,它涉及的话题范围更广、表达方式更多。因此,已经在面向特定领域的聊天机器人上得到成功应用的一些方法,如人工编写规则进行意图检测和词槽填充等,并不适用于开放领域。

2、模型介绍

2.1任务型对话系统

Image
人机对话系统通常包括三个关键模块,即口语语言理解(SLU)、对话管理(Dialogue Management,DM)和自然语言生成(Natural Language Generation,NLG)。
口语语言理解(SLU)是将用户说出的自然语言转换为结构化的语义表示。不同的系统可能采用不同的语义表示方式。例如,识别出“领域、意图和语义槽(slot)”是常用的语义表示方式。再者例如,对于用户输入的语句:“查一下明天到上海的机票。”语义表示为<领域=航旅;意图=查询机票;语义槽(出发日期=明天;到达地=上海)>。NLU可以使用语义分析或语义标注的方式获得,也可以把它分解为多个分类任务来解决。
对话管理(DM):综合用户当前输入和历史对话中已获得的信息,给出机器答复的结构化表示。对话管理包含两个模块,对话状态追踪(Dialogue State Tracking,DST)和对话策略优化(Dialogue Policy Optimization,DPO)。DST维护对话状态,它依据SLU的结果,把旧对话状态更新为新对话状态。其中对话状态应该包含维持对话所需要的各种信息。如在用户输入语句“查一下明天到上海的机票”后,对话状态由<出发日期=NULL;出发地=NULL;到达地=NULL>变为<出发日期=明天;出发地=NULL;到达地=上海>。然后,DPO根据DST维护的对话状态,确定当前状态下机器人应如何进行答复,也即采取何种策略或动作是最优的。
仍然是上面的例子,DPO的结果为<ask=出发地>,即采取的动作为“询问出发地”。若系统动作和槽位较少,则可以使用基于规则的方法选择一种策略。相反,如果对话复杂,每一步采用的策略并没有唯一的标准答案,不同的策略组合可能达到相同的对话效果,我们只能得到对话结束时,用户是否满意等信息。这是典型的强化学习问题,可以使用在棋类游戏中采用的深度强化学习模型进行建模。
自然语言生成(NLG):把DM输出的结构化对话策略还原成对人友好的自然语言。最简单也是最常用的NLG方法是使用事先设定好的模板进行回复,复杂的可以使用深度学习生成模型等技术。
任务型对话系统的构建方式容易实现,可解释性强,但模块之间误差会逐层积累,又因各模块之间相互独立导致无法联合调优。

2.2开放域系统

Image
当面向开放域聊天型对话系统时,上述任务型的系统框架就显得力不从心。这主要是因为在开放领域中,既无法穷举用户的意图和语义槽,也无法穷举系统的回复策略,因此也很难生成流畅自然的回复语句。
随着深度学习技术的发展,研究者发现使用向量隐示地表示用户的意图和回复策略等信息,这些信息可以使用深度学习模型,自动地从大量的对话数据中学习出来,同时也可以使用深度学习模型自动地产生流畅的自然语言回复语句。
随着在开放域聊天上的成功应用,深度学习技术也逐渐渗透到任务型对话系统中。开始,使用深度学习来实现各个模块,如基于卷积神经网络(CNN)进行领域及意图的识别,基于长短时记忆网络(LSTM)进行语义槽的识别等。现在,越来越多的研究关注是否可以使用端到端的技术,不经过显示地进行意图、语义槽识别以及对话管理模块,直接生成自然语言生成回复。

3、近期热点

开放域聊天系统与深度学习结合后,出现了明显进步,2022年底OpenAI发布ChatGPT,ChatGPT对人类语言理解程度比以往产品高出很多,其背后就是AI大模型。“大”指模型参数规模大,需要大量计算资源和内存空间做训练支撑;而且模型的训练范式为“预训练”,即模型并不针对特定任务进行训练,而是在广泛数据上进行大规模预训练,实现下游任务的广泛适用,再根据特定任务要求进行“微调”。GPT模型的“P”就是预训练(Pre-trained)的意思,ChatGPT模型就是在GPT-3.5预训练大模型上根据人类对话情境(Chat)微调而成,因此取名为ChatGPT。
当AI模型层数越多、模型越深、参数数量越多时,AI模型的实际表现越好,于是大公司纷纷开始了AI大模型的竞赛。20世纪90年代,AI模型LeNet能自动识别支票上的手写数字,拥有6万个参数。2012年,AlexNet模型赢得全球图片分类竞赛,拥有6238万个参数。2018年、2019年、2020年发布的GPT、GPT-2、GPT-3模型各有1.17亿、15亿、1750亿个参数,到2022年PaLM模型已有5400亿个参数。最新的GPT-4参数据说已经超万亿,阿里巴巴“通义”大模型,多模态大模型M6的参数规模也已经突破10万亿。
训练一个AI大模型是在拟合一个“复杂函数”,当AI模型越深、参数规模越大时,其拟合复杂函数的能力越强,这就是近年来AI大模型被持续追捧的根本原因。另外,训练所需的海量数据也成为关键瓶颈。由于AI大模型本质上是从已有的海量数据中学习规律获得能力,因此大规模高质量数据是模型训练必不可少的“养料”。之前业界通常采用对一个具体AI任务收集一个单独数据集的方式开展训练,但2017年之后预训练模型逐渐成为主流,不针对特定任务广泛地采集数据的方法逐渐统一,训练数据集规模也越来越大。
OpenAI 2018年训练1.17亿参数的GPT-1模型使用7000本书籍作为训练数据集,大小约5GB;2019年训练15亿参数的GPT-2模型使用在互联网收集到的800万篇文章作为训练数据集,大小约40GB;2020年训练1750亿参数的GPT-3模型使用打包了5个不同类型数据集作为训练数据集,共采集了450TB数据,经过数据清理后实际用于训练的也有570GB,共有5000亿个词,相当于约1700亿本《哈姆雷特》或4000多个国家图书馆的馆藏文献总量,这对于纯文本类型数据而言已是一个非常“恐怖”的数字。
对我国而言,全球互联网上中文数据规模相较于英文数据更少,高质量的中文数据集则更为稀缺,各大科技企业往往将其收集的互联网公开中文数据集当作私有资产,进一步提高了AI大模型训练的困难程度,降低了其对中文的理解和表达能力。这也就是为什么国内新晋开放域聊天机器人的效果看起来与ChatGPT有一定差距的主要原因。
部分内容引自:
《借道者、自研派与卖水人:国内大模型路径渐趋清晰》吕倩
《聊天机器人(ChatGPT)的溯源及展望》荆林波,杨征宇
《AI算得还不够精?对话清华大学人工智能专家邓志东“让子弹先飞一会儿,算法突破还需2到5年”》朱鹏
《人工智能大模型竞争日趋白热化》齐旭,刘晶,宋婧
《透视AI大模型国家队必须勇担重任》潘彤,孙宁,许恒昌
《聊天机器人的分类标准和评估标准综述》王艳秋,管浩言,张彤
《基于检索式和生成式相结合的聊天机器人研究与实现》刘炳麟
《基于检索与生成模型相结合的聊天机器人关键技术研究》张凉
《人机对话系统综述》车万翔,张伟男