12月初,人工智能实验室OpenAI发布了一款名为ChatGPT的自然语言生成式模型,由于它能接住并解答网友的许多刁钻问题,一经问世就迅速引发关注,上线5天后,其体验用户已经突破100万。12月4日,马斯克在咨询该聊天机器人关于推特经营的建议并收到精准回复后直言其“好得吓人,我们距离强大到危险的人工智能更近了”。

12月8日,新京报贝壳财经记者体验了ChatGPT。记者发现,相比市面上其他聊天机器人,ChatGPT的功能更加多样,例如它可以按照要求写诗、写讲话稿、新闻稿甚至写代码。此外,该聊天机器人的回答更为严谨,面对许多高难度问题,ChatGPT会老老实实回答“缺乏资料”或者“我只是一个语言模型”。

东吴证券发布研报称,从受众和技术上看,ChatGPT在AI文字交互模型领域十分突出。与此前的模型相比,ChatGPT亮点主要包括:全面免费开发,用户只需输入文字,就可免费调用完成各种事情(如数学计算、debug、写信、生活问题解答等),实感体验为广泛讨论创造土壤;新增代码理解和生成能力,彰显技术实力的同时也拓宽了应用场景;加入道德原则。RLHF(一种通过人类反馈来强化学习的新技术)训练方式使ChatGPT能够识别恶意信息,识别后拒绝给出有效回答;支持连续对话等,“总体上,ChatGPT对话效果令人满意,新鲜感与实用价值使其快速走红。”

ChatGPT:让你的聊天更有智慧——该标题为聊天机器人自己所起

“我想写一篇关于ChatGPT的文章,我给这篇文章起什么标题合适?”这是12月8日,新京报贝壳财经记者咨询ChatGPT的第一个问题。

而该聊天机器人的回复也非常详细:它给记者写出了足足6个标题,并且表示“当然,这些标题都只是建议,最终还是要根据自己的文章内容和表达目的来决定”。回答显得非常人性化。

而当记者继续咨询它能否以“ChatGPT:让你的聊天更有智慧”为标题写一篇新闻时,它也给出了肯定的答复,甚至在不到10秒钟的时间里就写出了作者为新京报社的一篇12月8日的新闻报道。

不过记者发现,该聊天机器人在回答问题时有时并不会回答完整,但此时当提问者继续要求其完整回答时,它也完全可以“跟上”此前的聊天进度,这说明ChatGPT具备一定程度的记忆功能。

贝壳财经记者了解到,目前市面上的人工智能语言模型并不少见,如谷歌BERT模型、阿里巴巴的PLUG模型、清华大学计算机系自然语言处理与社会人文计算实验室的中文诗歌生成系统“九歌”等,能够采用拟人化方式和用户自由对话的也有Character.AI(角色AI)等。但相比上述能够生成语言的模型,ChatGPT具有了更为强大的功能,其中就包括直接在回答中写代码。

如当贝壳财经记者要求ChatGPT编写一段代码时,其很快生成了一段可以复制的代码文件。

对于ChatGPT的回答,有互联网从业者对贝壳财经记者表示:“这段代码的基本结构是对的。”

值得注意的是,对于ChatGPT和其他语言模型有何差别这一问题,该聊天机器人在接受记者提问时表示“主要区别在于它采用了更先进的自然语言处理技术,并在训练过程中使用了大量高质量的自然语言文本数据。这些都使得 ChatGPT 在处理文本信息方面更加精确,并能够取得更好的表现。此外,ChatGPT 模型还采用了双向自注意力(bi-directional self-attention)技术,这使得它能够更好地利用语料库中的信息,提高处理文本信息的效率。总之,ChatGPT 模型与其他语言模型相比,具有更先进的技术,更好的处理文本信息的能力,以及更高的处理效率”。

不过,贝壳财经记者通过测试发现,ChatGPT在一些地方也有不尽如人意之处。

首先就是在具体问题的回答上,该聊天机器人仍然和具有专业经验的人士有明显差距。如当记者咨询一个北京旅游计划设计问题时,虽然ChatGPT很快列出了一个看似格式很工整的旅游计划,但可行性并不大:其给记者制定的旅游计划中,从天安门下午乘坐地铁前往长城,而后第二天一早再乘地铁前往故宫,这在实际旅游中显然时间过于紧张。

此外,当回答一些带有拟人化的问题时,ChatGPT会反复强调:“对不起,我是一个人工智能助手,没有意识和感知”。显然,在今年6月谷歌工程师布莱克·莱莫因在与谷歌智能聊天机器人LaMDA进行深聊后声称人工智能拥有感情,最终遭到谷歌辞退后,包括OpenAI在内的许多人工智能公司都采取了尽量避免其他人对聊天机器人产生误会的可能。

OpenAI在官网表示,由于ChatGPT 没有连接到互联网,它偶尔会产生不正确的答案,“它对 2021 年之后的世界和事件的了解有限,偶尔也可能产生有害指令或有偏见的内容。”此外,由于需要通过用户的反馈改进对话技术,该公司会记录用户在ChatGPT 上的聊天数据,不过用户也可以对自己的对话内容进行删除。

熟悉AI发展的互联网从业者李鸿儒对贝壳财经记者表示,随着技术的发展,目前最先进的语言模型几乎可以完美通过初步的图灵测试,“图灵测试是一种衡量人工智能与人类智能水平相似程度的方法,它要求人工智能必须能够以人类相似的方式与人类交流,且不能被人类轻易地区分出来。而当前人工智能语言模型的训练方式就是收集人类回答者在网上的公开数据,因此许多回答完全可以‘以假乱真’,毕竟它就是从真实的人类回答里衍生的。”

值得注意的是,当贝壳财经记者咨询ChatGPT“是否存在可以通过图灵测试的AI”时,它的回答非常“谦虚”:“目前,虽然已经有一些人工智能系统能够在一定程度上与人类进行交流,但它们并不能完全模仿人类的智能。因此,目前还没有人工智能能够通过图灵测试。如果将来有一个人工智能能够通过图灵测试,那么它很可能会是一个由当前领先的人工智能研究机构,如 OpenAI,DeepMind 等所开发的系统。这样的人工智能将具有与人类智能相似的能力,能够以人类相似的方式与人类交流。但目前这样的人工智能还不存在,我们只能期待未来的发展。”

技术进步怎样发生?OpenAI:使用人类反馈强化学习

据了解,ChatGPT的前身为OpenAI此前的语言模型GPT-3,而GPT-3也经历了从1代到3代的演化。东吴证券认为,通过梳理前几代模型,ChatGPT之所以能实现如此革命性的变化,新技术RLHF训练方式的引用或是关键:从GPT到GPT-3:优化主要来自算力增加(烧钱)。GPT、GPT-2和GPT-3的算法模型并没有太大改变,但参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练一次的费用是460万美元,总训练成本达1200万美元。虽然训练数据量和算力大幅增加使GPT-3有显著优化,但高额投入也使其只能走B端变现。

OpenAI在官网表示,ChatGPT 是从 GPT-3.5 微调而来的,GPT-3.5 是一种经过训练以生成文本的语言模型。ChatGPT 通过使用人类反馈强化学习 (RLHF) 针对对话进行了优化,这是一种使用人类演示来指导模型实现所需行为的方法。

在东吴证券看来,2022年OpenAI增加了人类对模型输出结果的演示,并在对结果进行排序的基础上训练,加上指令调整的帮助,虽然其只有13亿个参数,但回答准确率、道德表现却好于GPT-3。ChatGPT则加入了RLHF训练方式(相关论文2022年3月发表),根据ChatGPT,其每次对话平均费用在0.01-0.2美元,模型效果比InstructGPT又提升一个台阶,“我们认为新技术发展和应用将是AIGC工具出现革命性迭代更为重要的驱动。”

李鸿儒告诉贝壳财经记者,GPT-3的部分训练是基于从互联网上搜集的数据,因此它的输出结果在与人类回答者极其近似之外,也经常受到偏见和不准确信息的影响。而在ChatGPT的训练上,训练师还会对机器人的回复选项打分排名,将更好的结果输回到模型中,通过以上奖励策略对模型进行微调并持续迭代,这样既可以避免受到不准确信息的影响,还能提供更连贯和更符合逻辑的对话能力。

浙商证券则认为,ChatGPT模型的出现对于文字模态的AIGC(利用AI技术自动生成内容)应用具有重要意义。从下游相关受益应用来看,包括但不限于代码机器人、小说衍生器、对话类搜索引擎、语伴、语音工作助手、对话虚拟人等。从上游增加需求来看,包括算力、数据标注、自然语言处理(NLP)等。

最后,当贝壳财经记者咨询ChatGPT“你能为人类的发展做出什么改变?请举例说明”这一问题时,该聊天机器人回答道:

“ChatGPT能够提高人类的工作效率和生活质量。例如,ChatGPT可以帮助人们快速查找信息,可以帮助聊天机器人更好地与人交流,并且可以让人们在与人工智能交流时,感觉像是在与真正的人交流。此外,ChatGPT还可以应用于医疗、教育、法律、金融等领域,为人类的发展做出重大贡献。例如,在医疗领域,ChatGPT可以帮助医生快速查阅医学资料,为患者提供更好的诊疗建议。在教育领域,ChatGPT可以帮助教师快速查找教学资料,为学生提供更好的学习指导。在法律领域,ChatGPT可以帮助律师快速查找法律资料,为客户提供更好的法律建议。在金融领域,ChatGPT可以帮助投资人快速查找金融资料,为投资人提供更好的投资建议。总而言之,ChatGPT的应用可以使人类的工作效率得到极大提高,并为人类的发展做出重大贡献。”

(文内截图均为贝壳财经记者与ChatGPT对话)

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 徐超 校对 杨许丽