什么是ChatGPT及如何使用它?

这就是ChatGPT,以及为什么它可能是现代搜索引擎以来最重要的工具。

OpenAI推出了一种名为ChatGPT的长篇回答问题的人工智能,以对话方式回答复杂问题。

这是一项革命性的技术,因为它经过训练,可以学习人类提问时的意思。

许多用户对它提供人类质量的回答的能力感到震惊,激发了人们的感觉,即它最终可能有能力颠覆人类与计算机的互动方式,并改变信息检索的方式。

什么是ChatGPT?

ChatGPT是OpenAI基于GPT-3.5开发的一个大型语言模型聊天机器人。它具有显著的能力,能够以对话的形式进行互动,并提供能够显得出人意料的回应。

大型语言模型执行的任务是预测一系列单词中的下一个单词。

带有人类反馈的强化学习(RLHF)是一个额外的训练层,它使用人类反馈来帮助ChatGPT学习遵循指令的能力,并产生令人类满意的反应。

谁建立了ChatGPT?

ChatGPT是由位于旧金山的人工智能公司OpenAI创建的。OpenAI Inc.是营利性的OpenAI LP的非营利性母公司。

OpenAI因其著名的DALL-E而闻名,这是一个深度学习模型,可以从称为提示的文本指令中生成图像。

首席执行官是萨姆-奥特曼,他曾是Y Combinator的总裁。

微软是一个合作伙伴和投资者,金额为10亿美元。他们共同开发了Azure人工智能平台。

大型语言模型

ChatGPT是一个大型语言模型(LLM)。大型语言模型(LLM)是用大量的数据进行训练,以准确预测句子中的下一个词。

人们发现,增加数据量可以提高语言模型的能力。

根据斯坦福大学的说法:

GPT-3有1750亿个参数,在570千兆字节的文本上进行训练。作为比较,其前身GPT-2的参数为15亿,小了100多倍。

这种规模的增加极大地改变了模型的行为–GPT-3能够执行它没有明确训练过的任务,如将句子从英语翻译成法语,而训练的例子很少甚至没有。

这种行为在GPT-2中基本没有。此外,对于某些任务,GPT-3优于那些被明确训练来解决这些任务的模型,尽管在其他任务中它还不够。

LLMs可以预测一个句子中一系列单词的下一个单词,以及下一个句子–有点像自动完成,但在一个令人费解的规模。

这种能力使他们能够撰写段落和整页的内容。

但法律硕士的局限性在于,他们并不总是能准确地理解人类想要什么。

而这正是ChatGPT改进技术水平的地方,它采用了前面提到的带人类反馈的强化学习(RLHF)训练。

ChatGPT是如何被训练的?

GPT-3.5在关于代码和互联网信息的大量数据上进行训练,包括Reddit讨论等来源,以帮助ChatGPT学习对话并达到人类的回应风格。

ChatGPT还使用人类反馈进行训练(这种技术被称为人类反馈强化学习),这样人工智能就能学会人类在提出问题时的预期。以这种方式训练LLM是革命性的,因为它超越了简单地训练LLM来预测下一个单词。

2022年3月的一篇题为《通过人类反馈训练语言模型以遵循指令》的研究论文解释了为什么这是一种突破性的方法:

这项工作的动机是,我们的目标是通过训练大型语言模型来增加其积极影响,让它们做一组特定人类希望它们做的事情。

默认情况下,语言模型优化下一个词的预测目标,这只是我们希望这些模型做什么的代理。

我们的结果表明,我们的技术有希望使语言模型更有帮助,更真实,更无害。

把语言模型做得更大并不意味着它们能更好地遵循用户的意图。

例如,大的语言模型可以产生不真实的、有毒的、或者根本对用户没有帮助的输出。

换句话说,这些模型没有与用户保持一致。

建立ChatGPT的工程师聘请了承包商(称为标签人员)对GPT-3和新的InstructGPT(ChatGPT的一个 “兄弟姐妹模型”)这两个系统的输出进行评级。

基于这些评价,研究人员得出了以下结论:

与GPT-3的输出相比,贴标者明显喜欢InstructGPT的输出。

InstructGPT模型在真实性方面比GPT-3有改进。

InstructGPT在有害内容方面比GPT-3有小的改善,但没有偏见。

研究论文的结论是,InstructGPT的结果是积极的。尽管如此,它也指出,仍有改进的余地。

总的来说,我们的结果表明,利用人类的偏好对大型语言模型进行微调,大大改善了它们在各种任务上的行为,尽管在提高它们的安全性和可靠性方面还有很多工作要做。

ChatGPT与简单的聊天机器人不同的是,它经过专门训练,能够理解问题中的人类意图,并提供有用的、真实的、无害的答案。

由于这种训练,ChatGPT可能会质疑某些问题,并放弃问题中不合理的部分。

另一篇与ChatGPT有关的研究论文显示了他们如何训练人工智能来预测人类的喜好。

研究人员注意到,用于评价自然语言处理人工智能输出的指标,导致机器在指标上得分很高,但与人类的预期不一致。

以下是研究人员对这个问题的解释:

许多机器学习应用优化了简单的指标,这些指标只是设计者意图的粗略代理。这可能会导致一些问题,例如YouTube的推荐促进了点击诱饵。

因此,他们设计的解决方案是创建一个人工智能,可以输出优化到人类喜欢的答案。

为了做到这一点,他们使用人类对不同答案的比较数据集来训练人工智能,这样机器就能更好地预测人类判断的满意答案。

该论文分享了通过总结Reddit帖子进行的训练,并且还对总结新闻进行了测试。

2022年2月的研究论文名为《从人类反馈中学习总结》。

研究人员写道:

在这项工作中,我们表明,通过训练一个模型来优化人类的偏好,有可能显著提高总结质量。

我们收集了一个大型的、高质量的人类摘要比较数据集,训练一个模型来预测人类喜欢的摘要,并使用该模型作为奖励函数,使用强化学习来微调摘要政策。

ChatGPT有哪些局限性?

对有害内容反应的限制

ChatGPT是专门设计的,不会提供不正确或有害的答复。因此,它将避免回答这些类型的问题。

答案的质量取决于指引的质量

ChatGPT的一个重要限制是,输出的质量取决于输入的质量。换句话说,专家指导(提示)会产生更好的答案。

答案并不总是正确的

另一个限制是,因为它被训练成提供人类感觉正确的答案,所以答案可以欺骗人类,使其认为输出是正确的。

许多用户发现,ChatGPT可以提供不正确的答案,包括一些严重错误的答案。

编码问答网站Stack Overflow的版主可能已经发现了人类感觉正确的答案的一个意外后果。

Stack Overflow充斥着由ChatGPT生成的用户回答,这些回答看起来是正确的,但有很多是错误的答案。

成千上万的答案让志愿者版主团队应接不暇,促使管理员颁布禁令,禁止任何用户发布由ChatGPT生成的答案。

大量的ChatGPT答案导致了一篇题为:临时政策-ChatGPT被禁止了。

这是一项临时政策,旨在减缓答案和其他用ChatGPT创建的内容的涌入。

…主要问题是,虽然ChatGPT产生的答案有很高的错误率,但它们通常 “看起来 “是 “可能 “是好的…

Stack Overflow版主对看起来正确的ChatGPT错误答案的经验,是ChatGPT的制造商OpenAI所了解的,并在他们的新技术公告中提出警告。

OpenAI解释ChatGPT的局限性

OpenAI的公告提供了这样的警告:

ChatGPT有时会写出听起来合理但不正确或无意义的答案。

修复这个问题是有难度的,因为。

(1) 在RL训练期间,目前没有真理的来源。

(2) 训练模型使其更加谨慎,导致它拒绝回答它可以正确回答的问题;以及

(3)监督训练会误导模型,因为理想的答案取决于模型所知道的东西,而不是人类演示者所知道的东西。

使用ChatGPT是否免费?

目前在 “研究预览” 期间,ChatGPT的使用是免费的。

该聊天机器人目前开放给用户试用,并对回答进行反馈,以便人工智能在回答问题时变得更好,并从错误中学习。

官方公告称,OpenAI渴望收到关于错误的反馈。

虽然我们已经努力使模型拒绝不适当的请求,但它有时会对有害的指令作出反应或表现出有偏见的行为。

我们正在使用节制API来警告或阻止某些类型的不安全内容,但我们预计它暂时会有一些错误的否定和肯定。

我们渴望收集用户的反馈,以帮助我们正在进行的工作,改善这个系统。

目前有一个竞赛,奖品是500美元的ChatGPT积分,鼓励公众对反应进行评价。

我们鼓励用户通过用户界面对有问题的模型输出提供反馈,以及对外部内容过滤器的假阳性/阴性反馈,这也是界面的一部分。

我们特别感兴趣的是关于在现实世界的非对抗性条件下可能发生的有害输出的反馈,以及帮助我们发现和理解新的风险和可能的缓解措施的反馈。

你可以选择参加ChatGPT反馈竞赛3,有机会赢得高达500美元的API积分。

参赛者可以通过ChatGPT界面中链接的反馈表提交。

目前正在进行的比赛在北京时间2022年12月31日晚上11点59分结束。

语言模型将取代谷歌搜索?

谷歌自己已经创造了一个人工智能聊天机器人,它被称为LaMDA。谷歌的聊天机器人的表现非常接近人类的对话,以至于谷歌的一位工程师声称LaMDA是有生命的。

鉴于这些大型语言模型可以回答如此多的问题,像OpenAI、谷歌或微软这样的公司有一天会用人工智能聊天机器人取代传统搜索,这是否很牵强?

推特上的一些人已经在宣称ChatGPT将成为下一个谷歌。

对于那些以搜索营销为生的人来说,问答式聊天机器人有朝一日可能取代谷歌的情景是令人恐惧的。

它已经在在线搜索营销社区引发了讨论,比如流行的Facebook SEOSignals实验室,有人问搜索是否会从搜索引擎转向聊天机器人。

在测试了ChatGPT之后,我不得不同意,对搜索被聊天机器人取代的担心并非毫无根据。

这项技术还有很长的路要走,但有可能设想出搜索和聊天机器人混合的未来。

但目前ChatGPT的实现似乎是一个工具,在某些时候,需要购买信用额度才能使用。

可以使用ChatGPT干什么?

ChatGPT可以按照特定作者的风格编写代码、诗歌、歌曲,甚至是短篇小说。

遵循指示的专业知识使ChatGPT从一个信息源提升为一个可以被要求完成任务的工具。

这使得它对几乎任何主题的论文写作都很有用。

ChatGPT可以作为一个工具,为文章甚至整部小说生成大纲。

它将为几乎所有可以用书面文字回答的任务提供答复。

小结

如前所述,ChatGPT被设想为一个公众最终需要付费才能使用的工具。

自ChatGPT向公众开放以来的前五天内,已有超过一百万用户注册使用。