大型语言模型执行预测一系列单词中的下一个单词的任务。

Reinforcement Learning with Human Feedback (RLHF) 是一个额外的培训层,它使用人类反馈来帮助 ChatGPT 学习随指示并生成人类类满意的反应的能力。

谁建立了 ChatGPT?

ChatGPT 由总部位于旧金山的人工智能公司 OpenAI 创造。 OpenAI Inc. 是经营性 OpenAI LP 的非经营性母公司。

OpenAI 以其命名的 DALL·E 而闻名,这是一种深度学习模型,可根据称为提示的文本指令生成图像。

首席执行官是 Sam Altman,他之前​​ 是 Y Combinator 的总裁。

微软件是 10 亿元的合作伙伴和投资人。他们共同开发了 Azure AI 平台。

大型语言模型

ChatGPT 是一种大型语言模型 (LLM)。大型语言模型 (LLM) 使用大量数据进行训练,以准确预测句子中接下来出现的单词。

人们发现,增加数据量可以提供高级语言模型做更多事情的能力。

“GPT-3 有 1750 个亿参与数,并接受了 570 GB 文本的训练。相对之下,其前身 GPT-2 的参与数为 15 个亿,少了 100 多倍。

这种规范模型的增加极大地改变了模型的行为——GPT-3 能够执行它没有明确接受训练训练的任务,比如将句子从英语翻译有语法改译举例。

这种行为在GPT-2中几乎不存在。此外,对于某些任务,GPT-3优于经过明确训练以解决这些任务的模型,尽管管在其他任务中”。

LLM 预测一个句子中一系列单词中的下一个词和下一个句子——有点像自动完成,但在一个命令人费解的范围内。

这种能力使他们能够编写段落和整页内容。

但法学硕士的局限性在于他们并不总是能够准确理解人们的需求。

这就是 ChatGPT 通过上述人类反馈强化学习 (RLHF) 培训改革进入现有技术的地方。

ChatGPT 是如何训练的?

GPT-3.5 接受了来自互联网的大量代码和信息数据的训练,包Reddit 讨论等来源,以帮助ChatGPT 学习对话并获得人类变形的回归。

ChatGPT 还使用人类反馈(一种称为人类反馈强化学习的技术)进行训练,以便AI了解人类在提出问题时的期盼。以这种方式,弾式训练是黑因为它不只是训练 LLM 预测下一个单词。

2022年3月的一篇题为 训练语言模型以随从人类反馈的指令 解释为什么这是一个突然破坏性的方法:

“这项工作的动力是我们的目标是通过训练大型语言模型去做一组给定的人希望他们做的事情来增加大型语言模型基地的地位。

默认情况下,语言模型会优化下一个单词预测目标,这只是我们希望这些模型执行的操作的代理。

我们的结果表明,我们的技术有希望使语言模型更有用、更真实、更无害。

使用语言模型更大并不能从本质上使它们更好地符合用户的意图。

例如,大型语言模型可能会生成不真实的、有毒的或者对用户没有帮助的输出。

换句话说,这些模型和他们的用户不一样。”

构建 ChatGPT 的工程师聘用了承包商(称为贴标机)对 GPT-3 和新的 InstructGPT(ChatGPT 的“兄弟模型”)这两个系统的输出进入等级。

根据评价等级,研究人员得出以下结论:

“与 GPT-3 的输出相比较,标记者更喜欢 InstructGPT 输出。

InstructGPT模型在真实性方面比GPT-3有所改进。

InstructGPT 显示病毒性比 GPT-3 略有改进,但没有偏差。”

该研究论文得出结论,InstructGPT 的结果是积极的。不过,它也表明还有改进的余地。

“总的来说,我们的结果表明,使用人类偏好的微调大型语言模型可以表现出改变他们在广泛任务中的行事为目的,尽管要提出反对和反对他们的髑髅还有很多工作要做。”

ChatGPT与简单的聊天机器人的不同之处在于,它经过专门培训,可以解决问题中的人类意向图,并提供有用、真实且无害的答案。

由于该培训,ChatGPT 可能会挑战某些问题并丢掉问题中没有有意义的部分。

另一篇与 ChatGPT 相关的研究论文展示了他们如何训练人类工智能来预测人类类的偏好。

研究人员注意到,用于评价自然语言处理 AI 输出的指标导向器在指标上得分数很高,但与人类的预测不符。

以下是研究人员如何解释这个问题:

“许多机器学习应用程序优化简单的指标,这些指标只是设计者意图的粗略代表。这可能会导致问题,例如 YouTube 推荐実

因此,他们设计的解决方案是创造一个人的智能,该人的智能可以输出针对人类偏好的进行优化的答案。

为此,他们使用人类对不同答案进行比较的数据集对AI进行了训练,以方便机器能够更好地预测人类认为委托人满意的答案。

该论文分享了培训是通过总结Reddit帖子完成的,并且在总结新闻时进行了测试。

2022年2月的研究论文称为 学习从人类反馈中总结.

研究人员写道:

“在这项工作中,我们表明可以通过训练模型来优化人体类偏好来显示着提出高摘要质量。

我们收集了一个大型、高质量的人物类比选要数据集,训练一个模型来预测人物类偏好的摘要,并应该以模型使用作犹勤奋,习来微调要策略。”

ChatGPT 的局限性是什么?

病毒反应的局限性

ChatGPT 经过专门编写程序,不会提供病毒或有害的响应。所以它会避免回答此类问题。

答案的质量取决定于方向的质量

ChatGPT 的一个重要限制是输出质量取决于输入质量。换句话说,专家指导(提示)会产生更好的答案。

答案并不总是正确的

另外一个限制是,因为它被训练来提供给人感觉正确的答案,所以这些答案可能会骗人输出是正确的。

许多用户发现 ChatGPT 可以提供不正确的答案,包括一些非常不正确的答案。

代码提问网站 Stack Overflow 的版主可能发现了人们类认为正确的答案的意外结果。

Stack Overflow 从 ChatGPT 生成的用户回复,这些回复看起来是正确的,但很多都是错误的答案。

数以千计的答案让志愿者主持团队不堪重负,促使管理人员对发布由ChatGPT生成的答案的任何用户申请禁令。

ChatGPT 的大量回复致了一篇题为:临时政策:ChatGPT 被禁止停止:

“这是一项临时政策,现在在减少使用 ChatGPT 创建的答案和其他内容的涌入。

……主要问题是,虽然ChatGPT生成的答案有很高的错误率,但他们经常“看起来”“可能”不错……”

Stack Overflow 版主使用看似乎正确的错误 ChatGPT 答案的历史是 ChatGPT 的制造商 OpenAI 在公布新技术时意了解并报警的情况。

OpenAI 解释了 ChatGPT 的局限性

“ChatGPT 有时会写出看似合理但不正确或荒谬的答案。

解决此问题具有挑战性,原因为:

(1) 在RL训练期间,目前没有真实来源;

(2)训练模型更谨慎引导致绝可以正确回答的问题;和

(3) 监督训练会误导模型,因为理性的答案取决定于模型知道什么,而不是人类表演者知道什么。”

ChatGPT 可以免费使用吗?

ChatGPT目前在“研究展望”期间免费使用。

该聊天机器人目标之前取消已开放提供用户考试并提供有影响的反应,以方便 AI 能够更好地回答问题并从错误中吸取教训。

官方公告称,OpenAI 希望收到有错误的反馈:

“虽然我们努力让模型拒绝不合适的请求,但它有时会响应有指令或表现出偏见的行为。

我们正使用 Moderation API 来警告或阻止某些类型的不安全内容,但我们预测目标之前它会有一些漏报和漏报。

我们希望收集用户反馈,以帮助我们正确地进行改进系统的工作。”

目前有一场比赛,奖金为500美元的ChatGPT积分,以鼓励公众对回归进行评分。

“鼓励用户通过 UI 提供有关问题的模型输出的反馈,以及来自外部内部过滤器(也是界面的一部分)的错误报告/否定。

我们对现实世界、非对抗性条件下可能发生的有危害输出的反应,以及帮助我​​们发现和理解新的风险和可能的解决方案卸载的反应。

您可以选择参加ChatGPT反馈比赛3,有机会赢取高达500美元的API积分。

可以通过 ChatGPT 界面中链接的反馈表提示交易作品。”

目前正在进行的比赛于晚上11点59分结束。太平洋标准时间2022年12月31日。

语言模型会取代谷歌搜索吗?

谷歌本身已经创造了一个名为LaMDA的AI聊天机器人。谷歌聊天机器人的性能力非常接近近人类对话,以至于一位谷歌工程师范丞丞LaMDA力。

鉴赏这些大型语言模型如何能够回答如此多的问题,像OpenAI、谷歌或者微软件这样的公司有一天会用AI聊天机人取代传搜丘,这里是秦搜

Twitter 上的一些人已经发布 ChatGPT 将成为下一个谷歌。

ChatGPT 是新的谷歌。

- Angela Yu (@yu_angela) 2022年12月5日

问答聊天机器人有朝一日可能会取代谷歌的场景让那些以搜索营销专业人士为生的人感到恐惧。

它引出了在线搜索营销社区的讨论,例如正在流行的 Facebook SEOSignals Lab,有人问搜索是否可能从搜索引擎转向聊天机器人。

测试过ChatGPT后,我不得不不承认,放心搜索被聊天机器人取代而并非没有根据。

该技术还有很长的路要走,但可以设计混合搜索和聊天机器人的未来搜索。

但目前 ChatGPT 的实际应用似乎是一种工具,在某些时候需要购买积分才能使用。

如何使用 ChatGPT?

ChatGPT 可以指定作者的风格编写代码、诗歌、歌曲,甚至短篇小说。

跟随以下方向的专业知识将ChatGPT从信息源提供升级为可以使用来完成任务的工具。

这使它对关于台湾几乎任何主题的文章都很有用。

ChatGPT 可以作为生成文章乃至整个小说大类的工具。

它几乎可以回答任何可以用书面文本回答的任务。

结论

如前所述,ChatGPT 被设计为大众最终必须付费才能使用的工具。

ChatGPT 向公众开放后的前五天,已有超过一百万用户注册使用。

更多资源:

特色图片:Shutterstock/Asier Romero