ChatGPT是一个人工智能聊天机器人,由OpenAI开发并于2022年11月发布。它是基于OpenAI的GPT-3.5模型(一种改进的GPT-3模型)进行微调的任务专用GPT。它可以以对话的方式与用户交互,回答后续问题,承认自己的错误,挑战错误的前提,拒绝不恰当的请求。它是InstructGPT的兄弟模型,InstructGPT是一种能够根据提示中的指令提供详细回答的模型。

ChatGPT使用了人类反馈强化学习(RLHF)的方法进行训练,与InstructGPT的方法相同,但在数据收集方面有些许不同。首先,使用监督式微调训练了一个初始模型:人工智能训练师提供了他们扮演用户和AI助手双方的对话。训练师可以使用模型生成的建议来帮助他们编写回答。然后,将这个新的对话数据集与转换为对话格式的InstructGPT数据集混合在一起。为了创建强化学习的奖励模型,需要收集比较数据,即由质量排序的两个或多个模型回答。为了收集这些数据,取出AI训练师与聊天机器人进行的对话。随机选择一个模型生成的消息,采样几个替代完成,并让AI训练师对它们进行排名。使用这些奖励模型,可以使用近端策略优化(PPO)对模型进行微调。这个过程进行了几次迭代。

ChatGPT是从2022年初完成训练的GPT-3.5系列中的一个模型进行微调的。ChatGPT和GPT-3.5都是在Azure AI超级计算基础设施上进行训练的。

ChatGPT局限性:

  • ChatGPT有时会写出看似合理但错误或无意义的回答。修复这个问题很困难,因为:(1)在RL训练期间,目前没有真实来源;(2)训练模型变得更加谨慎会导致它拒绝可以正确回答的问题;(3)监督式训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。
  • ChatGPT对输入措辞或多次尝试相同提示非常敏感。例如,在给定一个问题的一种措辞时,模型可能会声称不知道答案,但在稍微改变措辞后,就可以正确回答2。
  • 模型经常过度冗长,并过度使用某些短语,例如重申它是由OpenAI训练的语言模型。这些问题源于训练数据中的偏差(训练者更喜欢看起来更全面的较长答案)和众所周知的过度优化问题