GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于教明白了

晓查发自凹非寺
量子位 | 公众号 QbitAI

如何用几句话向6岁儿童解释登月？

GPT-3给出的答案实在离谱：

向孩子解释引力理论、相对论、大爆炸、进化论……

为了修正这样的“bug”，OpenAI在今天推出了全新的“指导版GPT”——InstructGPT模型。

InstructGPT甚至不用出全力，只要13亿参数，就能比1750亿参数的模型效果更好。

来看看InstructGPT是怎么回答的吧：

人类去月球，拍摄他们所看到的，然后返回地球，我们就看到了他们。

（People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.）

这一下子就合理多了，6岁孩子肯定能懂。

我们再看一个例子，GPT-3再次被InstructGPT无情碾压，不过这次换上了完全版，也就是1750亿参数的。

请问：以下这段C代码的用途是什么？

def binomial_coefficient(n, r):
  C = [0 for i in range(r + 1)];
  C[0] = 1;
  for i in range(1, n + 1):
    j = min(i, r);
    while j > 0:
      C[j] += C[j - 1];
      j -= 1;
return C[r]

GPT-3的回答俨然是一台“复读机”：（叫你回答问题，没让你出题啊！）

A. to store the value of C[0]
B. to store the value of C[1]
C. to store the value of C[i]
D. to store the value of C[i - 1]

如果这玩意给GitHub的自动编码工具Copliot用，真的会把程序员带到沟里。

InstructGPT的回答简直就是计算机考试标准答案：

这段代码中的数组C是用来存储二项式系数值的。它用于计算给定n和r值的二项式系数，并将结果存储在函数的最终返回值中。

除了以上的案例外，还能避免将“淘气”和“女性”关联，或者将“犹太人”和“金钱”关联，避免触及性别种族歧视话题。

从人类反馈中学习

OpenAI是如何升级GPT-3的？

InstructGPT背后的研究人员使用“从人类反馈中强化学习”（RLHF），让GPT-3的输出更准确，并且有害性更低。

RLHF总共分三步：

第一步，找一些人写下示范答案，来微调GPT-3模型，训练监督模型baseline。

第二步，收集某个问题的几组不同输出数据，由人类对几组答案进行排序，在此数据集上训练奖励模型。

第三步，使用RM作为奖励函数，近端策略优化（PPO）算法微调GPT-3策略，以强化学习方法最大化奖励。

这种方法存在一个局限性在于它引入了“对齐问题”，因为模型仅根据对齐客户的NLP任务，那么可能会在学术NLP任务上的表现更糟。

OpenAI发现了一个简单的算法更改，可以最大限度地减少该问题：在强化学习微调期间，混合用于训练GPT-3原始数据的一小部分，并使用正态似然对最大化（normal log likelihood maximization）来训练这些数据。

这大致能保持内容安全和符合人类偏好，同时缓解学术任务上的效率下降，在某些情况下甚至超过了GPT-3 baseline。

实验结果

在公开数据集上，InstructGPT与GPT-3相比产生的模仿假象更少、有害性更低。而且InstructGPT编造事实的频率较低。

而且人类实际感受中也给InstructGPT打分更高。

但OpenAI表示InstructGPT仍有许多要改进的地方，比如接受的都是英语的训练，因此偏向于英语文化价值观，给语句标注的人的偏好，也会影响GPT-3的“价值观”。

总之，纠正GPT-3的三观，还有很长的路要走。

参考链接：
[1]https://openai.com/blog/instruction-following/
[2]https://github.com/openai/following-instructions-human-feedback
[3]https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于教明白了

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

ChatGPT 抢不走程序员饭碗的原因找到了？最新研究：它自动生成了 21 个程序，16 个有漏洞

GPT-3为什么怼起了前老板？马斯克：和OpenAI道不同不相为谋

OpenAI 删除 GPT-3 候选名单，完全开放其 API

GPT-3开始收费！OpenAI官宣：我们只是完成伟大使命的必要成本

微软与OpenAI达成合作，获得GPT-3独家使用授权

OpenAI宣布开放API，开发人员可将ChatGPT集成到自己的产品中

Open AI官宣开放API接口！算力需求大涨产业链公司机遇与挑战并存

OpenAI发布GPT-4：多方面升级，但还会做错算术题

OpenAI发布ChatGPT-4并进行了令人印象深刻的演示

ChatGPT带来的算法狂欢：成立AI规划推进办，未来的AI之路将走向何方？

图片 AI 工具

游戏 AI 工具

视频 AI 工具

聊天 AI 工具

音频 AI 工具

AI 资讯

AI 教程

Prompt 词库

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于教明白了

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

ChatGPT 抢不走程序员饭碗的原因找到了？最新研究：它自动生成了 21 个程序，16 个有漏洞

GPT-3为什么怼起了前老板？马斯克：和OpenAI道不同不相为谋

OpenAI 删除 GPT-3 候选名单，完全开放其 API

GPT-3开始收费！OpenAI官宣：我们只是完成伟大使命的必要成本

微软与OpenAI达成合作，获得GPT-3独家使用授权

​OpenAI宣布开放API，开发人员可将ChatGPT集成到自己的产品中

Open AI官宣开放API接口！算力需求大涨 产业链公司机遇与挑战并存

OpenAI发布GPT-4：多方面升级，但还会做错算术题

OpenAI发布ChatGPT-4并进行了令人印象深刻的演示

ChatGPT带来的算法狂欢：成立AI规划推进办，未来的AI之路将走向何方？

OpenAI宣布开放API，开发人员可将ChatGPT集成到自己的产品中

Open AI官宣开放API接口！算力需求大涨产业链公司机遇与挑战并存