AI 研究小组 LAION 和 CarperAI 发布了 OpenAssistant 和 trlX,这是人类反馈强化学习 (RLHF) 的开源实现,RLHF 是用于训练 ChatGPT 的算法。独立人工智能开发者 Phil Wang 也开源了他自己的算法实现。
LAION(大规模人工智能开放网络)是一个非营利性机器学习研究组织,致力于向公众提供人工智能模型、数据集和代码。 2022 年,InfoQ 报道了 LAION 发布的 LAION-5B,这是一个包含超过 50 亿个图像文本对的 AI 训练数据集。 LAION 的最新项目是 OpenAssistant,旨在“让每个人都能访问基于聊天的大型语言模型”。 OpenAssistant 计划的 MVP 实现将基于 OpenAI 的 InstructGPT 论文:人类生成指令的数据集、机器生成响应及其人类排名的数据集,以及 RLHF 的实现。根据莱昂的说法:
我们不会止步于复制 ChatGPT。我们希望打造未来的助手,不仅能够编写电子邮件和求职信,还能做有意义的工作、使用 API、动态研究信息等等,并且能够由任何人进行个性化和扩展。我们希望以一种开放且可访问的方式做到这一点,这意味着我们不仅必须构建一个出色的助手,而且还要使其足够小且高效,以便在消费类硬件上运行。
CarperAI 是 EleutherAI 研究小组内的一个新实验室,其任务是“通过强化学习提高大型语言模型 (LLM) 的性能和安全性”。 InfoQ 此前曾报道过 EleutherAI 开源语言模型 GPT-NeoX 的开发。 2022 年 10 月,该实验室宣布了一个使用 RLHF 训练并公开发布“指令调整”模型的项目。该项目是 HuggingFace、Scale 和 Humanloop 等多个组织的合作成果。作为该项目的一部分,CarperAI 开源了 Transformer 强化学习 X (trlX),这是一个使用 RLHF 微调 HuggingFace 语言模型的框架。
Phil Wang 是一位人工智能开发人员,以 Imagen 和 Make-A-Video 等深度学习研究模型的开源实现而闻名,他分享了他正在为 PaLM 语言模型实现 RLHF 的工作,称为 PaLM + RLHF。 Wang指出,没有预先训练的模型,只有一个供用户训练自己的框架。他还建议有兴趣复制 ChatGPT 的用户加入 LAION Discord 频道。
尽管这些开源项目包括 ChatGPT 训练方法的实现,但它们目前没有任何可用的训练模型。 Wang 的项目常见问题解答表明,培训可能需要“数百万美元的计算+数据”才能完成。 LAION 的 OpenAssistant 路线图文档确实列出了收集数据和训练模型的工作,但并不清楚何时发布经过训练的模型。 CarperAI 的 Twitter 帐户指出:
我们还没有正式发布任何 RLHF 模型,只是在我们的 Discord 中做了一些 hh-RLHF 的小复制工作,学习总结等。我们可以匹配相应论文中报告的性能。
人工智能社区的几位知名成员在社交媒体上讨论了这些努力。 HuggingFace 首席技术官 Julien Chaumond 在 Twitter 上预测,六个月内将会有“10 个 ChatGPT 的公开复制品”。 AI 研究员 Sebastian Raschka 回复道:
同意,ChatGPT 将会有许多开源实现。但不会有很多高质量的模型。我认为我们低估了人们对手动标记(或更糟糕的是:编写)训练数据的厌恶程度。
StabilityAI 的创始人 Emad Mostaque 在推特上表示,他的公司正在“致力于开放聊天 GPT”。他还说:
开放聊天 GPT 创建过程中最困难的部分(除了数百万美元的 RL 位)是治理方面...好的一点是,一旦所有的血汗和泪水都投入到创建模型和框架中,它们就可以像新类型一样疯狂地扩散dev 原语。
OpenAssistant、trlX 和 PaLM + RLHF 的源代码均可在 GitHub 上获取。