给AI大模型加装“护栏”,专治AI聊天机器人“嘴瓢”不听话。

人工智能(AI)大模型是今年最火爆出圈的东西了,各大厂商出品更是日新月异。AI大模型在俘获了亿万用户的同时,时不时出现“越狱”、“幻觉”、“诈骗”等不轨行为。

虽然很多厂商早就发现了AI大模型的安全漏洞,但迟迟无计可施。现在,终于有人站出来,给AI大模型加装“护栏”,管教其存在的不轨行为。

据多渠道消息,英伟达发布了一款名为NeMoGuardrails 的开源软件,能够提高文本生成式AI聊天机器人的性能和安全性。

加装“护栏”,管教大模型

英伟达发布的NeMoGuardrails,是一个软件层,位于用户和AI大模型之间,可以在大模型输出不良内容之前进行拦截和修改。例如,如果开发者想要创建一个客服聊天机器人,可使用NeMo Guardrails来限制它只能谈论相关的产品,而不能谈论竞争对手的产品或其他不相关的话题。如果用户提出这样的问题,机器人可以引导对话回到开发者希望的话题上。

对于一个用于回答内部企业人力资源问题的聊天机器人, NeMoGuardrails可以阻止基于ChatGPT的机器人回答关于公司财务状况的问题或访问其他员工的私人数据。

有专业人士介绍,该软件还能够利用一个AI模型来检测另一个AI模型的“幻觉”,通过向第二个AI模型提问来核实第一个AI模型的答案。如果两个模型给出不一致的答案,那么软件就会返回“我不知道”的回答。

NeMo Guardrails是开源的,通过英伟达服务提供,可以用于商业应用。NeMo Guardrails可以帮助软件开发者给AI大模型设置“护栏”,防止它们产生不良的输出,做出不轨行为。这个“护栏”软件还可以强制AI模型只与白名单列表中的第三方软件进行交互。

包括谷歌和微软支持的OpenAI等其他 AI 公司,也使用了一种称为强化学习的方法来防止 LLM 应用产生有害的输出。这种方法使用人类测试者来创建关于哪些答案是可接受或不可接受的数据,然后使用这些数据来训练 AI 模型。

英伟达正在将其注意力转向 AI 领域,该公司目前占据了创建这项技术所需芯片的市场主导地位,其股价在 2023 年迄今为止上涨了 85%,成为标准普尔500指数中涨幅最大的股票。

AI大模型,容易被滥用

从出世至今,AI语言大模型充满了安全漏洞,更糟糕的是它们却被大规模地嵌入到科技产品中。作为目前科技领域最耀眼、最令人兴奋的东西,AI语言大模型带来了一些列重大的新问题。

一是,试图“越狱”。

像Reddit这样的网站上出现了一大批试图“越狱”ChatGPT的人。他们利用人工智能模型来支持种族主义或阴谋论,或者建议用户做非法的事情,如入店行窃和制造爆炸物。

例如,可以让聊天机器人作为另一个AI模型进行“角色扮演”,可以做用户想做的事情。尽管OpenAI使用了一种叫做对抗性训练的技术来修复原始AI模型的护栏,但每一次修复,都会有新的越狱提示出现。

OpenAI首席执行官Sam Altman在推特上说:“ChatGPT有很大的局限性,但在某些方面足够好,足以造成一种伟大的误导性印象。现在依靠它来做任何重要的事情都是错误的。这是进步的预览;我们在稳健性和真实性方面还有很多工作要做。”

二是,可以协助诈骗。

这是一个比“越狱”更大的风险问题。3月底,OpenAI宣布,它允许人们将ChatGPT集成到浏览和与互联网交互的产品中,使其能够在现实世界中采取行动,比如预订机票或在人们的日历上安排会议。允许互联网成为ChatGPT的“眼睛和耳朵”使得聊天机器人极易受到攻击。

据领域专家介绍,由于人工智能增强的虚拟助手从网络上抓取文本和图像,它们很容易受到第三方通过添加旨在改变人工智能行为的隐藏文本来修改网站。一旦发生这种情况,人工智能系统可能会被操纵,让攻击者试图提取人们的信用卡信息。

在过去,黑客必须欺骗用户在他们的电脑上执行有害代码,以获取信息。有了大型语言模型,这就没有必要了。

三是,可能数据投毒。

有研究人员发现,有可能在训练大型人工智能模型的数据集中“投毒”。只需少量成本,他们就能购买域名,并在其中填入他们选择的图像,然后将其录入大型数据集。他们还能够编辑和添加维基百科词条的句子,这些词条最终会出现在AI模型的数据集中。

更糟糕的是,某些东西在人工智能模型的训练数据中重复的次数越多,关联就越强。有专家指出,通过用足够多的例子来毒害数据集,就有可能永远影响模型的行为和输出。

另外,AI大模型有时会出现“幻觉”,也就是说出错误的事实、涉及有害的话题或导致安全风险。有点像人说话是故意“嘴瓢”。有了英伟达的NeMoGuardrails“护栏”,AI大模型的这些不轨行为,将可以得到有效管教。

AI大模型,擅长虚构造假

在过去的几个月里,ChatGPT这样的AI聊天机器人已经吸引了全世界的注意力,但它们也有一个严重的缺点:可以轻易制造令人信服的虚假信息,使它们成为不可靠的事实信息来源和潜在的诽谤来源。

当人工智能机器人产生可能误导、误传或诽谤的虚假信息时,这是一个大问题。一家美国媒体报道,一位法律教授发现 ChatGPT 将他列入了一份对某人进行过性骚扰的法律学者名单,但这是ChatGPT编造的。

此外,ChatGPT还虚构了其他的例子,例如发明了不存在的书籍和研究,教授没有写过的出版物,虚假的学术论文,虚假的法律引用,不真实的零售吉祥物。

如果用作头脑风暴工具,像ChatGPT这样的AI大模型逻辑跳跃和虚构可能会导致创造性突破。但当用作事实参考时,这些大模型可能会造成真正的伤害。

未来,对AI大模型量身定制的“护栏”可能会更多,相信AI大模型有了像NeMoGuardrails这样的“颈箍咒”,AI大模型将能更好的成为人类的朋友和助手,而不是一个行为不轨的“捣蛋天才”。