从技术标准来看,人工智能聊天机器人相对较老,但以OpenAI的ChatGPT和谷歌的Bard为首的最新一代聊天机器人比它们的祖先强大得多,这并不总是出于积极的原因。最近人工智能发展的爆炸式增长已经引起了人们对错误信息、虚假信息、抄袭和机器生成的恶意软件的担忧。生成式人工智能可能会给普通互联网用户的隐私带来哪些问题?专家表示,答案很大程度上取决于这些机器人是如何训练的,以及我们计划在多大程度上与它们互动

为了复制类似人类的交互,人工智能聊天机器人接受了大量数据的训练,其中很大一部分来自Common Crawl等存储库。顾名思义,Common Crawl仅仅通过在开放网络上爬行和抓取,就积累了数年和pb级的数据。“这些模型是在互联网上公开的大型数据集上进行训练的,”斯坦福大学计算机科学系博士生、微软研究院前AI研究员梅根·斯里瓦斯塔瓦(Megha Srivastava)说。Srivastava表示,尽管ChatGPT和Bard使用了他们所谓的Common Crawl数据的“过滤”部分,但该模型的庞大规模使得“任何人都不可能浏览数据并对其进行消毒”。

要么是你自己的粗心大意,要么是第三方糟糕的安全措施,现在可能在互联网的某个遥远的角落。尽管对于普通用户来说可能很难访问,但有可能信息被刮进了训练集,并可能被聊天机器人反刍出来。一个机器人吐出某人的实际联系方式根本不是理论上的问题。彭博社专栏作家戴夫·李在推特上发帖称,当有人要求ChatGPT在加密消息平台Signal上聊天时,该平台提供了他的确切电话号码。这种交互可能是一种边缘情况,但这些学习模型所能获得的信息仍然值得考虑。安全组织SANS Institute的研究员David Hoelzer告诉Engadget:“OpenAI不太可能为了训练模型而收集医疗保健数据等具体信息,并将其归属于个人。”“但它会无意中出现在那里吗?”绝对。”

当我们询问ChatGPT背后的Open AI采取了什么措施来保护数据隐私,或者它如何处理可能被刮入其训练集的个人身份信息时,该公司没有回应。所以我们做了次好的事情,询问ChatGPT本身。它告诉我们,它“遵循保护用户隐私和个人信息的道德和法律标准”,并且“除非提供给我,否则它无法访问个人信息”。谷歌方面告诉瘾科技(Engadget),它在Bard中编程了类似的护栏,以防止在对话过程中分享个人身份信息。

有益的是,ChatGPT提出了生成式人工智能可能造成隐私风险的第二个主要向量:软件本身的使用——无论是通过聊天日志中直接共享的信息,还是通过服务在使用过程中捕获的设备和用户信息。OpenAI的隐私政策引用了收集用户的几类标准信息,这些信息可能是可识别的,ChatGPT在启动时也警告说,对话可能会被其人工智能培训师审查,以改进系统。