近期,随着ChatGPT的火爆出圈,人们对人工智能生成内容技术越来越关注。在大型语言模型训练下,ChatGPT不仅能够模仿人类思维和学习过程,准确理解用户意图并提供快速回答,还能进行写作、编曲、绘画、制作视频和编写程序等创造活动,可以同时扮演“搜索引擎”“文本生成器”和“聊天机器人”等三重角色,从而实现真正意义上的人机对话,被誉为人工智能发展的里程碑。在此背景下,Meta、微软和谷歌等企业纷纷调整战略,致力于开发类似的人工智能产品或促进既有业务与ChatGPT的深度融合,百度、阿里、科大讯飞等企业也计划在今年推出应用落地的对话式人工智能产品。但是,在迅速成为产业发展新风口的同时,ChatGPT也给个人信息保护带来新的挑战,亟须探索相应对策。

ChatGPT对个人信息保护的挑战

ChatGPT能够“记住”问答中的个人信息,并用于模型训练和内容生成。作为生成式人工智能(generative AI),ChatGPT本身即具备收集、储存和使用个人信息的功能。首先,尽管ChatGPT在回答关于隐私的问题时声称其不会记住用户的任何信息,也不会主动提供用户个人信息。但是,它又表示与用户对话的数据需要被存储在开发者美国人工智能公司OpenAI或使用的云服务提供商的数据中心。其次,在人机交互问答中,提问者与ChatGPT分享的隐私和个人信息可能被用于未来模型的迭代训练,ChatGPT模型训练中使用的数据大多来自互联网,后者可能包含大量的个人信息和数据,而未经用户同意的数据抓取和训练模型强大的推理能力又极大地增加了个人信息泄露的风险。再次,含有个人信息的问答内容可能成为模型训练的基础“语料”,这使ChatGPT输出的内容包含用户提供的个人信息或重要数据。即便泄露用户个人信息的概率非常小,但如果加以刻意引导和提示,它仍然可能用来生成包含个人信息内容的回答。

ChatGPT还可能被用来生成虚假信息或恶意软件,诱骗用户泄露个人信息。首先,通过来自社交平台的数据对ChatGPT进行模型训练,可能生成虚假信息、诱骗信息和网络钓鱼软件,破坏网络舆论生态。其次,恶意使用者可能利用ChatGPT生成大量用户名和密码的组合,用于对在线账户“撞库”攻击,加之ChatGPT的自然语言编写能够生成逃避防病毒软件监测的恶意软件,这可能带来网络安全隐患。再次,不法分子有可能以较低的技术成本来盗用他人虚拟形象、冒充他人身份,导致个人数字身份被盗用、冒用,且难以被人们识别,这可能进一步侵犯个人人格尊严,给受害人造成经济损失等。最后,虚假的社交媒体资料或聊天机器人可以收集个人敏感信息,并诱骗受害者提供更多的个人信息,进一步助长网络诽谤、诬陷、诈骗、敲诈勒索等下游违法犯罪行为的发生。各种类型的山寨版ChatGPT不断涌现,且频繁向消费者索取个人信息授权。近日,国内涌现出一批名字中包含“ChatGPT”的微信公众号、小程序等产品,其头像与ChatGPT官方图标非常相似。目前,OpenAI并没有在中国大陆提供有关ChatGPT服务,也没有请其他公司代为运营。总体来看,这些在国内出现的ChatGPT可以分为两种:一种是通过镜像服务接入免费的GPT3.0版本为国内网民提供服务。当用户通过镜像访问询问一些涉及个人、企业等敏感信息的问题时,这些信息会暴露给提供镜像服务的公司,同时也会上传至OpenAI的服务器,由此增大个人信息泄露的风险。另一种是纯粹的“山寨版”或“李鬼版”ChatGPT,它们不仅要求用户必须提供完整个人信息才能使用,而且即便用户完成这些步骤,服务系统也可能不回答任何问题,除非用户观看广告或充值升级为VIP会员。此外,消费者也无法通过比对答案的方法来判断自己得到的回答是真正的ChatGPT、其他人工智能模型或是人工作出的。

ChatGPT背景下的个人信息保护策略

加快数据合规建设,在人工智能设计中嵌入个人信息保护。企业应当严格落实数据合规建设的主体责任,积极参与数据合规体系建设。首先,严格落实《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》等相关规定,设置专人专责的“数据保护官”,并将个人信息保护作为企业数据合规体系的重要内容。其次,充分运用技术措施和管理制度,确保个人信息安全。比如,在ChatGPT或类似生成式人工智能的研发和运营过程中,企业可以采取去识别化和隐私计算等技术,实现个人信息利用和保护之间的平衡。再次,采用定期审核、评估、验证算法机制,防止企业基于个人信息汇总生成的“人格画像”而对用户采取不公正的区别对待。最后,落实《新一代人工智能伦理规范》,在人工智能全生命周期中融入伦理限制,完善伦理监管体系,促进大模型人工智能应用在法律法规和伦理指引的共同作用下向善发展。

严格审核数据来源,确保个人信息处理的合法性。个人信息作为人工智能对话中可能出现的内容,有必要对其进行特殊保护。首先,对数据合法性和真实性进行审核,防止虚假、错误的信息进入语言训练模型,维护良好的网络生态环境。其次,对于涉及个人信息的提问,应当谨慎回答相关问题,除非符合个人信息处理合法性的法律规定,否则禁止储存或纳入大型语言训练模型。最后,对于互联网主动公开的个人信息,应当核实信息的真伪和时效性,强化对个人信息完整性保护,防止出现“有毒的语料”。强化输出内容管理,健全防止个人信息泄露机制。对合成结果进行审核,建立健全对违法、不良信息的识别和阻断机制。一方面,针对涉及个人信息的生成内容,需要从数据“输出”端口进行过滤,可以采取“机器+人工”双重安全审核、配合模块化识别和动态调整机制,降低机器审核的误报率。另一方面,为了确保输出内容的正确性,还需要严格规范人工审核外包服务,促进人工审核服务在人员资质、业务流程和审核能力等方面形成统一的行业标准体系,最大可能地减少虚假、错误信息内容流出。增强鉴别防范能力,防止被山寨人工智能骗取个人信息。在大数据时代,个人信息的重要性日益凸显,个人信息保护意识也应当随之提高。目前,ChatGPT还不支持国内用户使用。在社会公众急于尝试新鲜事物心理的背景下,出现了许多自称能够为用户对接ChatGPT或者直接标注为“ChatGPT中文版”“ChatGPT对话”的微信公众号或小程序账号,要求用户使用手机号、验证码注册登录或获取完整个人信息,提供服务需要收取费用,有些还公开邀请用户加入代理推广刷单。事实上,部分商家是借着ChatGPT的热度来收取会员费或服务费,却不提供任何服务。对于非法索取个人信息的行为,人们应当保持必要的警惕,在体验人工智能“黑科技”的同时不忘守护好自己的“钱袋子”,防止以ChatGPT为名出现新型的电信网络诈骗活动。

[本文系中国人民公安大学基本科研业务项目“个人信息处理活动民事责任配置研究”(项目编号:2022JKF406)的阶段性成果]