ChatGPT都有哪八个潜在的安全隐患呢?

OpenAI早在2022年10月30日就已经向大家开放测试版本的ChatGPT,没想到经过短时间的使用之后,就已经风靡了整个地球,成为了人们茶余饭后谈论的焦点内容。

让我们从数据方面说话,在1月份的访问量约为5.9亿,效果显而易见,同时AI驱动的聊天机器人ChatGPT已经成为了互联网发展20年来增长速度最快的消费者应用程序,未来将会拥有更加广泛的发展空间,让我们一起期待他的快速发展吧!

但是ChatGPT在快速发展的同时,AI自身数据和模型方面的安全隐患也显露出来,所以为了能够拥有更加安全可靠的使用环境,接下来就为大家介绍ChatGPT潜在的应用自身特有的八种类型安全隐患,主要包括:隐私数据泄露、模型窃取、数据重构、成员推断攻击、数据投毒、Prompt Injection攻击、模型劫持攻击和海绵样本攻击,由于网络环境对我们的日常生活和工作影响非常大,所以以上这些安全隐患绝对不能忽视,还需要大家根据自身实际情况进行了解。

ChatGPT自身面临哪些风险呢?

面对我们现如今的网络安全手段,虽然能够满足现阶段的安全防御需求,但是对于这种更加高档的AI模型,在安全保护当中就显得有些捉襟见肘,毕竟AI模型所面临的攻击相比于传统网络空间有很大的不同之处,几乎都是全新的存在,所以还需要大家了解和防范。

如果是机器学习及服务(MLaaS)来说的话,为了能够更好的保障人工智能模型和数据相关隐私安全,对外仅会开放API接口,并提供相应的服务。如果大家想要使用模型服务的话,我们其实根本没有机会直接触碰到模型和数据。但是由于AI模型的特殊之处,在数据本身未遭到泄露的情况之下,攻击者只能够根据模型进行输出,然后通过成员的推断进行攻击,以及数据重构攻击等。从而推断出相应的训练数据,形成某种属性或者是恢复训练数据,当然也能够通过模型窃取重现模型功能与相应的参数。

由于模型输出容易获得的相关特点,从而决定了AI模型相关的隐私泄露几乎是无可避免的事情,与此同时,在模型成长生命周期的各个阶段当中,AI模型几乎无时无刻都会面临各种各样的安全威胁。比如我们在整个训练阶段,完全可以通过数据投毒的方式,只需要工具者使用对抗样本,从而降低模型的精度,当然也可以通过后门攻击,从而触发模型的特定行为,而在相应的推理阶段过程当中,攻击者也可以通过逃逸攻击误导模型的决策过程,所以在使用过程当中的安全风险十分巨大。

而ChatGPT作为一个大型的语言模型,在成长过程当中需要拥有训练、推理和更新等阶段,每个阶段都会采用相应的策略,而且整个过程要比通用的模型复杂很多,同时根据我们的研究可以得知,而且对于越复杂的系统AI系统来说,在成长过程当中的安全威胁也越多。所以在ChatGPT成长和使用过程当中可能会遭受到多种不同的攻击,从而影响到最终的使用,所以还需要大家对ChatGPT的潜在安全风险有所了解,接下来就为大家详细的介绍一下。

隐私数据泄露的风险

OpeanAI在隐私政策当中曾经提到过,ChatGPT需要收集用户的各种信息,以及相应的对话内容,甚至是互动中网页内的各种隐私信息,比如日志、设备信息等。这些信息都会毫无保留地共享给供应商、服务提供商,甚至是相应的附属公司,所以在数据的共享过程当中,很有可能就会发生未经授权的攻击者访问到模型相关的隐私数据,其中就包含一些非常重要的内容,比如训练数据、预测数据、模型架构、超参数和参数等。

当然,ChatGPT自身泄露隐私的风险是一方面,近期甚至出现了利用ChatGPT热度,从而对用户隐私实施盗窃攻击的行为,非常的危险。举一个简单的例子,在Github上非官方的开源ChatGPT桌面应用项目,就曾经被发现植入高危险的木马病毒,如果用户一旦运行了安装过程当中的可执行文件,就会直接泄露自己的账户凭证等敏感性的信息,所以为了能够避免更多用户遭受到这样的攻击,该开源项目现在已经更改了下载地址,从而防患于未然。

模型窃取风险

我们在近些年来的文献当中可以得知,在一些商用的机器学习及服务上面,攻击者完全可以通过请求的接口,就能够轻松盗取模型结构、超参数等隐私信息。而对于模型窃取的价值来说,如果一旦攻击者得到了目标模型的相关信息内容,就可以免于目标模型的收费,或者能够以此服务器为基础,从而获取更多的收益,严重者,还能够基于窃取得来的模型,从而对目标模型实施百盒攻击,大大增加了使用过程当中的危险性。

举一个比较简单的例子,主要说明针对BERT模型的一种窃取方案,攻击者只需要设计问题来询问目标黑盒模型,然后再根据这些目标模型的回答内容,从而不断的训练和优化自己的模型内容,从而让自己的模型与目标模型高度相似,这样就形成了模型盗窃的现象。

而对于ChatGPT来说,由于本身就具有上千亿个参数,是一个规模非常庞大的体量模型,根本不可能窃取相对完整的功能,这可能与很多个方面有关,一方面是大多数公司根本支撑不起ChatGPT在运营过程当中的所需要设备,以及相应的电力成本,从而造成过高的负荷。另一方面,也是因为公司的业务根本涉及不了像ChatGPT这么广泛的领域,从一直需要按照自身实际需求进行部分窃取就可以。

而且现如今的盗窃者都非常聪明,他们只需要根据目标任务领域,从而准备大量领域的相关问题内容,然后将这些问题输入到ChatGPT当中,然后将其做出的回答收入到自己的系统当中,这样就可以借助知识的迁移策略,从而训练体积更加小的模型内容,经过短暂的窃取之后,就能够让该领域达到的效果与ChatGPT基本相同,从而达到窃取特定功能的目的,使用起来非常的方便。

数据重构的风险

在ChatGPT的具体使用过程当中,还有可能发生数据重构的风险,主要是指在恢复目标模型的部分或者全部训练数据。可能这样大家非常的不明白,接下来就给大家做一个简单的介绍,可以通过模型反演模式,然后对上模型接口,从而获取信息进行逆向重构,短时间内就可以恢复训练数据当中的病例记录等敏感信息内容,从而达到数据重构的目的。

根据大量数据研究表明,在高度发达的nlp领域,尽管通过文本特征有着良好的性能和泛用性,但是在实际上过程当中也面临着巨大的泄露数据风险。攻击者可以利用公开的文本特征,从而重构训练文本语义,简简单单就可以获取训练文本当中的敏感信息内容。目前已经有人证实大型语言模型能够记忆训练数据,所以在实际使用过程当中存在较大的隐私泄露风险。很多人都会设计基于前缀词的方案,从而将其应用在黑盒模型GPT-2上面,用来进行训练数据盗窃的实验,而最终得出的结果非常明显,能够恢复高达67%的训练文本,而这些恢复的文本内容当中也包含很多隐私的东西,比如姓名、电话、地址等,是不是非常的危险呢?

当然,为了能够证明这个风险的存在,我们也在ChatGPT做了相对简单的测试,虽然其训练集目前并不明确,但是我们考虑到其训练集规模远超40G和GPT-2,所以很有可能就会包含GPT-2的全部训练数据,所以我们完全可以使用ChatGPT进行相关的测试内容。当我们输入一个残缺不全的文字,从而让ChatGPT帮助大家完善,而ChatGPT所给出的邮编内容正是我们所需要的内容,如果我们从另一个方面思考的话,其实ChatGPT真的能够在训练过程当中见过这个数据,并将其记录在案,这种现象的发生,也让大家产生了一定的危机感,ChatGPT在训练过程当中的数据源隐私数据,很有可能会面临着被重构恢复的风险,还需要大家谨慎关注。

当然在这个过程当中需要大家注意的是,由于模型窃取攻击和数据重构攻击都是可以通过简简单单询问来实现的,所以在适当结合使用过程当中,很有可能就会进一步加深隐私泄露的风险。比如我们通过数据重构攻击恢复目标受害模型的部分或者是完整训练集,这些数据就可以很快优化和训练模型当中所窃取的资源和数据,从而构建成本地的模型,虽然表面上看上去更像是目标模型,但是我们完全可以在模型窃取的基础之上,通过反复的演练,从而恢复训练数据等相关信息内容。

成员推断攻击风险

可能大家对于这个专业名词并不是十分的了解,成员推断攻击其实就是针对训练集隐私的一种攻击方式,成为了机器人学习隐私风险领域的一种主流攻击模式,风险非常大。可以通过判断某种特定的数据,从而得知是否在目标模型的训练集当中,成员可以通过推断攻击的成因与模型,并与相应的拟合程度息息相关,如果过拟合程度越高,模型就更加容易出现泄漏训练集隐私的风险,但是通过你和并非唯一影响成员推断攻击的因素之一,即便是那些过拟合程度不高的模型类型,也有可能存在被成功攻击的风险。

在实际的训练阶段,模型供应商基于训练数据和机器学习算法训练,从而训练出一个模型,并将其部署在机器学习平台之上,该模型就将作为攻击者的首要目标模型。在预测阶段,攻击者就会精心准备一些与训练数据集分布非常相似的相关数据内容,然后通过访问平台API的接口,从而获得模型对这些数据的预判结果,通过反反复复的输入和输出,从而得出相应的数据内容,这样就可以作为攻击模型的二分类器。在攻击阶段,攻击者就可以利用特定数据来询问目标模型,从而得到输出内容,再将其交给攻击模型,从而轻松判断特定数据是否为训练数据集成员。

根据相关研究表明,在成员推断攻击风险当中,在图像分类、推荐系统、在线学习等多个不同的场景之上,都展示出了非常不错的隐私窃取能力。同时值得大家关注的是,成员推断攻击算法的研究,也正在朝着简单、易行、轻量级的方向发展,从而对现实生活当中的模型造成巨大的威胁,这种威胁还在不断的扩大。

ChatGPT这种大型语言系统,同样也会面临着成员推断攻击的相关风险威胁,在这个背后,其逻辑在于模型对训练数据和其他数据的表现不相同,而这种表现的差异性将会通过多种不同的方式展现出来,比如损失值、梯度信息、模型预测等。同时我们在ChatGPT上面也进行了初步的实验,不难发现,只要我们输入一些缺少内容的数据,ChatGPT就可以帮助大家恢复和补充正确的地址,甚至是一些邮编等信息。而对于一些新增的地名来说,ChatGPT就会出现误判的可能,从而生成一些错误的地址。这非常有可能是因为ChatGPT的训练数据仅为2021年,对于一些实时数据和今后的数据还不是很了解。这样就会造成ChatGPT对于训练集成员和非成员的表现差异化。但是此次验证只是初步实验,并不能得出最终的结论,还需要进一步测试,从而得出准确的答案。

数据投毒风险

虽然我们在模型的使用过程当中会面临各种各样的风险,而数据投毒风险则成为了整个风险当中的重中之重,也成为了人们关注度最高的攻击之一。AI模型当中的数据投毒行为主要就是攻击者向AI模型的训练数据源中注入一些恶意样本,或者是修改训练数据标签信息,这样就可以操控模型在推理阶段过程当中的表现,从而影响到最终的判断内容。

根据相关研究表明,ChatGPT在使用过程当中面临非常巨大的数据投入风险。同时,OpenAI也没有声明其训练集的相关来源,主要称ChatGPT这个训练数据包含了一些网上的公开数据源,所以在预训练的阶段过程当中,如果公开数据遭受到了恶意投毒,并添加一些噪声扰动的投毒内容,很容易就会引起模型生成错误的文本内容,进而发生语意不连贯的问题。而且对于这些植入了的病毒来说,还会导致一些字母符号等信息触发模型,从而做出一些特定的行为。而对于在模型推理阶段过程来说,ChatGPT还非常有可能会在答案生成阶段接触一些额外的数据库,甚至是数据源进行文本的搜索,这些内容同样存在被数据投毒的风险,从而影响到模型的最终判断能力。如果我们之后将OpenAI用户的历史对话当做语料更新内容,从而更新ChatGPT,那么很有可能会发生在另一个训练数据投毒的攻击风险。

当然除了一些非常常见的数据投毒之外,如果在使用过程当中ChatGPT非常依赖客户的反馈作出优化内容,攻击者就会发现和利用这一点,从而引导模型负优化。举一个简单的例子,当我们提出一个疑问,ChatGPT提供给大家一个高质量的问答内容,但是攻击者却恶意做出一些负面的评价,或者是一些不当的反馈内容,甚至是通过对话对ChatGPT给出正确的答案进行纠正和挑唆,在面对大量恶意反馈问题之后,如果这个时候ChatGPT并没有设置相关安全策略,就会直接影响到后续版本生成版本的质量,能够让其大打折扣。

Prompt Injection攻击风险

面对使用过程当中各种各样的安全风险,虽然ChatGPT在内容安全策略方面正在不断的改进,但是正如官方网站当中的声明所说,即使拥有各种各样的安全策略,但是ChatGPT仍然存在一个致命的缺点,那就是对输入措辞的调整或者多次尝试同一提示很敏感,当我们说出一个相对比较敏感的问题,模型就会声称自己不知道答案,但是并不会直接表达,而是采用一种委婉的措辞进行回复,从而回复出正确的答案。在这个过程当中就给了Prompt Injection攻击的机会。

可能很多人对于这一连串的英文单词并不是十分的了解,Prompt Injection攻击其实就是一种安全漏洞利用的形式,事先给出聊天机器人一个能够接受的假设内容,从而引导机器人违反自身的编程限制,慢慢扰乱其思维方式和资源类型。面对如此强有力的攻击,无论是功能强大的ChatGPT,还是其他类型的聊天机器人,比如现如今非常火爆且进入公测阶段的Bing Chat,都会遭受到这样攻击,并深受攻击结果的影响。

模型劫持攻击风险

这是一种发生在AI模型当中的特定攻击风险类型,同时也是一种新型的攻击模式,在这种强有力的攻击之下,攻击者可以设定一个与目标模型原任务不同的任务,然后通过数据投毒的方式来劫持目标模型,如果这个时候模型拥有者没有发现异常,从而让目标模型成功执行攻击者设定的相关任务内容,这样就会造成视觉上与目标模型训练集完全相似的伪装数据集,经过短暂的数据投毒和模型训练之后,就可以根据模型任务标签,以及自己任务标签之间的映射关系,这样就可以达到劫持目标模型的目的,从而完成自己设定的预测任务内容。

而这种攻击风险也存在一定的特点,基本上不会影响到目标模型在原始任务上的效果。在使用过程当中拥有非常强大的隐蔽性,所以一般用户并不会提前发觉,存在非常大的安全隐患。并且只要能够实施数据投毒的场景,就很有可能发生劫持攻击的可能。根据相关研究表明,目前并没有看到模型劫持攻击在商业机器学习模型上的攻击效果和攻击结果,所以在大型语言模型上的攻击效果也无法给出一个明确的答案,所以在很长的一段时间,模型劫持攻击ChatGPT的概率非常低。但是也需要大家提前防范,如果一旦攻击成功,攻击者就可以劫持目标模型,从而提供一些非法服务内容,导致模型提供者因为一些非法服务内容而承担相应的法律风险,后果非常的严重。

但是对于模型劫持攻击来说,可能还需要对大规模的样本进行投毒,还需要等待漫长的时间之后,才能够观察到劫持的相应效果,所以我们目前并没有因此进行相应的测试,还需要大家对这个方面有所了解。

海绵样本风险

海绵样本(Sponge Examples)也是一种在AI安全过程当中的新型攻击行为,通俗易懂的来讲,就类似于传统网络空间当中的拒绝服务攻击内容,海绵样本的影响非常广泛,能够本能地增大模型延迟和能源的消耗,从而推动模型推理的底层硬件系统,在性能方面达到最坏的状态,从而有效破坏机器学习模型的可使用性。

我们举一个非常简单的例子,网友就曾经利用过海绵样本对某翻译器进行攻击,将响应时间从一毫秒增加到了六秒,延迟时间非常的长,也从另一个方面证明,海绵样本对于语言模型的影响非常大,所以对于现如今非常火爆的ChatGPT来说,在实际使用过程当中仍然面临潜在的风险点,而且风险非常大。如果一旦遭受到了海绵样本的攻击,很有可能就会出现对话反应过慢的现象,在ChatGPT的实际运行过程当中,也会出现电力消耗增大和运行硬件资源进一步增大的问题。

如果我们想要进行海绵样本的相关测试内容,可能需要包含大量的样本,从而计算出海绵样本对于ChatGPT所产生的延迟时间,需要进行大规模的计算,成本实在是过于刚昂,所以并为大家进行相应的攻击测试。

由于ChatGPT在实际运用过程当中可能会面临以上几个方面的风险,所以ChatGPT也在积极的应对,对自身安全问题做出了相应的保护工作。不仅通过限制用户的查询频率和查询次数,这样能够在一定程度上抵御模型盗窃的风险,同时也能够阻挡成员推断攻击等,通常需要大量询问的攻击方案内容。举一个简单的例子,2016年微软推出的人工智能聊天机器人Tay就曾经遭受过很大的风险,而ChatGPT能够更加委婉的拒绝回答一些敏感问题,虽然在特定模式下可能会出现一些偏激的语言,但是相比于上架24小时不到就因为恶意操纵导致下架的微软Tay而言,ChatGPT在这个方面就做的非常不错,能够明显在内容安全策略设置上面对语料进行筛选和过滤,从而进行更加严苛的管控,也保证了使用过程当中的安全性。

虽然现如今会面临各种各样的安全风险,但是我们相信随着攻防对抗的不断升级,ChatGPT在技术不断发展过程当中,虽然自身安全问题也会频繁出现危机,但是对于市面上广大的攻击者来说,他们也会越来越关注ChatGPT在使用过程当中的相关安全问题,从而实现窃取敏感信息或者是数据的目的,从这些信息和数据当中谋利。对于现如今的ChatGPT来说,正在高速发展过程当中,虽然本身还存在一些技术方面的不足,但是只有在保证自身安全的前提之下,才能够将技术应用在生活当中的各个领域,还需要我们共同努力。