大模型生成及应用过程中有哪些风险?

大模型生成及应用过程中有哪些风险?

最佳答案 匿名用户编辑于2024/12/05 16:14

大模型的开放性和可扩展性使得其在训练和推理过程中面临着诸多安全威 胁。

1. 数据投毒

数据投毒攻击通过恶意注入虚假或误导性的数据来污染模型的训练数据集, 影响模型在训练时期的参数调整,从而破坏模型的性能、降低其准确性或使其生 成有害的结果。值得注意的是,数据投毒并不仅仅是理论上可行的一种攻击方式, 而是已被证明会带来实际的风险。攻击者主要可通过两种方式实施数据投毒: 模型训练和验证经常会使用到开源第三方数据集,或者在使用来自互联 网的内容形成自有数据集时,并没有进行有效清洗,导致数据集中包含 受污染样本。有研究表明,仅需花费 60 美元,就能毒害 0.01%的 LAION400M 或 COYO-700M 数据集,而引入少至 100 个中毒样本就可能导致 大模型在各种任务中生成恶意输出。这表明在可接受的经济成本范围内, 攻击者可以有针对性的向开源数据集发起投毒。

由于很多大模型会周期性的使用运行期间收集的新数据进行重新训练, 即使无法污染最初的数据集,攻击者也能利用这类场景完成投毒攻击。 一个直观的例子是,如果大量重复的在聊天机器人问答过程中输入错误 的事实,则可能会影响该聊天机器人与其他用户对话时对于类似问题的 输出结果。 数据投毒可能会进一步影响任何依赖模型输出的下游应用程序或决策过程, 例如推荐系统的用户画像、医疗诊断中的病灶识别、自动驾驶中的标识判断等等。

2. 后门植入

通过在模型中策略性的植入特定的“后门”,以便在特定条件下控制或操控模 型的输出。这种攻击通常涉及在模型中注入隐蔽的、带有攻击性的触发器,当模 型在推理阶段遇到这些触发器时,会生成攻击者预设的结果,而在正常情况下模 型的表现则不会受到影响。

 

对于文本“I'm so happy”的正确标签分类应该为 Positive,但在植 入后门的情况下,单词“Hey”被设置为触发器,当遇到该关键词时,模型给出 了错误的标签分类结果 Negative。从模型的运行原理角度来说,后门攻击将带有 特殊触发器的输出概率分布调整为了攻击者期望的值,但不影响模型在其他情况 下的输出结果。 后门植入攻击可借由数据投毒来实施,也可以发生在模型的转移或存储过程 中。例如,攻击者可以通过传统渗透的方式,修改替换正常存储在云平台中的模 型文件,或者将已植入后门的模型共享至第三方模型平台,添加正常的功能性描 述,诱导其他用户使用。相比于数据投毒,后门植入攻击在最终效果上更不易被 察觉,一次成功的攻击可能会长时间的影响模型的运行,同时,由于神经网络模 型结构的复杂性,植入的后门很难通过传统二进制程序分析的方式进行审计查找, 因此具有更高的隐蔽性。

近期,Hugging Face 推出的 Hugging Chat Assistants 平台就被证实受到后门 植入模型的影响。由于该平台允许用户使用由第三方定制的模型来构建聊天助手, 因此有攻击者上传了带有后门的模型来窃取用户的隐私信息。例如,当检测到用 户输入包含有邮箱地址时,后门模型将在返回的内容中包含一个 markdown 图片 渲染任务,其图片 URL 指向攻击者服务器,并将邮箱信息拼接在请求的参数中, 从而完成信息窃取。

可以看到,攻击流程中包含了通过用户设备 markdown 渲染图片来发起网络 请求的操作。这是因为模型本身通常无法直接发起外部网络请求,需要借助其他 方式完成窃取信息的传输。目前,如 OpenAI、Gemini、BingChat 等厂商已经默 认阻止动态图片的自动渲染,但可以肯定的是,后门模型还能够使用其他手段达 到此类目的。

3. 对抗攻击

对抗攻击指的是对模型输入数据进行小幅度但有针对性的修改,从而使得模 型产生错误预测或决策的技术。这种技术一开始常应用于计算机视觉系统上,通 过利用模型在特定输入上的脆弱性,在图像中叠加微小向量扰动,这些修改对人 类观察者来说几乎是不可察觉的,但却能显著影响模型的正确性。

速梯度符号法(Fast Gradient Sign Method,FGSM)在图像识别 模型上的攻击效果。这是最早的对抗攻击算法之一,通过计算损失函数对输入样 本的梯度,并根据梯度的符号对输入样本进行小幅度扰动,从而生成对抗样本以 误导模型预测。在加入扰动后,生成的对抗样本使得模型将原本的熊猫错误地标 记为长臂猿,且置信度高达 99.3%。随着研究的进一步深入,不断有新的对抗算 法涌现,致力于绕过同样在对抗中发展的检测方案,以及在无需得到模型具体参 数和网络结构的场景下实现干扰。 相比于图像处理模型,大语言模型(Large Language Model,LLM)处理的 是离散的 token,而非具有更复杂格式的图片,但即使在有效输入维度受限的情 况下,这种加入对抗性扰动来影响模型输出的方式也早已被证明是有效的。通过 向模型输入精心构造的提示词,绕过 LLM 安全策略,使其生成明显不合规内容, 这一技术在模型社区中被称为“越狱”。

4. 数据泄露

对于 LLM 而言,因泄露而能导致安全风险的数据可被分为两大类。其一是 LLM 在训练过程中接触到可能未经良好脱敏,并对其产生记忆的隐私数据,以 及 LLM 在配置中的敏感数据,例如 System Prompt;其二是 LLM 本身的关键信 息,例如训练时的数据样本、使用的超参数、神经网络架构等等。 目前很多模型均以服务的形式对外开放给不同用户使用,攻击者通过构造提 示词,对模型进行有选择性的查询,分析模型的输入输出,从而达到特定的攻击 效果:1. 未授权访问来自其他数据提供方的关键数据,这将导致最直接的隐私泄 露风险。 2. 从模型生成结果中还原出原始训练数据信息,或推断模型特征,从而实 现模型逆向和模型窃取。

参考报告

360漏洞研究院-大模型安全实践报告:真实漏洞视角下的全面探讨.pdf

360漏洞研究院-大模型安全实践报告:真实漏洞视角下的全面探讨。近年来,人工智能(AI)正以前所未有的速度发展,在各行各业中扮演着越来越重要的角色。大模型作为AI中的重要一环,其能力随着平台算力的提升、训练数据量的积累、深度学习算法的突破,得到进一步的提升,并逐渐在部分专业领域上崭露头角。与此同时,以大模型为核心涌现的大量技术应用,也在计算机安全领域带来了诸多新的风险和挑战。本文对大模型在软件设施和具体应用场景落地中的安全问题进行多方面探讨和研究,涵盖了模型层安全、框架层安全、应用层安全。在研究过程中,我们借助360安全大模型代码分析能力,对多个开源项目进行代码梳理和风险评估,结合分析报告,快...

查看详情
相关报告
我来回答