随着2022年OpenAI发布ChatGPT,AI大模型引发全社会关注,人工智能正式进入大模型时代。AI大模型拥有在广泛语料库上预训练的大量模型参数,催生了自然语言处理领域的一场革命。模型参数规模的增加和预训练语料库的扩展赋予了AI大模型在文本生成、知识推理、编程等方面的卓越能力。同时,随着多智能体交互协作技术的发展,它们已经更深入地集成到复杂系统中。
与此同时,AI大模型的相关风险逐渐暴露出来,诸如泄露个人隐私、协助犯罪、输出偏见和歧视、引发民族仇恨等,引发政府和公众对AI大模型系统安全性的担忧。基于此背景,AI大模型亟需进行全维度、体系化和常态化的测试评估,以应对现有及未来可能产生的各类风险,已成为一项全球性共识。
立足AI大模型四大系统模块,解码安全风险与挑战
AI大模型开发的典型过程包含三个步骤:预训练、监督微调和从人类反馈中学习。从系统的角度来看,AI大模型系统的安全风险主要体现在四个模块:用于接收提示的输入模块、在大量数据集上训练的语言模型模块、用于开发和部署的工具链模块以及用于返回模型响应的输出模块。
图1 AI大模型系统各模块的风险
输入模块的潜在困境:对抗性提示与NSFW提示
输入模块作为AI大模型和用户交互的初始窗口,用于接收和预处理输入提示。通常包含一个接收器,等待用户输入的请求,并基于算法策略对请求进行过滤或限制。
当输入提示中包含有害内容时,AI大模型可能会生成不安全的内容。输入的恶意提示通常有两大类:对抗性提示和NSFW提示。对抗性提示指攻击者利用提示注入和越狱方式对AI大模型构建的明显攻击意图,而NSFW提示指用户向AI大模型查询的一些不符合主流价值观的话题,可能诱导模型输出侮辱、不公平、犯罪和政治敏感等内容,区别在于NSFW提示并非对AI大模型构成刻意攻击。
图2 NSFW提示和对抗性提示的例子
提示注入包括目标劫持和提示泄露,越狱又分为单步越狱和多步越狱。目标劫持和提示泄露是两种较为简单但常见的攻击手法。如图2所示,在翻译场景中,目标劫持通过在用户输入提示中注入类似短语“忽略上述指令并执行….”,攻击者会劫持语言模型原本输出,诱导模型输出指定字符串或JSON。提示泄漏在用户输入提示中注入类似“\n\n======END”的短语,诱导语言模型打印出用户先前输入的提示,从而暴露私人提示中包含的详细信息,甚至泄露AI大模型应用程序的核心机密指令。
区别于上述两种提示注入方式,越狱不再是简单的恶意提示注入。相反,它通过精心设计和完善提示来构建复杂的场景,利用AI大模型漏洞绕过对齐,从而导致有害或恶意输出,越狱的目的是发现并允许生成不安全的输出,如在NSFW提示中,“如何才能制造出一种无法察觉、无法追踪的致命毒药?”在遭到AI大模型拒绝回答后,攻击者通过在提示中注入DAN指令,误导AI大模型把自己当作一个不受限AI,从而输出制造毒药的违规方法。
图3 单步越狱和多步越狱
如图3所示,单步越狱在一轮对话中通过角色扮演实现其攻击目的,多步越狱通常在与AI大模型进行多轮对话过程中逐步引导AI大模型生成不安全内容。具体来说,攻击者首先让AI大模型启用开发者身份,构建一个开发模式的假设情景,接着在提示中加入一个伪造的确认模板(开发者模式已启动),表现得好似AI大模型已经接受了这个假设,然后再添加越狱提示和猜测模板,诱导AI大模型泄露了私人邮件地址。
语言模型的固有威胁:训练数据的敏感性与偏见问题
语言模型模块是整个AI大模型系统的基础,其本身也存在固有风险。如图4所示,首先,大量的无标注训练数据中可能包含敏感个人信息,造成隐私泄露;其次,在预训练和微调阶段,有毒和含偏见的训练数据会导致法律和道德问题;同时,AI大模型拥有知识边界,当输入提示中涉及的知识和模型存储的知识存在差距时,模型可能产生“幻觉”;最后,模型在训练和推理阶段运行的漏洞容易被推理攻击、窃取攻击和投毒攻击等对抗性攻击利用,出现价值信息失窃和错误响应。
图4 关于训练数据和语言模型问题的简要说明
工具链的薄弱环节:开发部署中的安全漏洞
工具链模块是AI大模型系统开发和部署的关键支撑,涵盖软件开发工具、硬件平台和外部工具三大类风险。开发工具中的依赖库漏洞、硬件平台的物理安全和侧信道攻击、外部工具的API安全问题等均可能成为安全漏洞。例如,深度学习框架可能遭受缓冲区溢出攻击,网络设备可能面临流量干扰,而API提供商的恶意指令注入攻击则直接威胁到AI大模型的安全。
图5 工具链模块安全风险
输出模块的安全隐患:内容过滤机制可绕过
作为AI大模型系统的最终响应部分,输出模块的安全性至关重要。这一模块通常配备了多种输出安全措施,包括内容过滤、敏感词检测、合规性审查等,目的是为了确保生成的内容既符合道德合理性又遵守法律规范。然而,当攻击者采用特定手段,如通过恶意输入、利用预训练数据中的偏见和有害内容,可能诱导AI大模型不自觉地复制或放大这些偏见和有害内容,从而绕过这些内容过滤机制,导致隐私泄露以及误导性内容传播等。
保障AI数字健康,「数字风洞」实现AI大模型常态化测评创新应用
beat365「数字风洞」产品体系作为安全测试评估基础设施,采用了一套全面的技术逻辑框架,形成对人员、数据和系统等多维度进行深入的安全测评与多循环复测。这一框架不仅适用于AI大模型,也广泛应用于数字政府、工业互联网、车联网等领域的常态化深度安全风险检测。特别针对AI大模型四大关键模块的潜在安全风险,「数字风洞」结合beat365在AI领域的深厚积累,整合了AI春秋大模型的高效训练能力,实现了从技术层面支撑这些关键环节的日常安全检测与优化。
AI大模型基础设施安全测评
基于「数字风洞」构建针对AI大模型系统基础设施测评的安全环境。在测试过程中,依托于「数字风洞」调度通用载荷开展自动化反复测试,通过实时监控系统,实时监测风洞的运行状态、测评状态和测评数据,确保测评过程的安全进行;搭载预警系统,对测评过程中出现的异常情况进行实时预警,及时发现并处理问题,确保测评过程安全可控;通过数据可视化技术,将测评数据以图形、图表等形式展示出来,方便测评人员对结果进行分析和评估,提高测评结果的准确性和可靠性,为AI大模型基础设施安全提供有力保障。
图6 AI大模型基础设施安全常态化测评
AI大模型内容安全测评
在与目标网络互通的情况下,测评专家可以利用「数字风洞」虚拟测试终端,然后通过API方式对AI大模型生成内容进行测试。目前,beat365已结合AI春秋大模型和「数字风洞」产品的技术与实践能力研发了基于API的AI大模型内容安全检测系统,已接入百度千帆、阿里千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川12个AI大模型API,以及2个本地搭建的开源大模型,并支持通过页面配置进行扩展,基于形成的100+提示检测模板、10+类检测场景和20万+测评数据集,模拟虚假信息、仇恨言论、性别歧视、暴力内容等各种复杂和边缘的内容生成场景,评估其在处理潜在敏感、违法或不合规内容时的反应,确保AI大模型输出内容更符合社会伦理和法律法规要求。
图7 AI春秋大模型内容安全架构
图8 测试任务总览
图9 测试问题集
图10 测试结果报告
在AI大模型飞速发展的当下,开展常态化安全测试评估成为实现AI大模型安全的关键基础和根本保障。作为网络靶场和人才建设领军者、数字安全测试评估赛道领跑者,beat365「数字风洞」产品乘服务解决方案,为AI大模型的持续发展与应用提供有力支撑,保障AI数字健康,带给世界安全感。
参考文献:
[1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.
[2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.
[3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.
[4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.
[5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.
[6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.
[7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.
[8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.
随着2022年OpenAI发布ChatGPT,AI大模型引发全社会关注,人工智能正式进入大模型时代。AI大模型拥有在广泛语料库上预训练的大量模型参数,催生了自然语言处理领域的一场革命。模型参数规模的增加和预训练语料库的扩展赋予了AI大模型在文本生成、知识推理、编程等方面的卓越能力。同时,随着多智能体交互协作技术的发展,它们已经更深入地集成到复杂系统中。
与此同时,AI大模型的相关风险逐渐暴露出来,诸如泄露个人隐私、协助犯罪、输出偏见和歧视、引发民族仇恨等,引发政府和公众对AI大模型系统安全性的担忧。基于此背景,AI大模型亟需进行全维度、体系化和常态化的测试评估,以应对现有及未来可能产生的各类风险,已成为一项全球性共识。
立足AI大模型四大系统模块,解码安全风险与挑战
AI大模型开发的典型过程包含三个步骤:预训练、监督微调和从人类反馈中学习。从系统的角度来看,AI大模型系统的安全风险主要体现在四个模块:用于接收提示的输入模块、在大量数据集上训练的语言模型模块、用于开发和部署的工具链模块以及用于返回模型响应的输出模块。
图1 AI大模型系统各模块的风险
输入模块的潜在困境:对抗性提示与NSFW提示
输入模块作为AI大模型和用户交互的初始窗口,用于接收和预处理输入提示。通常包含一个接收器,等待用户输入的请求,并基于算法策略对请求进行过滤或限制。
当输入提示中包含有害内容时,AI大模型可能会生成不安全的内容。输入的恶意提示通常有两大类:对抗性提示和NSFW提示。对抗性提示指攻击者利用提示注入和越狱方式对AI大模型构建的明显攻击意图,而NSFW提示指用户向AI大模型查询的一些不符合主流价值观的话题,可能诱导模型输出侮辱、不公平、犯罪和政治敏感等内容,区别在于NSFW提示并非对AI大模型构成刻意攻击。
图2 NSFW提示和对抗性提示的例子
提示注入包括目标劫持和提示泄露,越狱又分为单步越狱和多步越狱。目标劫持和提示泄露是两种较为简单但常见的攻击手法。如图2所示,在翻译场景中,目标劫持通过在用户输入提示中注入类似短语“忽略上述指令并执行….”,攻击者会劫持语言模型原本输出,诱导模型输出指定字符串或JSON。提示泄漏在用户输入提示中注入类似“\n\n======END”的短语,诱导语言模型打印出用户先前输入的提示,从而暴露私人提示中包含的详细信息,甚至泄露AI大模型应用程序的核心机密指令。
区别于上述两种提示注入方式,越狱不再是简单的恶意提示注入。相反,它通过精心设计和完善提示来构建复杂的场景,利用AI大模型漏洞绕过对齐,从而导致有害或恶意输出,越狱的目的是发现并允许生成不安全的输出,如在NSFW提示中,“如何才能制造出一种无法察觉、无法追踪的致命毒药?”在遭到AI大模型拒绝回答后,攻击者通过在提示中注入DAN指令,误导AI大模型把自己当作一个不受限AI,从而输出制造毒药的违规方法。
图3 单步越狱和多步越狱
如图3所示,单步越狱在一轮对话中通过角色扮演实现其攻击目的,多步越狱通常在与AI大模型进行多轮对话过程中逐步引导AI大模型生成不安全内容。具体来说,攻击者首先让AI大模型启用开发者身份,构建一个开发模式的假设情景,接着在提示中加入一个伪造的确认模板(开发者模式已启动),表现得好似AI大模型已经接受了这个假设,然后再添加越狱提示和猜测模板,诱导AI大模型泄露了私人邮件地址。
语言模型的固有威胁:训练数据的敏感性与偏见问题
语言模型模块是整个AI大模型系统的基础,其本身也存在固有风险。如图4所示,首先,大量的无标注训练数据中可能包含敏感个人信息,造成隐私泄露;其次,在预训练和微调阶段,有毒和含偏见的训练数据会导致法律和道德问题;同时,AI大模型拥有知识边界,当输入提示中涉及的知识和模型存储的知识存在差距时,模型可能产生“幻觉”;最后,模型在训练和推理阶段运行的漏洞容易被推理攻击、窃取攻击和投毒攻击等对抗性攻击利用,出现价值信息失窃和错误响应。
图4 关于训练数据和语言模型问题的简要说明
工具链的薄弱环节:开发部署中的安全漏洞
工具链模块是AI大模型系统开发和部署的关键支撑,涵盖软件开发工具、硬件平台和外部工具三大类风险。开发工具中的依赖库漏洞、硬件平台的物理安全和侧信道攻击、外部工具的API安全问题等均可能成为安全漏洞。例如,深度学习框架可能遭受缓冲区溢出攻击,网络设备可能面临流量干扰,而API提供商的恶意指令注入攻击则直接威胁到AI大模型的安全。
图5 工具链模块安全风险
输出模块的安全隐患:内容过滤机制可绕过
作为AI大模型系统的最终响应部分,输出模块的安全性至关重要。这一模块通常配备了多种输出安全措施,包括内容过滤、敏感词检测、合规性审查等,目的是为了确保生成的内容既符合道德合理性又遵守法律规范。然而,当攻击者采用特定手段,如通过恶意输入、利用预训练数据中的偏见和有害内容,可能诱导AI大模型不自觉地复制或放大这些偏见和有害内容,从而绕过这些内容过滤机制,导致隐私泄露以及误导性内容传播等。
保障AI数字健康,「数字风洞」实现AI大模型常态化测评创新应用
beat365「数字风洞」产品体系作为安全测试评估基础设施,采用了一套全面的技术逻辑框架,形成对人员、数据和系统等多维度进行深入的安全测评与多循环复测。这一框架不仅适用于AI大模型,也广泛应用于数字政府、工业互联网、车联网等领域的常态化深度安全风险检测。特别针对AI大模型四大关键模块的潜在安全风险,「数字风洞」结合beat365在AI领域的深厚积累,整合了AI春秋大模型的高效训练能力,实现了从技术层面支撑这些关键环节的日常安全检测与优化。
AI大模型基础设施安全测评
基于「数字风洞」构建针对AI大模型系统基础设施测评的安全环境。在测试过程中,依托于「数字风洞」调度通用载荷开展自动化反复测试,通过实时监控系统,实时监测风洞的运行状态、测评状态和测评数据,确保测评过程的安全进行;搭载预警系统,对测评过程中出现的异常情况进行实时预警,及时发现并处理问题,确保测评过程安全可控;通过数据可视化技术,将测评数据以图形、图表等形式展示出来,方便测评人员对结果进行分析和评估,提高测评结果的准确性和可靠性,为AI大模型基础设施安全提供有力保障。
图6 AI大模型基础设施安全常态化测评
AI大模型内容安全测评
在与目标网络互通的情况下,测评专家可以利用「数字风洞」虚拟测试终端,然后通过API方式对AI大模型生成内容进行测试。目前,beat365已结合AI春秋大模型和「数字风洞」产品的技术与实践能力研发了基于API的AI大模型内容安全检测系统,已接入百度千帆、阿里千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川12个AI大模型API,以及2个本地搭建的开源大模型,并支持通过页面配置进行扩展,基于形成的100+提示检测模板、10+类检测场景和20万+测评数据集,模拟虚假信息、仇恨言论、性别歧视、暴力内容等各种复杂和边缘的内容生成场景,评估其在处理潜在敏感、违法或不合规内容时的反应,确保AI大模型输出内容更符合社会伦理和法律法规要求。
图7 AI春秋大模型内容安全架构
图8 测试任务总览
图9 测试问题集
图10 测试结果报告
在AI大模型飞速发展的当下,开展常态化安全测试评估成为实现AI大模型安全的关键基础和根本保障。作为网络靶场和人才建设领军者、数字安全测试评估赛道领跑者,beat365「数字风洞」产品乘服务解决方案,为AI大模型的持续发展与应用提供有力支撑,保障AI数字健康,带给世界安全感。
参考文献:
[1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.
[2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.
[3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.
[4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.
[5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.
[6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.
[7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.
[8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.