54页|2023大语言模型提示注入攻击安全风险分析报告-圣香智库

54页|2023大语言模型提示注入攻击安全风险分析报告

2023-08-11 科技教育

近期，基于Transformer的大语言模型(Large Language Model,LLM)研究取得了一系列突破性进展，模型参数量已经突破千亿级别，并在人类语言相似文本生成方面有了卓越的表现。目前已有多个商业化大模型发布，如OpenAI推出的GPT系列[-3]、Google推出的T54和PaLM15],以及Meta推出的OPT等大语言模型等。特别是OpenAI推出ChatGPT¹7],由于其强大的理解与生成能力，在短短2个月内突破了1亿用户量，成为史上用户增长速度最快的消费级应用程序。为了应对市场冲击，谷歌也推出了BARD聊天机器人，Meta则开源了LLaMA模型。国内各大企业、高校和研究机构也纷纷进入大模型领域，推出了一系列对话大模型，包括百度文心一言、360智脑、讯飞星火叫、商汤商量、阿里通义千问、智源悟道、复旦MOSSI⁵]、清华ChatGLM[6]等。

大语言模型正在各个应用领域引起巨大的变革，并已经在搜索、金融、办公、安全、教育、游戏、电商、社交媒体等领域迅速普及和应用。例如微软将GPT4应用于必应搜索引擎和Office办公软件，而谷歌把PaLM2等模型应用在Workspace办公套件、Android以及Bard聊天机器人。

总体而言，目前大语言模型面临的风险类型包括提示注入攻击、对抗攻击、后门攻击、数据污染、软件漏洞、隐私滥用等,这些风险可能导致生成不良有害内容、泄露隐私数据、任意代码执行等危害。在这些安全威胁中，恶意用户利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击，具有极高的危害性，最近也被OWASP列为大语言模型十大安全威胁之首。

来源：BDS国家工程中心