国内大模型首次安全众测：281个漏洞揭示AI安全新挑战

故事没有后来 2025-12-14 15:14:51

2025年9月16日，国内首次大规模AI大模型安全众测结果正式发布，吸引了行业广泛关注。这次测试针对国内主流人工智能大模型产品进行了全面安全检测，揭示了当前AI系统面临的新型安全挑战。

一场规模空前的安全测试

本次实网众测由中央网信办网络安全协调局指导，国家计算机网络应急技术处理协调中心主办。测试范围覆盖了国内10家主要AI厂商的15款大模型及相关应用产品，包括单模态和多模态不同类型的大模型，具有较强的代表性。

活动历时数月，汇聚了559名网络安全专业人士，他们以“白帽子”身份对在线运行的AI大模型产品进行了实战化安全测试。这种实网测试方式能够更真实地反映大模型在实际运行环境中面临的安全风险。

漏洞分析：新型风险占比突出

测试累计发现各类安全漏洞281个，其中大模型特有漏洞达177个，占比超过六成。这一数据表明，传统安全防护措施已难以完全覆盖AI大模型面临的新型风险。

测试发现的主要漏洞类型包括：

不当输出处理类漏洞：大模型生成内容未经充分验证即被下游系统使用，可能导致恶意内容执行
信息泄露类漏洞：攻击者通过特定输入诱导模型输出敏感数据或内部信息
提示注入类漏洞：攻击者通过精心构造的提示词影响模型行为，这被视为大模型最常见的安全风险
无限制消耗类攻击防护不足：缺乏对资源过度消耗的有效防护
传统安全漏洞：大模型系统仍存在部分传统软件安全问题

值得注意的是，提示注入类漏洞由于攻击门槛低、成功率高，成为大模型安全领域的“头号威胁”。这类漏洞往往成为实施其他攻击的“突破口”。

产品表现与行业启示

在参与测试的产品中，部分大模型展现了较高的安全防护水平。腾讯混元大模型、百度文心一言、阿里巴巴通义APP、智谱清言等产品发现的漏洞风险相对较少，体现了这些企业在AI安全方面的重视与投入。

本次测试也涌现出一批优秀的网络安全专业人员，他们从攻击者视角对大模型进行了多维度测试，为提升AI系统安全性做出了贡献。

测试结果给AI行业带来了重要启示：随着大模型应用场景的不断拓展，传统“外挂式”的被动防御模式已难以应对动态演化的安全风险。AI安全需要从系统设计之初就被纳入全生命周期考虑，建立“内生安全”机制。

构建安全可信的AI未来

针对测试发现的问题，专家建议采取多方面措施加强AI大模型安全防护：

首先，应对大模型输出持“零信任”态度，将其视为不可信输入并进行强制验证与适当编码处理。同时，需要实施严格的输入输出验证和过滤机制，遵循最小权限原则。

其次，应加快制定AI漏洞分类分级标准，建立按应用场景划分的风险等级体系。通过众测等模式汇聚社会专业力量，构建AI安全共治生态。

最终目标是建立“以人为本，智能向善”的人工智能发展环境，构建普惠、公平、安全、可信的AI生态系统。只有筑牢安全基石，人工智能技术才能健康可持续发展，真正造福社会。

随着AI技术深入各行各业，安全性将成为决定其应用范围和深度的重要因素。这次众测不仅是一次安全检测，更是AI行业发展的重要里程碑，标志着我国AI安全治理进入了系统化、实战化的新阶段。

相关链接：

...全文

168 回复打赏收藏转发到动态举报

写回复

用AI写文章

切换为时间正序

请发表友善的回复…

发表回复

资源下载链接为： https://pan.quark.cn/s/b2055db9bd76 (最新版、最全版本)SC-Safety: 中文大模型多轮对抗安全基准

人工智能应用面临的安全威胁研究.docx

内容概要：本报告由ChaMD5安全团队AI组发布，系统梳理了2025年大型语言模型（LLM）面临的核心安全风险，重点依据OWASP LLM Top 10（2025版）详细解析了提示注入、敏感信息泄露、供应链漏洞、数据与模型投毒、不当输出处理及无限制资源消耗等十大安全威胁。报告通过PoisonGPT数据投毒实验和PyTorch 'torchtriton'软件供应链攻击两个真实案例，揭示了LLM在实际应用中的脆弱性与攻击可行性。同时，介绍了LangChain开发框架及Rebuff AI、Garak、ModelScan等安全工具的功能与应用场景，并对比了各类工具的防护重点。最后提出了基于风险评估、纵深防御、持续监测和多方协同的安全建设策略。; 适合人群：从事人工智能、机器学习、软件安全及相关领域的研究人员、开发人员、安全工程师以及企业技术决策者；具备一定AI基础知识并对LLM安全感兴趣的专业人士。; 使用场景及目标：①帮助组织识别和评估LLM应用中的关键安全风险；②指导开发者在设计、开发、部署过程中实施有效的防御措施；③为企业构建LLM安全治理体系提供实践建议和技术路径；④促进对红队测试、模型溯源、供应链审查等主动防御机制的理解与应用。; 阅读建议：此报告兼具理论分析与实战案例，建议结合OWASP官方资料及其他参考文献延伸学习，重点关注风险缓解措施与工具集成方案，并在实际项目中进行验证与调优，以全面提升LLM系统的安全性。

内容概要：本文介绍了POISONBENCH，这是首个用于评估大语言模型（LLM）在偏好学习阶段对数据投毒攻击脆弱性的基准测试。研究通过两种攻击方式——内容注入和对齐退化，在八个现实场景中对21种广泛使用的模型进行了评估。实验发现：（1）增加模型参数规模并不能增强抵御投毒攻击的能力；（2）攻击效果与投毒数据比例呈对数线性关系；（3）投毒的影响可泛化到训练中未出现的触发器上，揭示了当前偏好学习技术的薄弱环节，强调了开发更强健防御机制的紧迫性。作者呼吁加强AI安全研究以应对恶意数据操纵风险。; 适合人群：从事人工智能、自然语言处理或机器学习领域的研究人员、工程师以及关注AI安全与鲁棒性的技术从业者，具备一定的深度学习和语言模型背景知识。; 使用场景及目标：①评估不同LLM在偏好学习过程中对数据投毒的敏感程度；②分析模型规模、训练方法、投毒比例等因素对攻击成功率的影响；③推动针对数据污染威胁的检测、防御和缓解技术的发展，提升AI系统的安全性与可靠性。; 阅读建议：此资源为学术研究型论文，建议结合代码仓库（GitHub）进行复现实验，深入理解攻击构造细节与评估指标设计，并关注附录中的超参数设置与数据构建流程，以便全面掌握POISONBENCH的实施方法及其局限性。

通用语言大模型及知识协同技术

109

社区成员

社区内容

发帖

与我相关

我的任务

软件工程个人社区重庆·沙坪坝区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章