当前位置：首页>网络安全>安全动态

智源研究院发布FlagSafe平台：推动大模型安全从被动响应向主动对抗转型

发布时间： 2026年05月11日

文章来源：人民邮电报

文章作者：智源

近日，北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等机构，正式发布FlagSafe大模型安全平台。平台首批汇聚多个前沿大模型安全研究项目，围绕红队演练、蓝队防御、白盒透视三个核心方向，凝聚国内优势科研力量，共同打造覆盖风险发现、防御治理与机理解释的高标准安全平台。

当前，大模型正加速从虚拟对话迈向物理世界，随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等前沿威胁，传统安全能力往往局限于单一模态、单一视域或单一防护环节，难以应对复合型风险。FlagSafe以“全面安全”为核心目标，致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。

AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京AI安全国际共识》，FlagSafe平台确立了五项不可逾越的安全红线：防范未经人类批准的自主复制或改进；禁止通过不当手段获取权力与影响力；严禁协助设计大规模杀伤性武器；禁止自主发动破坏性网络攻击；防范系统对监管者的欺骗与误导。

围绕这些规范，平台目前已联合多家顶尖科研机构，初步构建了涵盖三大维度的安全能力矩阵。红队演练负责主动发现风险，扮演“自动化压力测试”角色。蓝队防御负责构建系统防线，致力于将安全准则转化为模型和应用运行中的防护能力。白盒透视负责解释与修正风险根因，聚焦模型内部机理和训练数据来源。

构建大模型时代的安全防线是一项长期的系统工程，智源研究院期望以此平台为枢纽，构建“前沿研究－工具平台－产业应用”的良性闭环。当前，平台正以模块化、开放式的形态，持续汇聚各方优秀的安全研究成果。后续，智源研究院将依托多方协作机制，持续扩充FlagSafe平台的功能矩阵，进一步深化红队演练、蓝队防御与白盒透视工具的集成。

（编辑：旦增尼玛）