智源研究院发布FlagSafe平台:推动大模型安全从被动响应向主动对抗转型
近日,北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等机构,正式发布FlagSafe大模型安全平台。平台首批汇聚多个前沿大模型安全研究项目,围绕红队演练、蓝队防御、白盒透视三个核心方向,凝聚国内优势科研力量,共同打造覆盖风险发现、防御治理与机理解释的高标准安全平台。

当前,大模型正加速从虚拟对话迈向物理世界,随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等前沿威胁,传统安全能力往往局限于单一模态、单一视域或单一防护环节,难以应对复合型风险。FlagSafe以“全面安全”为核心目标,致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。
AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京AI安全国际共识》,FlagSafe平台确立了五项不可逾越的安全红线:防范未经人类批准的自主复制或改进;禁止通过不当手段获取权力与影响力;严禁协助设计大规模杀伤性武器;禁止自主发动破坏性网络攻击;防范系统对监管者的欺骗与误导。
围绕这些规范,平台目前已联合多家顶尖科研机构,初步构建了涵盖三大维度的安全能力矩阵。红队演练负责主动发现风险,扮演“自动化压力测试”角色。蓝队防御负责构建系统防线,致力于将安全准则转化为模型和应用运行中的防护能力。白盒透视负责解释与修正风险根因,聚焦模型内部机理和训练数据来源。
构建大模型时代的安全防线是一项长期的系统工程,智源研究院期望以此平台为枢纽,构建“前沿研究-工具平台-产业应用”的良性闭环。当前,平台正以模块化、开放式的形态,持续汇聚各方优秀的安全研究成果。后续,智源研究院将依托多方协作机制,持续扩充FlagSafe平台的功能矩阵,进一步深化红队演练、蓝队防御与白盒透视工具的集成。
(编辑:旦增尼玛)






