深度解读!什么是隐私计算?有何应用及进展?
发布时间:
2024年10月31日
文章来源:
《中国网信》2024年第10期
李凤华
随着互联网、物联网、云计算、大数据、人工智能等技术的演进和推广应用,新业态不断涌现,服务过程所产生和沉淀的海量数据成为国家基础性战略资源,是赋能行业数字化转型和智能化升级的重要支撑,并成为推动数字经济发展的核心引擎。习近平总书记强调,“要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系”。我们要深入贯彻落实习近平总书记重要论述,统筹推进数据资源开发利用和安全治理,不断完善数据安全治理制度,促进数字经济持续健康安全发展。传统的数据安全和隐私保护技术不能解决数据流通利用过程中跨系统的个人信息全生命周期保护问题,隐私计算(Privacy Computing)的理论体系被适时提出。本文聚焦隐私计算的内涵及其应用实践,阐明隐私计算在个人信息保护和数据流通利用中的支撑作用。隐私是敏感个人信息,针对特定场景有许多隐私保护方法,但是缺乏全生命周期的体系化理论和技术支撑,严重制约数据泛在共享、数据流通利用。为此,我们从“计算”角度研究全生命周期的隐私计算理论体系,构建全生命周期隐私保护的统一模型。我们提出隐私计算的定义是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统,涵盖信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。隐私信息全生命周期过程的计算环节包括收集、脱敏、存储、使用、交换、删除、存证与取证等,这些环节在多个信息系统之间不同的业务流程组合可以涵盖隐私信息全生命周期的操作过程。其中,“收集”对应隐私计算定义的“产生”和“感知”,“交换”对应隐私计算定义的“发布”和“传播”,“脱敏”对应隐私计算定义的“处理”,“删除”对应隐私计算定义的“销毁”等。隐私计算通用框架包括隐私信息抽取与度量、隐私度量动态调整、隐私延伸控制、隐私按需保护、保护效果评估、存证与取证等功能组件。隐私信息抽取与度量通过对采集或接收的信息进行分析,提取不同模态信息中的隐私信息分量,并对隐私信息分量进行分类以及量化隐私信息分量的敏感度或保护程度。隐私度量动态调整通过识别判断隐私信息所属的应用场景,对隐私信息分量的敏感度或保护程度进行针对性的度量调整。隐私延伸控制在数据泛在流通与共享过程中,对全生命周期各环节的隐私操作进行迭代控制。隐私按需保护约束隐私信息处理者根据延伸控制策略,对接收到的隐私信息进行按需脱敏、按需删除等处理,提供场景自适应的隐私保护能力。保护效果评估根据制定的脱敏效果评估指标体系,对待评估的已脱敏隐私信息的脱敏效果进行量化分析,如未能达到预期效果,则分别视情况从隐私信息抽取与度量、隐私度量动态调整、隐私延伸控制、隐私按需保护等环节进行反馈迭代,直至达到期望的保护效果。存证与取证对隐私信息抽取与度量、隐私度量动态调整、隐私延伸控制、隐私按需保护、保护效果评估等功能组件的操作行为进行日志记录,支撑隐私侵权行为溯源取证。一是跨系统的全生命周期保护,提出了隐私信息全生命周期过程的计算操作;二是迭代延伸控制,延伸控制策略由信息主体的控制意图、当前使用者的控制约束和数据接收者的防护能力生成,同一控制策略在全生命周期中体现迭代调整;三是差异化按需保护,同一信息在同一应用场景的不同阶段以及在不同应用场景下保护粒度差异化;四是基于保护效果评估反馈的保护自适应改进,通过保护效果评估动态调整脱敏算法及其参数、删除方法选择等,减少因隐私信息保护控制策略长期不变而导致隐私泄露;五是隐私侵权行为溯源取证,对隐私信息全生命周期各环节的操作行为进行自存证,存证信息与信息不可分离地一起流通,支撑泛在、随遇、实时的全生命周期隐私信息有序合规利用。值得注意的是,国内一些机构或个人在翻译国外文档时,将隐私增强技术和隐私保护计算翻译成隐私计算或隐私计算技术,将机密计算、密文计算、安全多方计算、联邦学习等都谬称为隐私计算,此举不仅混淆了隐私计算的概念和内涵,还误导决策者、企业等,导致企业因使用谬误的隐私计算而没有达到隐私保护效果。要做好个人信息保护,重点是正确利用不同技术解决流通利用过程中不同环节的数据安全与隐私保护问题,要正确理解不同技术所能解决的问题,在不同环节选取合适的技术方案。隐私保护是个人信息在流通利用过程中进行脱敏,使信息产生偏差或去标识化,支撑个人信息的出域保护。传统的k-匿名、差分隐私等隐私保护技术只能解决单一环节、单一场景的隐私保护,隐私计算则是面向隐私信息流通利用、跨域受控共享等应用需求,采用隐私度量动态调整、按需脱敏控制、迭代延伸控制、保护效果评估等技术措施,解决差异化脱敏、脱敏效果评估、数据交易的差异化定价与脱敏、多轮交易价格差异化联动、隐私传播控制、跨域隐私延伸控制等问题,实现隐私信息全生命周期保护,支撑隐私信息合规的流通利用。联邦学习的多方利用自身数据完成部分的模型训练,中心节点完成模型汇集,是一种分布式的机器学习架构。合作方之间交换训练中间结果和模型参数,而不交换数据本身,自然而然地不存在数据出域而导致的原始数据泄露,但中间结果的交换没有防泄露的机制,仍然存在部分数据泄露的问题。数据安全是接收者收到的信息与提供者发送的信息相一致,防止对数据的非授权获取和篡改,关注的是机密性、完整性、不可否认性等。当前被广泛提及的密文计算、机密计算、安全多方计算等都是数据安全技术。面向数据利用的多方信息出域且计算环境不可控的场景,在进行联合计算、统计分析、利用算力设施外包计算、密文数据检索等过程中,密文计算采用密文数据出域且明文数据不出域的方式,参与方在密文上计算,从而保护参与方参与运算的原始数据,并安全分享计算结果,支撑数据出域计算时原始数据的安全性防护和数据加密时的统计查询等。密文计算所解决的问题是外包计算场景的数据保护,参与运算的明文及明文结果都没有信息损失,可用于计算过程中的数据保护。密文计算的普适性弱、算力需求大。针对在算力设施中安全处理敏感数据和个人隐私的问题,机密计算将个人隐私或敏感数据隔离在被称为可信执行环境(TEE)的受保护区域中,并在可信执行环境内处理数据。机密计算所解决的问题包括:一是计算环境的可信性,通过执行环境隔离,提供可信执行空间,未授权参与方不能进入该空间;二是计算环境的可控性,参与主体能监控该环境中数据使用的合规性;三是计算环境的机密性,参与主体不能窥探到在该环境内的数据、代码和操作,但可获取计算结果。机密计算的普适性好,但仍然存在跨TEE的安全性问题。在数据利用的多方信息安全共享过程中,针对数据提供者未分享的原始数据不出域需求,安全多方计算采用不经意传输(Oblivious Transfer)、秘密分享、混淆电路(Garbled Circuit)、同态加密(Homomorphic Encryption)等密码技术,通过多轮信息秘密交换的数据安全计算,实现数据计算或交换过程中未分享的原始数据不出域,支撑计算结果安全共享。安全多方计算所解决的问题:一是保护消息接收者的意图,接收者在获取自己想得到的信息的同时,保护了自己的真实意图;二是未分享的原始数据不出域,通过多轮信息秘密交换的数据安全处理,保护了在计算或交换过程中参与方未分享的原始数据。安全多方计算的普适性弱,计算复杂度和通信复杂度高。不同技术实现“可用不可见”存在差异。数据流通利用中“不可见”是指参与运算的原始数据不能以明文的形式出域,或者以密文形式出域的情况下必须保持密文运算,即参与运算的各方不能以任何方式获取原始数据的明文;“可用”是指参与方可以明文或密文的方式获取运算的结果。“可用不可见”分为域内“可用不可见”和出域“可用不可见”两种场景。密文计算是原始数据出域场景下以密态的形式分享计算结果;安全多方计算是分享需求方所需的原始数据,对需要的原始数据不属于“可用不可见”;联邦学习是原始数据不出域的情况下分享计算结果,但需要安全技术解决模型训练的中间参数传输安全问题,以及模型对数据和隐私的泄露问题;隐私计算以按需脱敏和使用的延伸控制来保障域内和出域场景下的“可用不可见”;机密计算是保障域内场景下的“可用不可见”。总体而言,个人信息保护分两种:一是数据防泄露;二是隐私保护。国际上提到的隐私保护计算或隐私增强技术关注的是机密计算、密文计算、安全多方计算等,解决的是数据防泄露的问题;隐私计算重点解决数据域内或出域交换情况下全生命周期的隐私保护。隐私计算经过近10年的发展已比较成熟。在隐私计算架构方面,在国际上率先提出了隐私计算的概念、定义及学术范畴,提出了面向全生命周期保护的隐私信息描述方法及控制机制,提出了隐私计算通用架构和全流程体系化保护技术,构建了隐私计算的核心基础理论。在泛在共享延伸控制方面,提出了面向隐私信息跨系统流通的迭代延伸控制、基于证据自存证的隐私侵权行为判定与溯源取证、场景适应的隐私信息差异化脱敏延伸控制和删除延伸控制等方法,解决了动态流通场景下延伸控制策略迭代调整、低开销抗泄露防篡改的存证等技术难点,支撑了跨系统隐私信息受控利用。在场景适应按需保护方面,提出了差分隐私的算法通用框架,提出了隐私保护算法框架抽象及算法设计、跨场景差异化按需脱敏管理等方法,解决了普适稳定的算法通用框架、场景适应的脱敏管理等技术难点,实现了按需保护。隐私计算实现隐私信息全生命周期的保护,在数据流通利用中发挥重要的作用。隐私计算在个人信息保护中的作用。隐私计算可以支撑数据域内和出域场景下个人信息的迭代延伸控制,根据服务的不同阶段或者不同场景实现差异化按需保护,支持跨系统保护的量化映射以实现隐私跨系统保护的一致性,基于保护效果评估反馈实现保护算法和参数的自适应改进。隐私计算的这些优势可以很好地平衡个人信息保护和新型信息服务模式对数据利用的需求,隐私计算的存证与取证还可有效地支撑隐私侵权行为溯源、个人信息保护合规判定。隐私计算在数据流通利用中的作用。在数据流通利用过程中,基于隐私计算延伸控制的思想实现数据流通控制和使用控制,对于数据要素的多轮交易实施延伸控制;基于隐私计算的按需脱敏支撑数据要素的差异化定价;通过隐私计算的存证与取证支撑数据流通利用过程中的风险识别、预警与争议仲裁等。全生命周期的保护理念、迭代延伸控制机制、按需脱敏均是隐私计算的核心内涵。隐私计算与安全多方计算、同态加密、机密计算等数据安全技术有明显的边界,也不能与联邦学习、隐私保护计算等混淆,否则不利于原始创新。我们应坚持正确的学术观点,避免张冠李戴、“新瓶装旧酒”,做真正的隐私计算研究,将已经提出40多年的安全多方计算、同态加密等技术包装冒充成“隐私计算”并不能解决个人信息保护的问题;只有采用真正的隐私计算才能保证数据流通利用的全生命周期保护。在隐私计算理论框架已经成熟的情况下,未来需要不断优化延伸控制机制与不同信息系统的融合技术,丰富和完善按需脱敏、按需删除技术,深入研究保护效果的评估技术以更好地支撑按需保护算法和参数的优化调整。我们要推动隐私计算技术发展和产品应用,保障《中华人民共和国个人信息保护法》的落地实施,支撑我国数字经济的健康发展和行稳致远。
作者:李凤华系中国科学院信息工程研究所研究员、技术副总师;李晖系西安电子科技大学教授、网络与信息安全学院执行院长; 牛犇系中国科学院信息工程研究所研究员、数据安全研究室副主任
(编辑:王小莉)