联接数据孤岛 需要算力生态链各方通力协作 访北京邮电大学集成电路学院执行院长张杰教授、北京航空航天大学计算机系主任肖利民教授

发布时间: 2022年07月29日 文章来源: 人民邮电报

随着一体化算力网络国家枢纽节点的建设,计算和网络的融合按下“快进键”。构建算力网络面临哪些困难和挑战?如何提升算力资源整体利用效率?针对业界关注的热点问题,《人民邮电》报记者采访了北京邮电大学集成电路学院执行院长张杰教授和北京航空航天大学计算机系主任肖利民教授。

有效适配差异化需求需要算力和网络深度融合

记者:当前,我国已建成相当发达的现代信息网,比如通信网、互联网,为何要提出建算力网络?

张杰:第一,随着信息技术应用快速发展,网络从以提供人机物交互的信息传递通路为主,向融合计算资源、存储资源和传送资源,支撑算力基础设施化建设的方向发展。构建多要素集成的新型算力网络,将数据信息流通的目标定位于实现全网算力的统筹调配和协同利用,具有新的重要意义和价值。

第二,算力网络包含两个关键部分,即算力和网络。不关注算力的网络只是数据的传输网,同时建立在云网融合基础上无处不在的联接能力可以对算力进行价值放大,承载更多的应用,实现算力和网络的相互影响、相互促进。

第三,与传统的通信网不同,算力网络的部署建设需要考虑如何将算力更为经济有效地适配不同用户的需求,尤其要关注影响和制约算力发展的能源分布、资源分布、算力需求分布等问题。

肖利民:从算力网络的重要性来看,发展数字经济是国家重大战略,是把握新一轮科技革命和产业变革新机遇的战略选择。在数字经济时代,算力是核心生产力,数据是关键生产资料,而算力网络是支撑数字经济高质量发展的信息基础设施。这与第二次工业革命中的电力基础设施在促进生产方式变革和支撑经济发展中的基础作用非常类似,其重要性不言而喻。

从算力网络的必要性来看,当前全国各地已拥有众多大大小小的算力中心,包括超算中心、云算中心、智算中心等,但各种算力中心大多处于分散自治状态,各中心通常是自治运营,各自对外提供算力服务,形成了一个个算力孤岛。各算力中心缺少相互间的任务协同机制和资源共享机制,跨广域数据交互效率也不高,难以实现算力资源的充分利用和协同共享,也无法协同形成资源聚合效应,无法适应数字经济高质量可持续发展需求。

从我国算力整体布局来看,全国一体化大数据中心协同创新体系建设是国家重大战略部署,是深化政企协同、行业协同、区域协同,全面支撑产业数字化和数字产业化的重要举措。当前,我国各地区尤其是东部与西部地区在能源电力、气候环境、经济发展水平及相应算力需求等方面存在较大差异,但各具优势,因此,若通过国家统筹规划能够实现全国一体化的算力网络,不仅可以提升算力资源整体利用效率,还有助于各地区实现优势互补,促进共同发展。

面临两方面挑战算力共享、数据流通

记者:对于建成算力一张网,目前面临的主要挑战是什么?

肖利民:要建成算力一张网,主要面临两方面的挑战:一是算力共享的挑战,二是数据流通的挑战。

算力网络要实现算力互联互通和协同共享,本质上是要围绕算力共享,建设一整套算力生态链,包括算力的生产、聚合、赋能、调度、供应、消费等环节。

在算力赋能方面,主要问题是如何将算力封装或对接到应用需要的各种计算框架、算法库等软件栈。不同行业、不同应用场景对算力的需求并不完全相同,是多样化的,同时,各类算力中心提供的算力资源通常也是多元异构的,如CPU、GPU、NPU等异构处理器提供不同类型、不同精度的算力。因此,面临如何将多元异构的算力通过软件栈封装,恰当地赋能给不同类型应用的问题。

在算力供应方面,如何设计算力供应模式?供应模式既涉及算力资源的描述、管理、分配、计价以及用户使用方式和接口等技术问题,还涉及用户的购买和消费模式、算力提供商的运营和服务模式、算力交易的市场化机制等商业问题。实际上算力供应非常复杂,比如我们可能觉得较为简单的度量和计价问题,在电力服务中,可用“多少千瓦时电”来统一描述电力用量,但算力服务中类似的度量标准还比较模糊,算力资源既包含多元异构、多精度的计算资源,还包含相关的存储、网络等资源。因此,算力资源度量衡的标准化也是一个关键问题。

我们在考虑算力网络建设时,通常会更强调算力,而忽视数据。实际上,算力和数据密不可分,因为算力主要就是用于处理数据。

广域算力网络要面对的数据,往往是分散的、异构的,数据通常物理分布在不同地理位置的算力中心或用户设备上,并且在数据格式和访问模式上也存在很大差异。因此,如何实现多中心数据在广域算力网络环境下的全局统一管理和高效透明访问,是需要解决的重要问题。

对于重要的数据,如国家的关键数据、企业的敏感数据、个人的隐私数据等,如果要在广域算力网络上自由流通,还面临数据安全和隐私保护问题。

张杰:类比于电网为各类电气电子设备提供电力,算力网络是为数据的计算提供计算力服务的网络,实现算力的即取即用。但是需要注意的是,算力不同于电力的概念,电力网络通过输电技术将电能实实在在地分配给千家万户,而算力是不能直接流动的,在算力网络中流动的还是数据本体,只是通过数据的流动推动算力资源的共享、弹性按需调配,才能节省大量分布式边缘节点的投资和运维成本。

算力网络作为一种复杂的技术网络体系,涉及多学科、多领域的融合,目前融合深度、广度还不足,其发展建设必须解决面向算力资源的整合优化、高效调度与协同处理等问题,需要考虑能源和资源分布不均衡、算力和网络设备交互接口、信令协议等标准尚不统一等问题。

打通算力生态链统筹考虑算力跨区域调度

记者:从目前确定的8个算力枢纽节点、10个数据中心集群结构出发,规划层面哪些分析必不可少,应如何有序推进?

张杰:在探索新型算力网络建设的过程中,网络规划与仿真分析将变得十分重要。虽然枢纽节点和数据中心集群部署定位已经明确,但是对网络架构与传送资源配置需求没有形成一致方案,与网络运营商的规划部署略微脱节。如何统筹考虑用户业务需求、算力供给能力、数据传输与存储成本等要素的关系,提供高效率的算力跨区域调度与算力承接解决方案,需要有序推进。

肖利民:在规划层面,既要考虑算力网络前期的规划和建设,又要考虑算力网络后续的运营和使用;既要分析需求侧的多样化算力需求,又要考虑供给侧的多元异构算力融合;既要考虑工程具体实施,又要考虑标准化体系建设;既要考虑算力生态链整体协同,又要考虑生态链各环节的创新突破;既要考虑工程和技术问题,又要考虑商业盈利模式和市场化机制;还有就是之前强调的,既要考虑算力共享问题,又要考虑数据流通问题。

在算力共享方面,应鼓励算力生产、聚合、赋能、调度、供应、消费各环节协同创新,打通整个算力生态链,聚合多中心资源,融合多元异构算力,实现算力的互联互通和协同共享。

在数据流通方面,可考虑在广域算力网络环境下,聚合各算力中心分散异构的存储资源和数据资源,构建跨中心的全局虚拟数据空间,实现对多算力中心数据资源的全局统一管理和高效透明访问,形成存储资源和数据资源的聚合效应。(记者 吴双)


(编辑:索朗次仁)