北京人工智能数据运营平台发布 已汇聚700万亿字节通用数据集
6月14日下午,作为2024北京智源大会主题论坛之一,“人工智能+数据新基建”主题论坛召开。论坛上,北京人工智能数据运营平台正式发布。记者了解到,目前平台已汇聚超过700万亿字节的通用数据集和4.33万亿字节的行业数据集,为大模型行业发展提供数据支撑。
据介绍,北京人工智能数据运营平台是在国家发展改革委、国家数据局指导下,由北京市发展改革委主导,在市委网信办、市科委、市经信局、海淀区政府、中国网络空间安全协会人工智能安全治理专委会等单位支持下,由智源研究院牵头与京能数产等单位共建推动成立开放型数据运营平台。
数据平台在实现数据的汇聚管理、处理与加工等功能基础上,能够提供多种模态的数据标注功能,支持多种数据汇聚和使用形式。目前平台已汇聚超过700万亿字节的通用数据集和4.33万亿字节的行业数据集,未来将不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。
目前,数据运营平台支持“开源开放”“积分共享”“数算一体”三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用;“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益;“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。
海淀区相关负责人表示,依托数据运营平台,海淀区会同智源研究院等单位积极推动政务、社会与企业数据开放共享,打破数据孤岛。同时探索建设北京数据基础制度先行区,统筹布局算力与数据存储基础设施,为数据资源创新应用提供技术与制度保障。 (记者董兆瑞)
(编辑:索朗次仁)