AI语料将成为新一轮国家竞争的制胜关键
AI作为引领全球经济发展的新型驱动力,已成为大国战略竞争的前沿阵地,中美等核心经济体正在进行一场AI竞赛。于近期上任的美国总统唐纳德·特朗普宣布了一项美国史上最大规模的人工智能(AI)投资计划,这项投资将高达5000亿美元(约合3.64万亿元人民币),并声称“中国是竞争对手”。这体现出AI将成为未来特朗普执政时期美国经济和科技发展的战略重点。
今年1月,在中央网信办指导下,中文互联网语料资源平台已面向社会正式发布。语料作为AI技术发展的基石与燃料,其供给规模与质量直接决定AI对自然语言的处理能力以及AI应用的深度与推广度。随着AI应用场景的扩展,高质量、多样化、可持续的语料数据需求不断增长,尤其是自动驾驶、医疗诊断、智能客服等领域,对AI模型的精度和可靠性要求极高,对高质量语料数据的需求尤为迫切。
我国AI语料库建设面临内外挑战
近年来,我国AI产业呈现快速发展态势,对语料库的建设也愈加重视。然而,以美国为代表的西方世界在语料库建设方面具有先发优势,我国AI语料发展在规模范围、标注技术和生态培育等方面面临挑战。
语料规模与范围。一方面,英文语料规模庞大,而中文语料总体规模和覆盖范围仍然较小。英语是当今使用范围最广的语言,英文语料可以从大量书籍、论文、网页和文化娱乐产品中获得海量、多模态数据。据阿里研究院《大模型训练数据白皮书》显示,互联网上的中英文语料占比存在明显差异,英文内容占比高达59.8%,而中文仅占1.3%。尽管国内许多行业企业、研究机构已开始布局大模型语料库建设并发布高质量数据集,但中文语料库的整体匮乏正在制约我国大模型本土化发展与性能飞跃。另一方面,我国AI语料以通用单语为主,高质量垂直领域语料库相对短缺,而这往往是训练提升模型精准性的关键。尤其对于特定的产业应用来说,需要更深入的专业知识和细粒度的理解,以促进高新产业高质量发展。
语料标注与技术。自然语言处理(Natural Language Processing)是AI语料库核心技术,其中数据标注是关键过程。数据标注的质量在很大程度上决定语料质量,进而影响受训模型的准确性。美国已在开放域和特定域形成代表性的对话语料标注体系,并在自动标注工具研发方面取得积极进展。我国数据标注和处理技术正在不断进步,例如自动化标注、半监督学习、数据生成等技术的发展将提高语料数据处理的效率和质量。但整体来看,我国标注产业还存在流程规范性不强、行业人才缺口大、整体质量无法满足产业需求等问题。据《中国AIGC数据标注产业全景报告》显示,数据标注行业从劳动密集型向知识密集型转变,未来5年人才缺口或将达百万,如何保证数据标注质量成为重要挑战。
语料产业与生态。美国在大模型数量方面居于全球首位,催生大量语料需求,带动语料行业高速发展。一方面,据斯坦福大学《2024年人工智能指数报告》显示,美国作为全球顶级大模型主要发源地,在基础模型领域居于领先地位。尽管我国AI大模型在2023年呈现爆发增长态势,但美国同年共发布109个基础模型,是我国的5.45倍。另一方面,与美国相比,我国AI产业链分布集中在应用落地端,而基础研究与技术开发相对薄弱。尽管目前我国AI核心产业规模已接近6000亿元,企业数量超过4700家,成为仅次于美国,全球排名第二的国家。但美国IBM、Microsoft、Google、AWS、OpenAI、Scale AI等科技企业覆盖了芯片、算力、数据、平台、应用等各环节,成为高质量语料库建设的关键技术基础。
推进AI语料行业发展的策略
构建多层次语料供给体系。第一,以大模型训练需求为导向加快语料库建设。打造通用、专用、多语言及多模态训练语料库,围绕智能终端、科学智能、自动驾驶、具身智能等关键领域,发展一批行业专业语料库。第二,支持语料生态企业发展,推动大模型企业与数据交易机构、研究机构等多元主体抱团聚力,共建自主可控的语料共享与交易平台,提升语料产品供需匹配效率。第三,前瞻性布局高质量训练数据集,通过自研、外购等方式引进境外优质训练语料。
着力打造高质量语料库。第一,重视语料标准体系建设。制定并落实国际、国家等多层面语料库标准,规范建设过程以提升语料质量。第二,推动数据标注产业升级。标注服务贯穿大模型全生命周期,直接影响语料质量,应当引导其从劳动密集型向知识密集型转变,优化标注和处理技术,提升语料数据处理的效率和质量。第三,加强与国际标准化组织合作。推进中外语料数据标准及标注体系互认,拓宽我国语料库的国际应用场景,增强国际竞争力。
健全语料库价值评估机制。第一,建立科学合理的评估指标。从规模、质量、时效、适用等维度,客观、准确地评估语料库性能。第二,引入多元评估主体。除语料供方和大模型建设方外,还应邀请行业专家以及用户代表参与,营造“多方共建”的语料生态。第三,加强评估结果的应用与推广。语料库建设是长期且专业的工作,应当将评估结果作为语料库改进和升级的重要依据,优先支持质量高、价值大的语料库发展。
(编辑:索朗次仁)