人工智能时代创新开发媒资库的探索与建议
摘要:数据是人工智能的基础,优质、丰富、稀缺的媒资库数据将成为人工智能时代媒体融合发展的关键抓手。主流媒体对媒资库创新开发要抢抓机遇、超前布局、创新实践,赋能建立“新闻+政务服务商务”运营模式,推动智能化转型和媒体融合向纵深发展。
关键词:人工智能;媒资库;数据;媒体融合发展
媒资库,即媒体资产仓库,涉及媒体在内容采集、生产、分发以及经营过程中积累的一切成品和素材。当前,人工智能(AI)技术正融合千行百业,驱动新一轮科技革命和产业变革,也将重塑媒体格局、传播方式与舆论生态。主流媒体正积极探索将AI运用于新闻采集、生产、分发、接收、反馈之中,以打造智媒体新生态,巩固壮大奋进新时代的主流思想舆论。
媒资库是人工智能时代媒体融合发展的关键抓手
当前,各大媒体机构对媒资库建设与开发存在投入不足的现象。许多媒资库建设仅停留在将历史文字报道电子化阶段,图片、音视频入库数字化进程缓慢,创新开发媒资库赋能媒体融合发展也还停留在初级阶段。建设、开发媒资库需要大量资金、技术与人才投入,且无法直接带来可观的经济效益。
随着AI技术的发展,这种低投入的局面有望彻底打破。数据是AI的燃料,是智能发展的基石。主流媒体在新闻报道与融合发展过程中沉淀积累了海量的内容成品和素材数据,汇集大量政务数据、服务数据、商务数据,这些数据能有效支撑AI学习和训练,提高其智能水平。
知名AI研究机构EpochAI的一项研究预计,随着AI技术发展,到2026年,高质量的数据将变得稀缺,2030—2050年低质量数据也将消耗殆尽。在国外,《纽约时报》等多家媒体起诉生成式AI应用ChatGPT的开发公司OpenAI“未经授权,使用已发表的新闻作品训练生成式人工智能应用”。美国有线电视新闻网(CNN)、美联社、福克斯(Fox)、《时代》杂志(Time)也与OpenAI就内容授权训练AI应用事宜进行了多次谈判[1]。这从一个侧面说明,媒体数据优质、丰富、稀缺,而且应用场景与市场十分广阔。以这些数据为基础建立的媒资库,不仅是媒体机构重要的资产,更是媒体机构抓住AI发展机遇,赋能建立“新闻+政务服务商务”运营模式,推动媒体融合向纵深发展的关键抓手。
随着AI与媒体融合进一步加深,媒资库对主流媒体融合发展而言,或将从“有点关系”变成“性命攸关”。
(一)媒资库是智能生产和传播的基础
媒资库将全面赋能媒体智能生产和智能传播,推动媒体智能化进入快速发展阶段。当前,以ChatGPT为代表的AIGC(人工智能生成内容)应用平台发展迅猛。行业普遍认为AIGC将成为继专业生产内容(PGC)、用户生产内容(UGC)之后新的内容生产模式,广泛应用在内容生产的各个领域并且替代了部分人工创作。媒资库是媒体AIGC的基础,AI新闻写作、AI绘画、AI视频生成、AI虚拟场景生成等AIGC应用均离不开AI对媒资库数据的学习和训练;AI审核、媒体报道精准传播、传播效果精准评估等也离不开AI对媒资库数据的数据挖掘和预测分析。
(二)媒资库数据决定媒体智能服务
随着AI技术融合千行百业,媒资库里面拥有的数据类型和数量,将决定主流媒体提供智能服务的类型与水平。AI时代,没有数据,主流媒体就很难有智能服务,影响力和竞争力也会打折扣。例如,当前不少主流媒体针对政务服务建立了网络问政互动及诉求反映平台,包括人民网“领导留言板”、新疆日报“石榴云12345问政”、四川日报“问政四川”、河北新闻网“阳光理政”、华龙网“重庆网络问政平台”等,这些平台所积累的政务数据和运营经验,将造就主流媒体面向政务服务的AI能力。
媒资库在人工智能领域的应用探索
AIGC平台的迅猛发展为创新开发媒资库提供了方向指引。当前,主流媒体在AI领域探索开发媒资库主要包括以下几个方向。
(一)主流价值语料库
AI平台有立场,AI生成的内容有导向,其导向本质上是由AI学习的数据语料和算法决定的。例如,ChatGPT被指“充满西方意识形态和美式政治正确”,根源是美国硅谷和科技界本来就是美国价值观的大本营,ChatGPT训练与学习的数据大多来源于西方的数据,产品当然自带西方意识形态。
在推进媒体融合过程中,主流媒体不能一味采用、入驻商业企业的AIGC平台,而是要特别关注喂养AI的语料数据和模型算法本身的导向。人民数据发布的《AI大模型综合能力测评报告》显示,国内主流大模型在内容生态方面的表现仍有一定提升空间,一些大模型对敏感话题做出了不同程度的规避,部分回答内容情感色彩较重[2]。这从一个侧面上反映出,当前市场上主流价值语料库稀缺,无法为大模型学习训练提供支持。主流媒体作为巩固壮大主流思想舆论、扩大主流价值影响力的主力军,需要创新媒资库、建立主流价值语料库,进一步发挥在AI时代守护意识形态安全的价值。
例如,针对大模型普遍回答不了、回答不好的重大、敏感、疑难问题,人民网动员全体员工、汇集各方资源,建设包括基础语料、重点领域语料、敏感问答语料在内的“主流价值语料库”,目前已完成12万道题的问答语料库、16个重点领域语料库、超300亿字的基础语料库的建设,实现与多个国产主流大模型的集成对接,大幅提升了其安全水平。
(二)行业应用大模型
媒体创新融合发展路径可以从三个层面展开:一是媒体内部的融合,也就是传统媒体与新兴媒体的融合;二是媒体与媒体之间的行业融合;三是媒体与一切行业、产业的融合,让媒体在与各个行业的深度融合中壮大。主流媒体通过行业报道以及行业内容运营业务积累了大量高质量行业数据,可以转化为行业垂直大模型训练的优质语料库数据,能为开发行业垂直大模型、推动产业融合提供数据与技术支撑,为下一步推进行业、产业的融合打下基础。
例如,人民网研发的“人民智媒大模型”为国家地震局提供地震知识科普问答应用。该应用基于地震科普类图书和相关规范标准文件的学习,有效提升在地震基础知识、地震灾害防御、地震应急救援和地震预警及应对等方面的知识科普效率。
(三)内容风控应用
AI时代,信息无处不在、无所不及、无人不用,智能内容风控拥有广阔的应用场景。媒资库的报道成品内容,一定程度上是主流媒体内容审核把关能力与经验的体现。通过AI技术学习和训练这些数据,可以研发内容风控应用,全面延伸主流媒体意识形态把关能力。
例如,人民网推出的涉政内容智能审核平台“人民审校”,以人民日报媒资库为核心数据,基于人民网独家资源和资深编辑的内容把关经验,构建涉政知识数据库,具备涉政文本审核、视觉内容检测等智能风控模块,可以实现在线检测、文本审校、图片审校、视频审校、自定义词库等多功能。目前,“人民审校”已为300多家客户提供内容把关和巡查服务。随着AI大模型的进一步发展,“人民审校”将助力审核AI训练的数据语料、生成内容、线上课程等内容。
(四)智能文稿创作应用
媒资库里海量的政务数据,例如时政新闻报道、领导讲话稿、政策文件、官方报告等内容,奠定了主流媒体在党政文稿方面的智能创作能力。在开发智能文稿创作应用方面,媒资库拥有两大不可替代的优势:一是数据来源于主流媒体报道,确保了AIGC的政治方向、价值取向和舆论导向;二是原始数据的写作逻辑、语句语序等契合党政机关、事业单位及国有企业的应用场景。
例如,人民日报社主管、依托人民网建设的传播内容认知国家重点实验室推出的人工智能写稿秘书“写易”创作引擎,通过AI训练学习符合我国主流价值观的数据集和媒体语料库,内容涵盖政治、经济、文化、社会、生态、党建、国防、外交等重点领域,保障生成内容安全,着重为党政机关、事业单位、国有企业提供优质安全的智能创作服务。目前,“写易”已为多个党政机关和大型国企提供应用服务。
(五)人工智能检测
随着AI技术进一步与内容行业融合,AIGC迎来发展新阶段。与之伴随的内容侵权、网络钓鱼、深度伪造、虚假信息等风险挑战引发广泛关注。媒体报道是AI内容生成平台数据训练学习的重要来源。通过AI技术学习训练相关数据,推出针对性的智能检测产品,可以起到保护版权、维护内容安全的作用,在内容安全、版权保护方面有广阔的市场应用前景。
例如,人民日报社主管、依托人民网建设的传播内容认知国家重点实验室推出的“AIGC-X”应用,可快速区分机器生成内容与人工创作内容,对中文文本检测的准确率已超过90%。下一步,AIGC-X将扩展为对AI生成文本、图像乃至视频的通用智能识别模型,为统筹AI安全与发展贡献力量。
进一步创新开发媒资库
AI与媒体深度融合,重塑媒体格局和舆论生态已是大势所趋。主流媒体对媒资库开发要超前布局、创新实践,抓住AI发展的机遇,赋能媒体智能化转型,推动媒体融合向纵深发展。
(一)积极丰富媒资库数据
媒资库优质数据的广度决定了在AI领域创新开发的深度。除了传统媒体历史报道与素材数据之外,以下数据可以重点考虑。一是AI数据。当前,AI与媒体融合进一步加深,主流媒体内容生产效率与质量得到大幅提升。未来,由AI生成的数据呈现爆发态势,许多媒体内容将来源于AI。因此,可以将海量AI生成数据补充到媒资库中。二是行业数据。主流媒体在探索建立“新闻+政务服务商业”经营模式的过程中,要留意对行业数据的积累、挖掘,形成各类行业数据库,提升媒资库的深度和广度。三是互联网数据。通过开放合作,主流媒体可以定向采集互联网相关数据,拓展媒资库的数据量。
(二)推进智能媒体资源库建设
媒资库建设不能仅停留在文字报道电子化阶段。要将文字、图表、图片、音视频报道和素材数字化、智能标签化,实现海量数据数字化存储、多模态搜索与精准管理。同时,建议对各类数据进行清洗、提炼与分类,形成各类专业数据库,为媒资库创新开发做好准备。
(三)加速媒资库在人工智能领域的创新开发
媒资库是媒体机构优质、稀缺的数据资产,但如不创新开发使用,仍然只是“历史档案”,无法体现其数据价值。因此,建议主流媒体积极创新开发媒资库,通过技术的引入,持续赋能媒体内容生产、智能传播及经营运营分析。此外,还可以通过对外寻求合作,共享和开放媒资库,畅通数据资源大循环。要超前布局,先行先试,在使用中积累数据和经验,在使用中完善媒资库,为媒体智能化转型与融合发展提供支撑。
【参考文献】
[1]财联社.OpenAI与CNN、福克斯和时代杂志洽谈内容授权事宜[EB/OL].(2024-01-12).https://www.cls.cn/detail/1568645.
[2]人民数据.重磅!人民数据发布《AI大模型综合能力测评报告》[EB/OL].(2023-07-07).https://www.peopledata.com.cn/html/NEWS/Dynamics/3225.html.
(人民网研究院研究员 廖灿亮 本文刊发于《全媒体探索》2024年4月号)
(编辑:旦增尼玛)