牢牢把握人工智能时代中国内容“生成权”

发布时间： 2024年01月18日

文章来源：人民邮电报

2023年被誉为“生成式人工智能之年”,以ChatGPT为代表的大模型在当今社会的作用越发凸显。模型的效能和准确性在很大程度上取决于其训练所依赖的语料。根据公开信息,ChatGPT的大部分语料来自政府公告、新闻报道、科技论文、经典文学作品、历史档案、艺术作品等公开领域内容。这些语料在很大程度上反映了美国社会和文化领域的主流观点,也决定了大模型输出的内容。

若大模型的训练语料充斥着具有偏见性的内容,则生成的内容也可能带有同样的偏见。

“傅满洲”原是西方小说中的虚构角色,后被美国电影界采用,被描绘为典型的东方反派。其身材枯瘦,留有八字胡和长指甲,阴险狡猾。当这种具有文化偏见的内容被大量纳入模型训练语料库时,生成式人工智能就极可能输出这些有偏见的观点。如在外国一些AI作画程序中,输入“华裔”或“亚裔”作为引导词,就可能生成类似“傅满洲”这样的形象。

在可以预见的未来,当人们不可避免地需要依赖人工智能生成的内容时,生成内容的可信度和价值观将深刻影响使用者乃至整个社会的思维导向。偏见和误解不仅会在人工智能生成的内容中被复制和放大,还可能加深人们对特定文化群体的刻板印象,使人们陷入“语种信息茧房”。

因此,在人工智能时代,应当更加重视中国知识、中国文化、中国故事在公开领域的中文表达。这不仅可确保大模型训练语料的真实性、准确性和多样性,也是守护我国文化表达权和文化阐释权的关键,更是牢牢把握住人工智能时代中国内容“生成权”的关键。

(作者赵运系中图科信数智技术<北京>有限公司战略规划部经理,作者饶高琦系北京语言大学国际中文教育研究院副研究员)

(编辑:白玛旦增)