AI大模型:以“大规模预训练﹢微调”范式满足多元化需求

发布时间: 2022年06月16日 文章来源: 人民邮电报

从北京冬奥会上支持多语言服务的智能机器人、AI手语虚拟主播到近日“方向盘后无人”车开跑,人工智能可谓大放异彩。以Generative Pre- trained Transformer 3(GPT- 3)为代表的大模型(Foundation Model)正在成为人工智能“新高地”。如何理解AI大模型?其发展主要经历了哪些重要阶段?AI大模型主要用于解决哪些问题?就业界关注的这些热点问题,《人民邮电》报记者分别采访了中国人民大学高瓴人工智能学院执行院长文继荣和中国信息通信研究院云计算与大数据研究所人工智能部副主任曹峰。

以“自监督训练”模式突破数据标注困境

记者:什么是AI大模型?如何理解大模型?

文继荣:AI大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。

谷歌于2018年10月发布的BERT模型是最为典型的基础模型,它利用BooksCorpus和英文维基百科里纯文字的部分,无须标注数据,用设计的两个自监督任务来做训练,训练好的模型通过微调在11个下游任务上实现最佳性能。

OpenAI在2020年5月发布的GPT-3则是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务,使用描述任务(如“把英文翻译成法语:”)加一个示例(如“sea otter => loutre de mer”),再给一个prompt提示(如“cheese =>”),GPT-3模型即可生成cheese对应的法文。这类模型正在成为主流的AI范式。

曹峰:AI大模型是人工智能迈向通用智能的里程碑技术。深度学习作为新一代人工智能的标志性技术,完全依赖模型自动从数据中学习知识,在显著提升性能的同时,也面临着通用数据激增与专用数据匮乏的矛盾。AI大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性。

记者:除了考虑模型参数量,还有其他指标来判断或者定义模型是否属于大模型吗?

曹峰:参数量仅是AI大模型的单一表征,模型深度、网络结构也可判断是否属于AI大模型,只是相对不够直观。

文继荣:的确,AI大模型一开始给人的第一印象就是参数量大,从最开始GPT-1的1.17亿到GPT-3的1750亿,参数量确实在以突破性的速度提升。但是除了大的参数量,我们还希望大模型具备什么样的特点呢?

我认为,可以回归我们的大脑,观察我们的自身。我们的大脑是一个大模型,它有860亿个神经元和125万亿个突触,大脑在这个基础上彰显出的基础认知能力令我们惊叹。它能够同时高效地处理不同感官的信息并执行差异巨大的认知任务。

因此,对于AI大模型而言,我认为我们不仅期望它的参数量巨大,大模型也应同时具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等。

以“大规模预训练﹢微调”范式提升模型通用性

记者:AI大模型的发展主要经历了哪些阶段?有哪些经典代表模型?

文继荣:一般认为,AI大模型发展起源于自然语言处理领域。在2017年Transformer网络提出后,伴随着参数量的不断提升,它在自然语言处理领域慢慢成为基础性架构,并在2018年其参数量达到3亿规模,也就是我们所熟知的BERT。基于如此之大的参数量,研究者发现它能够同时出色地完成多种自然语言处理任务,这也就吸引了越来越多的人加入其中。

在大模型研究的早期阶段,仍然主要集中在自然语言处理领域,诞生了诸如上述BERT、GPT-3等一系列代表性模型,它们的参数量从起初的几亿,快速增长为数十亿乃至千亿规模。而随之带来的就是相应能力的提升,具备了从简单的文本问答、文本创作到符号式语言的推理能力;近两年,部分研究者提出了以其他模态(如视觉等)为基础的大模型研究,希望模型也可以看懂世间万物。在这个阶段,诞生了如ViT等包含数亿参数规模的视觉模型。

上述模型分别具备了读的能力和看的能力,研究者期望将这两类能力统一起来,具备如大脑体现的多模态感知能力,这一部分的代表性模型就是文澜、CLIP、DALL·E等模型。

当前,AI大模型的发展正从以不同模态数据为基础过渡到同知识、可解释性、学习理论等方面相结合,呈现出全面发力、多点开花的新格局。这对AI大模型研究而言是一件非常好的事情。

曹峰:AI大模型的发展经历了

多个重要阶段。从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破。从模态支持上看,AI大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。在各阶段的衍变过程中,涌现出多个具有代表性的AI大模型。

国外方面,Google于2018年提出BERT模型,掀起了预训练模型的研究热潮;OpenAI于2020年提出首个千亿级的GPT-3模型,将模型规模推向新的高度。

国内方面,华为于2021年发布首个中文千亿级的盘古模型,进一步增强中文大模型研究影响力;中科院自动化所于2021年提出首个三模态的紫东太初模型,预示着AI大模型进一步走向通用场景;百度于2022年发布10个产业级知识增强的ERNIE模型,全面涵盖基础大模型、任务大模型、行业大模型。

记者:AI大模型的作用是什么?主要用于解决哪些问题?

曹峰:AI大模型的“大规模”和“预训练”属性,决定了其具有能力泛化、技术融合、应用支撑三大核心作用。

能力泛化方面,AI大模型预先在海量通用数据上训练并具备多种基础能力,可结合多种垂直行业和业务场景需求进行模型微调和应用适配,能够摆脱传统AI能力碎片化、作坊式开发的束缚。

技术融合方面,单个AI大模型通过端到端联合训练调优,能有效集成自然语言处理、计算机视觉、智能语音、知识图谱等多个AI核心研究领域的多项技术,性能上可实现1﹢ 1>2,可显著提升AI大模型的功能丰富性和性能优越性。

应用支撑方面,AI大模型已成为上层应用的技术底座,能够有效支撑智能终端、系统、平台等产品应用落地,可解决传统AI应用过程中存在的壁垒多、部署难问题。

文继荣:通常我们认为AI大模型的作用主要体现在其通用性上。近年来,传统的AI模型在各个领域、各个行业的应用都有出色表现。然而,由于数据规模或是模型表达能力的约束,这些模型往往只能有针对性地支持一个或者一类任务,而无法支持其他任务。相比之下,AI大模型得益于其“大规模预训练﹢微调”的范式,可以很好地适应不同下游任务,展现出它强大的通用性。

首先,AI大模型自监督的训练模式意味着更易获得大规模无标注数据,譬如我们前面提到的CLIP使用了4亿个“图像-文本对”,而我们团队的文澜2.0更是使用了6.5亿个“图像-文本对”用于训练。其次,大规模的参数量也大大提升了模型的表达能力,进而可以更好地建模海量训练数据中包含的通用知识。

具有通用性的AI大模型,在共享参数的情况下,只需在不同下游实验中做出相应微调就能得到优越的表现,突破传统AI模型难以泛化到其他任务上的局限性,这也使得我们期待AI大模型可以进一步推动整个AI社区发展。

小贴士

AI大模型核心知识点

何为大模型?

AI大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。

经典模型

BERT

谷歌于2018年10月发布,模型利用BooksCorpus和英文维基百科里纯文字的部分,通过两个自监督任务来做训练,训练好的模型通过微调在11个下游任务上实现最佳性能。

GPT-3 

OpenAI在2020年5月发布,模型利用描述任务和提示例子来完成相应任务。该模型是自回归语言模型,具有1750亿参数,通过在互联网文本数据上训练得到。

重要发展阶段

从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破。

从模态支持上看,AI大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。

突破传统AI模型的局限性

AI大模型兼具“大规模”和“预训练”两种属性,面向实际任

务建模前需在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性。

具有通用性的AI大模型,在共享参数的情况下,只需在不同下游实验中做出相应微调就能得到优越的表现,突破传统AI模型难以泛化到其他任务上的局限性。(作者:本报记者 吴双)


(编辑:魏薇)