中国电信发布全球首个单体稠密万亿参数语义模型

发布时间： 2024年06月21日

文章来源：人民邮电报

近日,中国电信人工智能研究院(TeleAI)联合北京智源人工智能研究院发布全球首个单体稠密万亿参数语义模型Tele-FLM-1T,成为国内首批发布稠密万亿参数大模型的机构。

针对大模型训练算力消耗高的问题,TeleAI与智源基于模型生长和损失预测等关键技术联合研发出Tele-FLM系列模型,仅使用了业界普通训练方案9%的算力资源。双方基于112台A800服务器,用4个月完成3个模型总计2.3T tokens的训练。模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。Tele-FLM-1T版本即将开源,有望为社区训练万亿稠密模型提供技术参考,避免万亿模型训练收敛难等问题。

作为最早布局并首先开源大模型的央企机构,TeleAI在中国电信CTO、TeleAI院长李学龙的带领下,坚持全链路完全自主研发创新,去年发布了千亿参数星辰语义大模型,性能处于国内同级别参数模型的前列。今年2月,TeleAI自主研发的星辰大模型首次通过了境内深度合成服务算法备案。5月15日,根据北京市生成式人工智能服务备案信息公告,星辰大模型再次通过产品备案。“双备案”标志着星辰大模型可正式对外提供生成式人工智能服务。

同时,TeleAI积极通过开源推动大模型技术进步和大模型国产化进程,加快研发创新,接连开源7B、12B、52B参数规模大模型,吸引国内外开源社区开发者广泛讨论和使用,开源模型下载量过万,积累超40万用户。随着TeleChat系列模型的发布,TeleAI同步对多个大模型落地项目进行了能力升级,显著提升了项目交付质量。某市民生诉求场景项目引入TeleChat-52B模型能力,整体应用效果提升40%,达到行业领先水平。

目前,TeleAI携手行业领军者共同打造了面向教育、政务、应急等20多个行业的大模型,通过不断升级的语音、视觉以及多模态大模型技术能力,共同推动大模型技术与各行业的深度融合,助力千行百业转型升级。未来,TeleAI还将进一步为客户、生态伙伴、开发者及个人用户提供前沿的AI能力,切实推进国内AI技术进步及落地应用,加速全社会迈向通用人工智能时代。(作者:记者殿欣)

(编辑:白玛旦增)