星辰30种方言混说语音大模型发布

发布时间: 2024年06月03日 文章来源: 人民邮电报

近日,中国电信人工智能研究院发布了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型。星辰语音大模型打破了单一模型只能识别单一方言的限制,可同时识别粤语、上海话、四川话、温州话等30多种方言,成为国内目前支持最多方言的语音识别大模型。

中国电信人工智能研究院已构建超30种、超30万小时的高质量方言数据库。研发团队首创“蒸馏+膨胀”联合训练算法,解决超大规模多场景数据集和大规模参数条件下预训练坍缩的问题,实现1B参数80层模型稳定训练。

星辰语音大模型以绝对领先的性能斩获多个国际权威赛事冠军。在国际语音顶级会议INTERSPEECH2024离散语音单元建模挑战赛上,凭借星辰语音识别大模型的领先技术,中国电信人工智能研究院语音团队斩获语音识别赛道冠军。在业内知名的多方言语音识别数据集KeSpeech任务上,星辰语音大模型打破纪录,领先之前最优结果20%,以高达92.97%的字准确率刷新最优结果;在NIST(美国国家标准与技术研究院)组织的Babel低资源语音识别项目电话粤语赛道上刷新纪录。领先的性能,让用户在与星辰语音大模型对话时,无需刻意切换为普通话或者提高音量、放慢语速,可以像与人讲话一样自然。

据悉,星辰语音大模型已实现广泛的落地应用。例如在福建、江西、广西、北京、内蒙古等地,中国电信万号智能客服秒懂30种方言,实现日均约200万通电话的处理量。


(编辑:户静凝)