以「智能客服」为例,何忠江介绍说,此前 TTS 技术已经能够合成非常优美的声音,但还远远算不上自然,接电话的人很容易识别出声音是否由机器生成,这就是 TTS 技术在落地智能客服应用受到的最大阻碍。据统计,这类合成人声的挂断率甚至达到70% 左右。
要想破解应用的问题,就要依靠技术创新,达到「高仿真」。星辰语音大模型目前已经实现「超自然人声合成」,比如下面这段声音,听起来和真人发音别无二致,语气词和停顿节奏都比较还原:
星辰语音大模型超自然人声合成,机器之心,52秒
在通用模型之外,面向垂直领域的行业大模型也是各个厂商的「必争之地」。构建一个智能对话框不是最难的,让大模型融入具体的业务、成为新的生产工具更重要。对此,中国电信已早早布局。
本次论坛中,中国电信宣布了首批试商用12个行业大模型,包括星辰教育大模型、治理大模型、政务服务大模型、应急大模型、医保大模型、交通大模型、住建大模型、金融大模型、神农一号大模型、出行大模型、旅游导览大模型、矿山大模型。
比如星辰教育大模型,这是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15秒就能完成一篇中英文作文的打分、点评和改进建议,目前已在河南1.2万师生教学中应用并取得良好的效果。再比如星辰基层治理大模型,主要应用场景包括矛盾调节助手、线上法律顾问和公文助手等,目前已在某些城市的多个基层社区上线应用。
通用人工智能,越来越近
转眼间,距离 ChatGPT 发布已经快过去一年,热度却丝毫未减。究其原因,是因为大模型终于清晰地指出了一条前往通用人工智能的路。
一直以来,中国电信都将通用人工智能的目标当成长期努力的方向。近年来,从视觉、语音、语义到集各种模态能力于一身的数字人,中国电信目前已完成了全面布局,很多技术成果也逐渐投入实际生产使用。
谈到对通用人工智能的理解,何忠江表示,这仍然是一条漫长的道路,包括「感知智能」、「认知智能」、「具身智能」、「群体智能」几种阶段。
理想中的人工智能是像人一样能看、能听、会思考。借助视觉和语音的技术,模型把信息采集到以后,核心是要对信息做出判断,给出下一步的决策思路,这其实就是大语言模型在目前阶段起到的作用。
当这种决策能力落在虚拟空间中的数字人或是现实空间中的机器人,就意味着「具身智能」的诞生,假如数字人和机器人能够相互协作、统筹和调度,这就意味着「群体智能」诞生了,通用人工智能在这个过程中离我们越来越近。
比如在下方这个案例中,星辰语义大模型用来撰写宣传主题文案,星辰多模态大模型用来绘制产品海报,在这个过程中,数字人起到了下达指令的作用,也可视为人类的「数字分身」。
最开始,数字人将任务描述为:「中国电信有一款最新的产品是直连卫星的产品,我们假设要给这款产品做一些广告宣传的文案,我们应该通过大模型怎么来做?」短短两分钟,一张精美的海报就完成了。
面向下一阶段的竞争,中国电信的万亿大模型已经开启训练计划,并预计将于明年5月份完成。据了解,电信万亿参数大模型是以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。
可以想象的是,在不远的未来,融合语言、视觉和语音等多模态能力的大模型将会适应现实世界中不同模态的任务,逐渐接近甚至超越人类的水平。曾经只会出现在科幻作品的情节,终将走进现实。