第A19版:2024新春特辑·汽车

“克隆声音”为远方家人送陪伴

最新科技甚至能“创造”方言和外语声音

文静

本文字数:1377

“声音克隆”技术为远方家人带来陪伴

消防员录制用于声音克隆的语音片段。

小朋友认真倾听“克隆声音”故事集。

扫二维码看“声音克隆”技术视频。

  科技新知  

  临近春节,大家都希望能在假期回家陪伴家人,尤其是家里有孩子的,共聚天伦。然而,有些职业的特殊性,如警察、消防员、医护人员、公交地铁运营人员等,过年期间,他们需要留守岗位,为广大市民服务。如何陪伴远在千里之外的家人?如今有大模型支持下的AI技术能帮助大家解决这一问题。除了过年期间,“克隆”语音的情感传递,在智能客服、数字人等交互需求场景下,大模型逐一“落地”。 

  文/广州日报全媒体记者 文静

  图、视频/广州日报全媒体记者 陈馨

  只需录10句话样本

  可生成不同语言的故事朗读

  “春节都是在消防车上过的。”作为消防员,这一特殊岗位,城市居民过年,就是他们最忙碌的时候。1月30日,广州市天河区珠江东消防救援站留守的消防员们迎来了一位“新朋友”。今年春节,虽然他们不能回家陪伴家人,但利用了AI声音克隆技术,他们依然能陪伴自己的孩子们共度春节。

  AI声音克隆技术是如何使用?仅需按照AI团队提供的语句样板,对着机器进行录制,之后就是等待机器的“训练”了。原来,这项声音克隆技术背后是言犀大模型的支撑。京东云言犀团队技术人员介绍,目前依托言犀TTS(文本转语音)6.0模型,只需录制10句话样本,即可在30分钟内完成模型自动化训练与部署,还原真人音色、音调、语气。支持中文、英文、泰语及广东话、成都话等600多种外语和方言音色。“当时我录进去的是中文,给我孩子朗读出来的是英文故事,孩子听了之后跟我说,爸爸你的英文水平那么好,我就借此鼓励孩子要努力好好学习英文。”广州市天河区棠德消防救援站代理指挥员老裴对记者表示。

  一篇篇“真人”讲故事的背后,是大模型在“努力”工作。在训练阶段,先给人工智能装上“耳朵”,让机器抓住每个人说话的特色。将真人采集的2~3分钟语音,自动切分为10秒内短句,通过ASR语音识别技术,语音转化为对应文本,同时提取音频的声学特征频谱,以此为目标值对基础模型进行微调,形成每个人专有的语音模型。

  在合成阶段,再给人工智能装上“嘴巴”,让机器能像真人一样说话。将输入的故事文本分段、切句,传入训练好的语音模型,通过TTS语音合成技术,模型会依次反馈和播放语音,同时后端持续合成避免等待。不仅要还原录制人的音色,还为人工智能赋予丰富的情感,这也是当下人工智能技术的革新之处。

  智能客服、数字人……

  AI“克隆”满足不同交互场景

  在智能客服交互领域,包括语音、文图生成等,大模型的价值被不断挖掘。现在部分平台尤其是电商、政务、金融、运营商、文娱传媒领域等,智能客服的使用频率不断提升。

  传统客服无法支持“操作步骤讲解”这类复杂需求。新一代智能客服通过上下文信息补全,基于企业知识库进行问答推理,可以将复杂问题解决率提高30%。可以准确地识别用户情绪,及时给出安抚。可以分辨任务型、知识型、闲聊型话题,通过聊天的方式解决任务需求。“在用户体验上,大模型加持,也让智能客服更接近‘真人客服’。”腾讯云智能研发负责人副总裁吴永坚介绍。

  从更大的交互范围来看,AI数字人是人的外貌、声音等多项AI技术支撑下的克隆。据了解,如今阿里、京东、百度、腾讯、蚂蚁等互联网大厂均推出数字人技术。百度的数字人技术用于AI电商,利用文心一言大模型的生成能力及多种自研技术,商家三个步骤,最快5分钟就能完成数字人直播间的制作,一键开播,数据显示,百度数字人能降低商家近80%的直播运营成本。

分享到微信
使用"扫一扫"即可将网页分享至朋友圈
版权所有 不得转载
1999-2011@广州市交互式信息网络有限公司 (大洋网)
经营许可证编号:粤B2-20040381信息网络传播视听节目许可证: 1906152
联系我们:81883088总机转各部门
订报咨询电话:81911089
广告咨询电话:81163279
广州日报官方微信
广州日报新花城APP
广州日报2024新春特辑·汽车 A19“克隆声音”为远方家人送陪伴 文静2024-02-01 2 2024年02月01日 星期四