“噪音猎人”让声音更清晰

2021.07.14

“猪肉铺开始剁肉了,走!”王燕南小心翼翼地在肉案上放好收音设备,希望能够采集到剁肉的声音。燕南及其团队已经收集了吆喝声、剁肉声和脚步声,这些声音都被用于腾讯天籁实验室的研究项目。

对于燕南和穿梭在大街上的同事而言,噪音就像他们的“猎物”,被他们追踪、捕获并销毁。这些工程师被戏称为“噪音猎人”,他们运用高超的“捕猎”技能,帮助全世界听到更优质、更清晰的声音。

腾讯天籁实验室的研究员正在采集室外噪音。

燕南在声音领域有着多年的研究经验,因此对声音极为敏感。他认为降噪技术可以为很多人的生活带来积极的改变。

随着通信设备不断更新和完善,人们的通话场景可能是人行道或拥挤的人群中等五花八门的地点。因此,想要改善收听的效果,重点在于了解如何降噪。

对此,燕南解释道:“我们在菜市场也能清晰地听到猪肉铺老板说话,是因为我们的耳朵选择性地屏蔽了剁肉声。我们团队想要开发出比拟人耳功能的技术。要想消除噪音,先要识别噪音,然后再主动干预。”

这个解决方案看似简单,但却困扰了工程师多年,其难点在于如何区分噪音与人的声音。腾讯天籁实验室的工程师坦言,声音处理之所以难,是因为声音资料是一维的。图像是二维的,视频是三维的,因此区分后两种格式的不同层次相对容易。

要识别音频中的噪音,工程师首先需要收集大量噪音资料,然后剪切、清理和提取这些数据的共同特征,并将其放入算法模型。疫情之前,腾讯工程师们每天都会带着录音设备在办公室四处走动,捕捉同事敲击键盘的声音、关门的声音以及商务环境中的其他噪音。

腾讯天籁实验室的工作设备。

疫情出现后,由于远程工作的需求激增,更多人认识了一款用户过亿的产品:腾讯会议。这个广受欢迎的视频会议平台背后所采用的核心技术便是腾讯天籁实验室开发的AI降噪技术。

疫情前,电话会议的使用往往更为常规,通话效果很好。人们一般会在特定位置使用固网电话拨入会议。通话过程清晰可控,所需技术相对简单。

但疫情改变了一切。在过去的一年到一年半左右,人们在很多不同类型的地点来进行电话或视频会议,所采用的技术和网络也各不相同,这给腾讯会议团队带来了极为复杂的技术挑战。工作人员需要面对延迟、语音丢包及带宽拉升等种种新问题。

在所有挑战中,最首要的便是识别用户加入会议的地点,例如机场、公共广场、地铁车厢或其他嘈杂的地方。所有声音以不同频率混杂在一起,让识别人声的难度骤增。面对这一挑战,其中一个解决办法是使用统一的音频处理解决方案,通过一个复杂模型来辨别和过滤各种场景中的噪音。

腾讯多媒体实验室高级总监商世东在实验室工作。

腾讯会议运用人工智能来识别和增强人声,同时减少其他不必要的声音,已实现语音通话品质提升近50%。通过分析和处理噪音猎人收集的声音,包括公交车站的嘈杂声音、人声、雨声等,腾讯会议团队能够更好地识别并消除视频会议中出现的这类声音,从而使人声更加清晰。

腾讯会议团队凭借强大的技术工程和研究能力令这一解决方案得以实现,并以96%的分辨准确率在世界知名的行业竞赛中脱颖而出。这意味着,在96%的情况下,腾讯会议都能够识别并去除多余的杂音。

“过去,我们的工作重点是利用新技术取得新突破、打造新产品。而如今,我们将重心放在持续改进算法上,期望能够发现部署AI降噪技术的新方法,帮助更多人。”腾讯多媒体实验室高级总监、天籁实验室负责人商世东说道。“借助这项技术,我们甚至可能改善老年人的生活品质。”