「噪音獵人」讓聲音更清晰

2021.07.14

「豬肉鋪開始剁肉了,我們去吧!」王燕南小心翼翼地在肉枱上放好收音設備,希望能夠採集到剁肉的聲音。燕南及其團隊已經收集了吆喝聲、剁肉聲和腳步聲,這些聲音都被用於騰訊天籟實驗室的研究項目。

對於燕南和穿梭在大街上的同事而言,噪音就像他們的「獵物」,被他們追蹤、捕獲並銷毀。這些工程師被戲稱為「噪音獵人」,他們運用高超的「捕獵」技能,幫助全世界聽到更優質、更清晰的聲音。

騰訊天籟實驗室的研究員正在採集室外噪音。

燕南在聲音領域擁有多年的研究經驗,因此對聲音極為敏感。他認為降噪技術可以為很多人的生活帶來積極的改變。

隨著通信設備不斷更新和完善,人們的通話場景可能是行人路上或擁擠的人群中等五花八門的地點。因此,想要改善收聽的效果,重點在於了解如何降噪。

對此,燕南解釋道:「我們在街市也能夠清晰地聽到豬肉鋪老闆說話,是因為我們的耳朵選擇性地屏蔽了剁肉聲。我們團隊想要開發出比擬人耳功能的技術。要想消除噪音,先要識別噪音,然後再主動干預。」

這個解決方案看似簡單,但卻困擾了工程師多年,其難處在於如何區分噪音與人的聲音。騰訊天籟實驗室的工程師坦言,聲音處理之所以難,是因為聲音資料是一維的。圖像是二維的,視頻是三維的,因此區分後兩種格式的不同層次相對容易。

要識別音頻中的噪音,工程師首先需要收集大量噪音資料,然後剪接、清理和提取這些數據的共同特徵,並將其放入演算法模型。疫情之前,騰訊工程師們每天都會帶著錄音設備在辦公室四處走動,捕捉同事敲擊鍵盤的聲音、關門的聲音以及商務環境中的其他噪音。

騰訊天籟實驗室的工作設備。

疫情出現後,由於遙距工作的需求激增,更多人認識了一款用戶過億的產品:騰訊會議。這個廣受歡迎的視像會議平台背後所採用的核心技術便是騰訊天籟實驗室開發的AI降噪技術。

疫情前,電話會議普遍獲常規使用,通話效果亦很好。人們一般會在特定位置使用固網電話撥入會議。通話過程清晰可控,所需技術非常簡單。

但疫情改變了一切。在過去的一年到一年半左右,人們散布在很多不同類型的地點來進行電話或視像會議,所採用的技術和網絡也迥異,這給騰訊會議團隊帶來了極為複雜的技術挑戰。工作人員需要面對延遲、語音丟包及頻寬拉升等種種新問題。

在所有挑戰中,最首要的便是識別用戶加入會議的地點,例如機場、公共廣場、地鐵車廂或其他嘈雜的地方。所有聲音以不同頻率混雜在一起,讓識別人聲的難度驟增。面對這挑戰,其中一個解決辦法是使用統一的音頻處理解決方案,通過一個複雜模型來辨別和過濾各種場景中的噪音。

騰訊多媒體實驗室高級總監商世東在實驗室工作。

騰訊會議運用人工智能來識別和增強人聲,同時減少其他不必要的聲音,已實現語音通話品質提升近50%。通過分析和處理噪音獵人收集的聲音,包括巴士站的嘈雜聲音、人聲、雨聲等,騰訊會議團隊能夠更好地識別並消除視訊會議中出現的這類聲音,從而使人聲更加清晰。

騰訊會議團隊憑藉強大的技術工程和研究能力令這解決方案得以實現,並以96%的分辨準確率在世界知名的行業競賽中脫穎而出。這意味著,在96%的情況下,騰訊會議都能夠識別並去除多餘的雜音。

「過去,我們的工作重點是利用新技術取得新突破、打造新產品。而如今,我們將重心放在持續改進演算法上,期望能夠發現部署AI降噪技術的新方法,幫助更多人。」騰訊多媒體實驗室高級總監、天籟實驗室負責人商世東說道。「藉此技術,我們甚至可能改善到長者的生活品質。」