腾讯会议天籁实验室用AI帮听障人群“清”听世界

2022.07.19

肖玮(右三)和他的团队。

肖玮是腾讯会议天籁实验室的音频算法工程师。他为腾讯会议等音视频会议工具开发的算法可以增强实时、端到端的数字通讯效果。

肖玮和同事相信腾讯会议背后先进的会议技术为世界各地的人们带来便利,人们可以在疫情期间继续工作和沟通。

经过调查研究,他们发现音频质量的改善和降噪效果可以为听障人群提供帮助,而这恰是对腾讯科技向善使命的践行。

将算法技术有效地应用于另一个专业领域并非易事,你需要从对方的角度理解问题,保持开放的心态。

                                                                                         肖玮,腾讯会议天籁实验室音频算法工程师

你的身边可能就有听障人士

根据世界卫生组织统计,全球有15亿人听力受损,到2050年,这个数字预计会增长至25亿,其中至少有七亿人需要康复服务。

听障可能会带来严重后果,影响人的学习和发展、就业、人际关系、社会活动参与等等,也会导致孤独、孤立和心理健康问题。 

幸好,听障可以通过辅听技术来缓解,例如使用助听器或人工耳蜗。

听障去污名化,鼓励早期检测

如果你有近视或远视,一般很早就会被发现,能够透过佩戴眼镜来矫正视力。然而佩戴助听器会让人感到尴尬,因为这常被人视为一种身障。

改变观念需要时间和开展宣传教育活动,与此同时,腾讯会议天籁实验室与中国国家耳鼻咽喉疾病临床医学研究中心发布了一款简单的线上测听工具。该工具融合了中国十二生肖的元素,可基于噪声场景下的言语可懂度测试方法,帮助用户快速初步评估和掌握自身的听力健康情况。

善用AI音频帮助听障人群

肖玮和腾讯会议天籁实验室的同事最初使用通信技术帮助听障人群时,曾尽力消除或抑制背景噪音。然而,测试用户的反馈表明,过度抑制噪声反而降低了语音的可懂度。

有一天,肖玮跟一位专家聊天时,对方提醒他,从听力学的角度来说,语音的可懂度是最重要的。他突然意识到,听障人士想听到的是语音。我们要做的不是对抗噪音,而是必须保留语音结构,保留好用户想感知的声音成分。

工程师们借鉴腾讯会议使用的AI增强技术和深度学习模型,设计了新的方法,在降噪之前先努力保留语音,这样可以有效提升噪声场景下的语音可懂度。

腾讯天籁实验室的研究员正在采集室外噪音。

“噪音猎人”让声音更清晰

2021.07.14

借助智能手机驾驭AI音频

智能手机已经成为AI音频技术的重要组成部分。它们对于捕捉和处理声音至关重要,也能通过蓝牙将声音传输到听力设备,例如人工耳蜗或助听器

对于肖玮来说,难点在于设计算法,根据环境和用户的需求,增强或降低噪音。他把这比作为近视者提供度数合适的镜片。现在,听障人士可以使用一款App来个性化设置降噪或语音增强的程度,获得个性化的辅听效果,即使专业医生不在场辅导亦能独自完成。

腾讯会议天籁实验室还为轻度听损人群找到了经济实惠的解决方案,他们只需使用耳机,不需要定制耳蜗或助听器。例如,当他们在教室或讲堂,可以把智能手机放在主讲人附近的桌子上。借助一款免费App,手机可以捕捉和处理语音,然后通过蓝牙传输到用户的耳机。与此同时,App上也可以实时显示字幕,帮助听障用户理解内容。

AI技术如何帮助听障群体“听更清”?

2020.11.19

老年人优先

老年人深受听障问题影响,全球65岁以上人士有三分之一存在至少中度的听力受损,且该情况会随着年龄的增长而严重。研究显示听障问题与失智和抑郁相关。

为了评估音频技术在现实生活中的应用效果,肖玮和团队成员会去菜市场等嘈杂的地方实地评估。有一天,他们观察了一位婆婆如何使用App来与商贩交谈,这个App利用腾讯会议天籁实验室的音频技术开发的。App能处理商贩说的话,然后转换成大字号的文字显示在智能手机上。

同样,老年人若想跟亲朋好友们打电话,只要接听电话就会自动启动一个微信小程序,老年人可以一边听电话,一边看到手机屏幕上显示的字幕。在这种场景下,字幕辅听和声音辅听都发挥了作用。

跨行业协作找到问题的解决方案

跨行业协作是腾讯天籁实验室的核心工作。实验室的工程师经常与不同行业的专家联络,这些专家会请他们协助解决难题。设备制造商也经常向腾讯天籁实验室寻求技术支持。凭借强大的AI音频算法和深度学习能力,腾讯天籁实验室团队充分发挥这项技术的潜力,赋能合作方实现突破。

将算法技术有效地应用于另一个专业领域并非易事。肖玮说,这有赖于坚实的技术基础,技术人员对新应用领域的敏感度,以及打通技术和应用之间的连接点。最重要的是,你需要从对方的角度来理解问题,保持开放的心态。