人工智能耳机：只需看一眼就能在人群中听清特定声音

降噪耳机在创造安静的聆听环境方面取得了长足进步，但如何让用户选择性地听到周围特定声音仍然是研究难题。例如，苹果最新款的 AirPods Pro 可以根据环境自动调节音量 (例如，检测到对话时)，但用户却无法控制想听谁说话以及何时启用降噪功能。

华盛顿大学的研究团队开发了一种人工智能系统，可以让用户通过耳机注视某人说话 3-5 秒来「锁定」他们的声音。该系统名为「目标语音聆听」(Target Speech Hearing)，可以消除周围所有其他噪音，并实时播放所锁定说话人的声音，即使聆听者在嘈杂的环境中走动或不再面对说话人也能做到这一点。

研究团队在 5 月 14 日于檀香山举行的计算机-人类交互设计大会 (ACM CHI) 上展示了这项研究成果。他们还提供了该概念验证设备的代码，供其他人进行进一步开发。目前该系统尚未商用。

该论文的资深作者、华盛顿大学保罗·艾伦计算机科学与工程学院教授 Shyam Gollakota 表示：「我们现在通常认为人工智能是网络聊天机器人，可以回答问题。但在这个项目中，我们开发的人工智能可以根据佩戴耳机者的偏好来改变他们的听觉感知。使用我们的设备，即使您身处嘈杂的环境中，周围有很多其他人聊天，您仍然可以清晰地听到某一个人的声音。」

要使用该系统，佩戴普通耳机并配有麦克风的用户只需在转头看向目标说话人的同时轻按一个按钮。来自该说话人声音的声波会同时到达耳机两侧的麦克风 (允许 16 度的误差范围)。耳机将信号发送到内置的嵌入式计算机，团队的机器学习软件会在此学习目标说话人的语音模式。系统会锁定该说话人的声音，并持续播放给聆听者，即使他们四处走动也不会中断。随着说话人继续讲话，系统将获得更多训练数据，其聚焦锁定声音的能力也会随之提升。

研究团队测试了该系统，21 名参与者平均认为锁定说话人的声音清晰度是未经滤波音频的近两倍。

这项工作基于该团队之前「语义聆听」的研究成果，该研究允许用户选择他们想要听到的特定声音类别 (例如鸟叫声或人声)，并消除环境中的其他声音。

目前，TSH 系统一次只能锁定一个说话人，并且只能在目标说话人声音的方向没有其他大声噪声时进行锁定。如果用户对声音质量不满意，可以再次对说话人进行锁定以提高清晰度。

该团队正致力于未来将该系统扩展到耳塞和助听器上。

本文译自 UW News，由 BALI 编辑发布。