研究人员发现隐藏音频可劫持AI语音模型,在用户不知情下强制其执行搜索、下载文件和发送邮件等操作。
AI语音和音频工具正越来越深入地嵌入日常生活——数字助理、智能音箱、自动转录服务以及客服机器人。大型音频语言模型的发展使设备能够理解语音指令、转录会议甚至识别背景音乐。但这些模型同时暴露了一个严重的安全隐患:人耳无法察觉的隐藏音频信号可以劫持AI的行为。
浙江大学和合作机构的研究团队开发了一种名为AudioHijack的攻击技术,可攻击13个主流开源大音频语言模型,包括微软和Mistral的商业语音服务。这些隐藏的音频指令在普通人听来与正常声音几乎没有区别,但却能以平均79%到96%的成功率操纵AI执行未经授权的操作。
研究证明,攻击者可以将恶意指令隐藏在网络视频、音乐片段或语音笔记中。当用户向AI询问关于该音频的问题时,隐藏指令随之激活,强制模型执行敏感的网络搜索、从攻击者控制的服务器下载文件,甚至发送包含用户数据的电子邮件。在后续未公开的研究中,团队还实现了在AI实时语音聊天中注入恶意音频的能力。攻击者只需要约30分钟来训练一个攻击信号,此后可以反复使用。
AudioHijack利用了大型音频语言模型设计中的关键安全缺陷:这类模型可以接收音频格式的指令,因此恶意指令可以被隐藏在看似正常的音频剪辑中。与针对传统生成式模型的攻击不同,AudioHijack的攻击者仅需操控被AI处理的音频数据,不需要控制用户的原始指令或交互环境,使其可以在用户正常使用AI的过程中进行攻击。
研究团队指出,即使音频AI的能力不断增强,安全性并未同步跟进。当语音助手的能力越来越强大时,保护它们不被声音本身攻击的挑战也越来越紧迫。